633 পড়া

ব্যবসায়িক বুদ্ধিমত্তার জন্য AI দিয়ে ডেটা প্রস্তুতির উন্নতি করা

দ্বারা Cleanlab6m2023/11/07

অতিদীর্ঘ; পড়তে

নিবন্ধটি আলোচনা করে যে কীভাবে ডেটা বিশ্লেষণ এবং ব্যবসায়িক বুদ্ধিমত্তার জগতে ডেটা দলগুলি ব্যবসায়িক ব্যবহারকারীদের জন্য প্রয়োজনীয় সমাধানগুলি তৈরি করে এবং ডেটার জন্য পরিকাঠামো তৈরি করে এমন ইঞ্জিনিয়ারিং টিমের সাথে কাজ করে৷ এই সমাধানগুলি তৈরি করা বিশ্লেষকদের অবশ্যই বিভিন্ন উত্স থেকে তাদের ডেটা প্রস্তুত করতে হবে, নিশ্চিত করতে হবে যে ডেটাগুলি অনুসন্ধানের জন্য স্যানিটাইজ করা হয়েছে, যা ডেটা প্রস্তুতির সরঞ্জামগুলির মাধ্যমে করা হয়। ডেটা-কেন্দ্রিক AI অনুশীলনগুলি ডেটা ধাপের পরিষ্কারকে স্বয়ংক্রিয় করতে পারে, আপনাকে ন্যূনতম প্রচেষ্টার সাথে ডেটাসেটের একটি ক্লিনার সংস্করণ রপ্তানি করতে সক্ষম করে। নিবন্ধটি আরও ব্যাখ্যা করে যে কীভাবে ডেটা গুণমান বজায় রাখা কার্যকর ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ এবং কীভাবে ডেটা-কেন্দ্রিক এআই একটি এআই সিস্টেম তৈরি করতে ব্যবহৃত ডেটাকে পদ্ধতিগতভাবে ইঞ্জিনিয়ারিংয়ের শৃঙ্খলা।

featured image - ব্যবসায়িক বুদ্ধিমত্তার জন্য AI দিয়ে ডেটা প্রস্তুতির উন্নতি করা

ডেটা অ্যানালিটিক্স এবং বিজনেস ইন্টেলিজেন্সের জগতে, ডেটা টিমগুলিকে " বেগুনি দল " নামেও ডাকা হয়, যারা ব্যবসায়িক ব্যবহারকারীদের জন্য প্রয়োজনীয় সমাধানগুলি তৈরি করে (লাল) এবং ইঞ্জিনিয়ারিং টিমগুলির সাথে কাজ করে (নীল), মূলত ডেটার জন্য অবকাঠামো তৈরি করে .

BI দলগুলি প্রধানত ফ্লো বা পাইপলাইন তৈরিতে কাজ করে যা ব্যবসায়িক ব্যবহারকারীর ব্যবহারের জন্য রিপোর্ট এবং প্রয়োজনীয় ড্যাশবোর্ড সরবরাহ করে।

অনেক নতুন প্রজন্মের টুল রয়েছে যা ডেটা টিমগুলিকে এই শেষ-ব্যবহারকারীর সমাধানগুলি তৈরি করতে সাহায্য করে, যেমন মোড , সুপারসেট , এবং লাইটড্যাশ , বা শিল্পের নেতারা যারা কিছু সময়ের জন্য "ডেটা বিশ্লেষণ" স্পেসে ছিলেন, যেমন টেবল বা পাওয়ারবিআই৷

এই সমাধানগুলি তৈরিকারী বিশ্লেষকদের অবশ্যই বিভিন্ন উত্স থেকে তাদের ডেটা প্রস্তুত করতে হবে, নিশ্চিত করতে হবে যে ডেটাটি অনুসন্ধানের জন্য স্যানিটাইজ করা হয়েছে। "ডেটা প্রিপ" নামক ওয়ার্কফ্লোতে একটি ক্লিনজিং স্টেপ সম্পাদনের লক্ষ্যে টুল বা ট্রান্সফর্মেশনের একটি সেট।

বৃহৎ ভাষার মডেলের আবির্ভাবের সাথে, সফ্টওয়্যার ইঞ্জিনিয়ারিং স্ট্যাক জুড়ে AI নিয়ে আলোচনা করা একটি সাধারণ প্রবণতা। কিন্তু আমি যদি বলি: ডেটা-কেন্দ্রিক AI অনুশীলনগুলি ব্যবহার করে, আমরা ডেটা ধাপের পরিষ্কারকে স্বয়ংক্রিয়ভাবে করতে পারি? আপনাকে ন্যূনতম প্রচেষ্টায় ডেটাসেটের একটি ক্লিনার সংস্করণ রপ্তানি করতে সক্ষম করে!

এই ব্লগে, আমরা আলোচনা করব কীভাবে ডেটা-কেন্দ্রিক AI ব্যবহার করে, আপনি আপনার পরবর্তী ডেটা বিশ্লেষণ থেকে নির্ভরযোগ্য সিদ্ধান্ত নিশ্চিত করতে BI টুলগুলির জন্য আপনার ডেটা সহজেই প্রস্তুত করতে পারেন।

ডেটা বিশ্লেষক কর্মপ্রবাহ

বেশ কয়েক বছর আগে, ডেটা বিশ্লেষকদের ম্যানুয়ালি ডেটা সংগ্রহ, পরিষ্কার এবং বিশ্লেষণ করতে হয়েছিল, যা ছিল একটি সময়সাপেক্ষ প্রক্রিয়া যা তাদের মূল্যবান অন্তর্দৃষ্টি অর্জনের ক্ষমতাকে সীমিত করেছিল।

আজ, ডাটা অ্যানালাইসিস ল্যান্ডস্কেপ একটি উল্লেখযোগ্য পরিবর্তন সাধিত হয়েছে যেমন Alteryx , Tableau , ইত্যাদি ডেটা প্রস্তুতির সরঞ্জামগুলির প্রবর্তনের মাধ্যমে।

এই দক্ষ সরঞ্জামগুলি কর্মপ্রবাহকে সরলীকৃত করেছে, বিশ্লেষকদের একাধিক উত্স থেকে নির্বিঘ্নে ডেটা সংহত করতে, ডেটা পরিষ্কার করার কাজগুলি স্বয়ংক্রিয় করতে এবং ডেটার দৃশ্যত আকর্ষণীয় এবং অন্তর্দৃষ্টিপূর্ণ উপস্থাপনা তৈরি করতে সক্ষম করে।

ম্যানুয়াল ডেটা প্রস্তুতির পরে ডেটা বিশ্লেষণ

নির্দিষ্ট ব্যবসায়িক প্রশ্ন শনাক্ত করার জন্য BI টুল ব্যবহার করে টুলগুলি ব্যবহার করে প্রস্তুত করা ডেটা বিশ্লেষণ করা হয়।

উদাহরণস্বরূপ, একটি ব্যাঙ্কের মধ্যে গ্রাহকদের অনুরোধের এই ডেটাসেটটি বিবেচনা করুন যেখানে গ্রাহকরা একটি গ্রাহক পরিষেবা পোর্টালে যে সমস্যার সম্মুখীন হচ্ছেন সেগুলি লগ করে, যেটিকে একজন মানব বা স্বয়ংক্রিয় টাস্ক ম্যানেজার তারপর লেবেল করে।

কল্পনা করুন যদি একজন ব্যবসায়িক বিশ্লেষক একটি নির্দিষ্ট সমস্যা বিভাগের জন্য উপস্থিত গ্রাহকের অনুরোধের সংখ্যা নির্ধারণ করতে চান। তিনি/তিনি যে ফলাফলটি দেখতে পাবেন তা নীচে দেওয়া হল - beneficiary_not_allowed শ্রেণীতে 111 গ্রাহকের সমস্যা দেখা যাচ্ছে।

একইভাবে, যদি একজন বিশ্লেষক ATM শব্দের সাথে সম্পর্কিত সমস্যার কতগুলি উদাহরণ খুঁজে বের করতে চান, একটি দ্রুত বিশ্লেষণ ভিজ্যুয়াল প্রতিনিধিত্বের নীচে ফিরে আসবে। change_pin বিভাগের জন্য সমস্যার সংখ্যা লক্ষ্য করুন।

এটি দেখতে সহজ এবং সহজবোধ্য, কিন্তু আপনি যদি ডেটাসেটের গভীরে খনন করেন, আপনি দেখতে পাবেন গ্রাহকের অনুরোধের শ্রেণীকরণ কিছু ক্ষেত্রে ভুল।

উদাহরণ স্বরূপ:

পাঠ্য	লেবেল (ডেটাসেট অনুযায়ী)	লেবেল (আদর্শভাবে)
আমার কার্ডের মেয়াদ প্রায় শেষ। আমি কত দ্রুত একটি নতুন একটি পেতে হবে, এবং খরচ কি?	apple_pay_or_google_pay	কার্ড_এবউট_মেয়াদ শেষ

রিয়েল-ওয়ার্ল্ড ডেটা, বেশিরভাগ অংশের জন্য, অগোছালো এবং অসংগঠিত, যা পরিসংখ্যানের মাধ্যমে মান কাটানো কঠিন করে তোলে। যেহেতু আমরা চাই মানুষ এবং মেশিনগুলি ডেটা দ্বারা চালিত সিদ্ধান্তগুলি গ্রহণ করুক, তাই ডেটার জন্য ভাল-লেবেলযুক্ত, কোনও ভুল ডেটা পরিষ্কার করা এবং ডি-ডুপ্লিকেট করা গুরুত্বপূর্ণ।

ডেটা-কেন্দ্রিক AI

বিশ্লেষণে ব্যবহৃত ডেটা সঠিক, আপ-টু-ডেট এবং সদৃশ থেকে মুক্ত তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ। এটি করতে ব্যর্থ হলে ভুল সিদ্ধান্ত এবং উপসংহার হতে পারে। উদাহরণস্বরূপ, ব্যবহারকারীর প্রোফাইল ডেটাতে একটি খালি অবস্থান ক্ষেত্র বা অবস্থান ক্ষেত্রের অসঙ্গত বিন্যাস ত্রুটির কারণ হতে পারে। অতএব, ডেটা গুণমান বজায় রাখা কার্যকর ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ।

ডেটা-কেন্দ্রিক AI হল একটি AI সিস্টেম তৈরি করতে ব্যবহৃত ডেটাকে পদ্ধতিগতভাবে ইঞ্জিনিয়ারিং করার শৃঙ্খলা। বাস্তব জগতের বেশিরভাগ ডেটাই অসংগঠিত বা ভুলভাবে লেবেলযুক্ত। লেবেলযুক্ত প্রশিক্ষণ ডেটার সঠিক সেট সহ একটি গুণমান ডেটাসেট একটি দক্ষ মডেলের দিকে নিয়ে যায়, যা আরও ভাল ফলাফলের পূর্বাভাস দিতে পারে।

আরও ভাল ফলাফল একটি ভাল গ্রাহক অভিজ্ঞতা প্রদান করে। আরও জানতে, আপনি MIT থেকে ডেটা-কেন্দ্রিক AI কোর্সটি দেখতে পারেন।

ক্লিনল্যাব চালু করা হচ্ছে

ক্লিনল্যাব হল একটি ওপেন সোর্স প্রজেক্ট যা আপনাকে ডেটাসেটের সমস্যাগুলি স্বয়ংক্রিয়ভাবে সনাক্ত করে ডেটা এবং লেবেলগুলি পরিষ্কার করতে সহায়তা করে৷ Cleanlab আত্মবিশ্বাসী শিক্ষা ব্যবহার করে - কার্টিস নর্থকাট (এছাড়াও Cleanlab.ai- এর সহ-প্রতিষ্ঠাতা) এবং অন্যদের দ্বারা ডেটাসেট লেবেলে অনিশ্চয়তা অনুমান করার বিষয়ে কথা বলে একটি কাগজের উপর ভিত্তি করে।

ক্লিনল্যাব মূলত এআইকে প্ররোচিত করে ডেটা বিশ্লেষণের কর্মপ্রবাহ বাড়ায়।

Cleanlab Studio ব্যবহার করে আপনার ডেটা স্বয়ংক্রিয়ভাবে পরিষ্কার করুন

ক্লিনল্যাব স্টুডিও হল একটি নো-কোড টুল যা ওপেন-সোর্স প্যাকেজ ক্লিনল্যাবের উপরে তৈরি করা হয়েছে—এটি বিশ্লেষণ কর্মপ্রবাহের জন্য ডেটা প্রস্তুত করতে সাহায্য করে। এছাড়াও আপনি আপনার ডেটা গুদাম যেমন Databricks , Snowflake , অথবা AWS S3 এর মতো ক্লাউড অবজেক্ট স্টোর থেকে ডেটা আমদানি করতে পারেন৷

ধাপ 1:

ক্লিনল্যাব স্টুডিওতে অ্যাক্সেসের জন্য সাইন আপ করুন।

আপনাকে কিছু নমুনা ডেটাসেট এবং প্রকল্প সহ একটি ড্যাশবোর্ডে লগ ইন করা হবে।

ধাপ ২:

আপলোড উইজার্ড শুরু করতে "আপলোড ডেটাসেট" এ ক্লিক করুন৷ আপনি আপনার কম্পিউটার, URL, API, বা Databricks এবং Snowflake এর মতো ডেটা গুদাম থেকে ডেটাসেট আপলোড করতে পারেন।

ক্লিনল্যাব স্টুডিও স্বয়ংক্রিয়ভাবে আপনার ডেটা স্কিমা এবং মোডালিটি, যেমন, পাঠ্য, চিত্র, ভয়েস বা ট্যাবুলার অনুমান করে।

একবার আপনি বিশদটি নিশ্চিত করলে, আপনাকে আপলোড করা ডেটাসেট এবং ডেটা আপলোড করার সময় সম্পর্কিত ত্রুটিগুলি (যদি থাকে!) সম্বলিত একটি স্ক্রীন দেখানো হবে৷

দ্রষ্টব্য: কিছু ডেটাসেট আপলোড হতে কয়েক মিনিট সময় লাগতে পারে। ডেটাসেটটি সম্পূর্ণরূপে ক্লিনল্যাব স্টুডিওতে ইমেলের মাধ্যমে আপলোড হয়ে গেলে ক্লিনল্যাব আপনাকে জানাবে।

ধাপ 3:

ডেটাসেটের প্রকারের উপর ভিত্তি করে, আপনি ডেটার সমস্যাগুলি সনাক্ত করতে একটি নির্দিষ্ট মেশিন-লার্নিং টাস্ক ব্যবহার করতে পারেন। বর্তমানে, ক্লিনল্যাব স্টুডিও টেক্সট, ট্যাবুলার এবং ইমেজ ডেটা সম্পর্কিত বেশ কয়েকটি এমএল শ্রেণীবিভাগের কাজ সমর্থন করে।

শ্রেণীবিভাগের জন্য নির্দিষ্ট, এটি K শ্রেণীর একটি বা K শ্রেণীর একটি থেকে N হতে পারে। এই ডেটাসেটে, প্রতিটি গ্রাহকের অনুরোধ একটি নির্দিষ্ট বিভাগের অধীনে পড়ে। এটি একটি "মাল্টি-ক্লাস" শ্রেণীবিভাগ হবে।

ক্লিনল্যাব স্টুডিও পাঠ্য এবং লেবেল কলামটি স্বয়ংক্রিয়ভাবে সনাক্ত করবে। প্রয়োজনে আপনি এটি সংশোধন করতে পারেন।

দ্রুত মডেল ব্যবহার করা সেরা ফলাফল নাও হতে পারে; সময়ের স্বার্থে, দ্রুত নির্বাচন করা একটি বিকল্প।

হিট " আমার ডেটা পরিষ্কার করুন! "

ধাপ 4:

ক্লিনল্যাব স্টুডিও ডেটাসেটে মডেলের একটি দল চালায় এবং একটি সমস্যা ওভারভিউ উপস্থাপন করে!

যেমনটি আগে উল্লেখ করা হয়েছে, ডেটাসেটে ডেটা এবং আউটলায়ারগুলিকে ভুল শ্রেণিবদ্ধ করা হয়েছে, যা বিশ্লেষণ করার সময় সামগ্রিক সিদ্ধান্ত গ্রহণের প্রক্রিয়াতে মান যোগ করতে পারে না।

এছাড়াও আপনি উপরের বিশ্লেষণ ভিউতে স্যুইচ করে ডেটাসেটে ক্লিনল্যাব স্টুডিও দ্বারা চিহ্নিত সমস্যাগুলির মেটা-বিশ্লেষণের দিকে নজর দিতে পারেন।

ধাপ 5:

ক্লিনল্যাব স্টুডিওর আকর্ষণীয় অংশটি কেবল একটি পরিষ্কার করা ডেটাসেট রপ্তানি নয় বরং আপনার ডেটার একটি সমস্যা-ভিত্তিক দৃশ্য অফার করছে। অনুপস্থিত ডেটা প্রিপ ওয়ার্কবেঞ্চ যা একজন ডেটা বিশ্লেষক এবং ব্যবসায়িক বুদ্ধিমত্তা ব্যবহারকারী বছরের পর বছর ধরে চেয়েছিলেন।

আপনি ক্লিনল্যাব স্টুডিওতে দেওয়া কীবোর্ড-সহায়ক ক্রিয়া দ্বারা প্রতিটি সমস্যা বাছাই করতে পারেন বা নীচের বোতামে ক্লিক করে একটি "এক্সপোর্ট ক্লিনসেট" রপ্তানি করতে পারেন।

এআই-সহায়তা ডেটা প্রস্তুতির পরে ডেটা বিশ্লেষণ

আসুন পরিষ্কার করা ডেটাসেটের সাথে একই ডেটা বিশ্লেষণ পরীক্ষা করি।

এটা প্রতীয়মান হয় যে cancel_transfer এবং visa_or_mastercard বিভাগের মধ্যে সংখ্যার মধ্যে অমিল রয়েছে। যদিও এটি একটি ছোট ডেটাসেট, এটি মনে রাখা গুরুত্বপূর্ণ যে এই ডেটা সংশোধনগুলি একটি বৃহত্তর স্কেলে উল্লেখযোগ্যভাবে ভিন্ন অনুমান এবং সম্ভাব্য ব্যবসায়িক সিদ্ধান্তের দিকে নিয়ে যেতে পারে।

একইভাবে, আপনি কিছু বিভাগের জন্য গ্রাহকের অনুরোধগুলি খুঁজে পেতে পারেন কারণ সমস্যাগুলি যথাযথভাবে চিহ্নিত করা হয়েছে।

আপনি যদি একজন ডেটা বিশ্লেষক বা ব্যবসায়িক বুদ্ধিমত্তা সম্প্রদায়ের অংশ হন, ক্লিনল্যাব স্টুডিও আপনার ডেটা প্রস্তুতির কর্মপ্রবাহকে বিপ্লব করতে পারে। আজই ক্লিনল্যাব স্টুডিও ব্যবহার করে দেখুন এবং আরও নির্ভরযোগ্য এবং নির্ভুল ডেটা বিশ্লেষণের জন্য এআই-সহায়ক ডেটা পরিষ্কার করার ক্ষমতার অভিজ্ঞতা নিন।

উপসংহার

ক্লিনল্যাব স্টুডিও ফরচুন 500 কোম্পানির হাজার হাজার প্রকৌশলী, বিশ্লেষক এবং ডেটা বিজ্ঞানীদের দ্বারা ব্যবহৃত একটি নো-কোড ডেটা প্রিপারেশন ওয়ার্কবেঞ্চ। এই উদ্ভাবনী প্ল্যাটফর্মটি বাস্তব-বিশ্ব, ভ্রান্ত ডেটা ব্যবহার করে আরও নির্ভরযোগ্য এবং সঠিক মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য MIT-তে অগ্রণী হয়েছিল। আপনি আরও তথ্যের জন্য আমাদের স্ল্যাক সম্প্রদায়ে যোগ দিতে পারেন।