ডেটা অ্যানালিটিক্স এবং বিজনেস ইন্টেলিজেন্সের জগতে, ডেটা টিমগুলিকে " বেগুনি দল " নামেও ডাকা হয়, যারা ব্যবসায়িক ব্যবহারকারীদের জন্য প্রয়োজনীয় সমাধানগুলি তৈরি করে (লাল) এবং ইঞ্জিনিয়ারিং টিমগুলির সাথে কাজ করে (নীল), মূলত ডেটার জন্য অবকাঠামো তৈরি করে .
BI দলগুলি প্রধানত ফ্লো বা পাইপলাইন তৈরিতে কাজ করে যা ব্যবসায়িক ব্যবহারকারীর ব্যবহারের জন্য রিপোর্ট এবং প্রয়োজনীয় ড্যাশবোর্ড সরবরাহ করে।
অনেক নতুন প্রজন্মের টুল রয়েছে যা ডেটা টিমগুলিকে এই শেষ-ব্যবহারকারীর সমাধানগুলি তৈরি করতে সাহায্য করে, যেমন মোড , সুপারসেট , এবং লাইটড্যাশ , বা শিল্পের নেতারা যারা কিছু সময়ের জন্য "ডেটা বিশ্লেষণ" স্পেসে ছিলেন, যেমন টেবল বা পাওয়ারবিআই৷
এই সমাধানগুলি তৈরিকারী বিশ্লেষকদের অবশ্যই বিভিন্ন উত্স থেকে তাদের ডেটা প্রস্তুত করতে হবে, নিশ্চিত করতে হবে যে ডেটাটি অনুসন্ধানের জন্য স্যানিটাইজ করা হয়েছে। "ডেটা প্রিপ" নামক ওয়ার্কফ্লোতে একটি ক্লিনজিং স্টেপ সম্পাদনের লক্ষ্যে টুল বা ট্রান্সফর্মেশনের একটি সেট।
বৃহৎ ভাষার মডেলের আবির্ভাবের সাথে, সফ্টওয়্যার ইঞ্জিনিয়ারিং স্ট্যাক জুড়ে AI নিয়ে আলোচনা করা একটি সাধারণ প্রবণতা। কিন্তু আমি যদি বলি: ডেটা-কেন্দ্রিক AI অনুশীলনগুলি ব্যবহার করে, আমরা ডেটা ধাপের পরিষ্কারকে স্বয়ংক্রিয়ভাবে করতে পারি? আপনাকে ন্যূনতম প্রচেষ্টায় ডেটাসেটের একটি ক্লিনার সংস্করণ রপ্তানি করতে সক্ষম করে!
এই ব্লগে, আমরা আলোচনা করব কীভাবে ডেটা-কেন্দ্রিক AI ব্যবহার করে, আপনি আপনার পরবর্তী ডেটা বিশ্লেষণ থেকে নির্ভরযোগ্য সিদ্ধান্ত নিশ্চিত করতে BI টুলগুলির জন্য আপনার ডেটা সহজেই প্রস্তুত করতে পারেন।
বেশ কয়েক বছর আগে, ডেটা বিশ্লেষকদের ম্যানুয়ালি ডেটা সংগ্রহ, পরিষ্কার এবং বিশ্লেষণ করতে হয়েছিল, যা ছিল একটি সময়সাপেক্ষ প্রক্রিয়া যা তাদের মূল্যবান অন্তর্দৃষ্টি অর্জনের ক্ষমতাকে সীমিত করেছিল।
আজ, ডাটা অ্যানালাইসিস ল্যান্ডস্কেপ একটি উল্লেখযোগ্য পরিবর্তন সাধিত হয়েছে যেমন Alteryx , Tableau , ইত্যাদি ডেটা প্রস্তুতির সরঞ্জামগুলির প্রবর্তনের মাধ্যমে।
এই দক্ষ সরঞ্জামগুলি কর্মপ্রবাহকে সরলীকৃত করেছে, বিশ্লেষকদের একাধিক উত্স থেকে নির্বিঘ্নে ডেটা সংহত করতে, ডেটা পরিষ্কার করার কাজগুলি স্বয়ংক্রিয় করতে এবং ডেটার দৃশ্যত আকর্ষণীয় এবং অন্তর্দৃষ্টিপূর্ণ উপস্থাপনা তৈরি করতে সক্ষম করে।
নির্দিষ্ট ব্যবসায়িক প্রশ্ন শনাক্ত করার জন্য BI টুল ব্যবহার করে টুলগুলি ব্যবহার করে প্রস্তুত করা ডেটা বিশ্লেষণ করা হয়।
উদাহরণস্বরূপ, একটি ব্যাঙ্কের মধ্যে গ্রাহকদের অনুরোধের এই ডেটাসেটটি বিবেচনা করুন যেখানে গ্রাহকরা একটি গ্রাহক পরিষেবা পোর্টালে যে সমস্যার সম্মুখীন হচ্ছেন সেগুলি লগ করে, যেটিকে একজন মানব বা স্বয়ংক্রিয় টাস্ক ম্যানেজার তারপর লেবেল করে।
কল্পনা করুন যদি একজন ব্যবসায়িক বিশ্লেষক একটি নির্দিষ্ট সমস্যা বিভাগের জন্য উপস্থিত গ্রাহকের অনুরোধের সংখ্যা নির্ধারণ করতে চান। তিনি/তিনি যে ফলাফলটি দেখতে পাবেন তা নীচে দেওয়া হল - beneficiary_not_allowed
শ্রেণীতে 111
গ্রাহকের সমস্যা দেখা যাচ্ছে।
একইভাবে, যদি একজন বিশ্লেষক ATM
শব্দের সাথে সম্পর্কিত সমস্যার কতগুলি উদাহরণ খুঁজে বের করতে চান, একটি দ্রুত বিশ্লেষণ ভিজ্যুয়াল প্রতিনিধিত্বের নীচে ফিরে আসবে। change_pin
বিভাগের জন্য সমস্যার সংখ্যা লক্ষ্য করুন।
এটি দেখতে সহজ এবং সহজবোধ্য, কিন্তু আপনি যদি ডেটাসেটের গভীরে খনন করেন, আপনি দেখতে পাবেন গ্রাহকের অনুরোধের শ্রেণীকরণ কিছু ক্ষেত্রে ভুল।
উদাহরণ স্বরূপ:
পাঠ্য | লেবেল (ডেটাসেট অনুযায়ী) | লেবেল (আদর্শভাবে) |
---|---|---|
আমার কার্ডের মেয়াদ প্রায় শেষ। আমি কত দ্রুত একটি নতুন একটি পেতে হবে, এবং খরচ কি? | apple_pay_or_google_pay | কার্ড_এবউট_মেয়াদ শেষ |
রিয়েল-ওয়ার্ল্ড ডেটা, বেশিরভাগ অংশের জন্য, অগোছালো এবং অসংগঠিত, যা পরিসংখ্যানের মাধ্যমে মান কাটানো কঠিন করে তোলে। যেহেতু আমরা চাই মানুষ এবং মেশিনগুলি ডেটা দ্বারা চালিত সিদ্ধান্তগুলি গ্রহণ করুক, তাই ডেটার জন্য ভাল-লেবেলযুক্ত, কোনও ভুল ডেটা পরিষ্কার করা এবং ডি-ডুপ্লিকেট করা গুরুত্বপূর্ণ।
বিশ্লেষণে ব্যবহৃত ডেটা সঠিক, আপ-টু-ডেট এবং সদৃশ থেকে মুক্ত তা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ। এটি করতে ব্যর্থ হলে ভুল সিদ্ধান্ত এবং উপসংহার হতে পারে। উদাহরণস্বরূপ, ব্যবহারকারীর প্রোফাইল ডেটাতে একটি খালি অবস্থান ক্ষেত্র বা অবস্থান ক্ষেত্রের অসঙ্গত বিন্যাস ত্রুটির কারণ হতে পারে। অতএব, ডেটা গুণমান বজায় রাখা কার্যকর ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ।
ডেটা-কেন্দ্রিক AI হল একটি AI সিস্টেম তৈরি করতে ব্যবহৃত ডেটাকে পদ্ধতিগতভাবে ইঞ্জিনিয়ারিং করার শৃঙ্খলা। বাস্তব জগতের বেশিরভাগ ডেটাই অসংগঠিত বা ভুলভাবে লেবেলযুক্ত। লেবেলযুক্ত প্রশিক্ষণ ডেটার সঠিক সেট সহ একটি গুণমান ডেটাসেট একটি দক্ষ মডেলের দিকে নিয়ে যায়, যা আরও ভাল ফলাফলের পূর্বাভাস দিতে পারে।
আরও ভাল ফলাফল একটি ভাল গ্রাহক অভিজ্ঞতা প্রদান করে। আরও জানতে, আপনি MIT থেকে ডেটা-কেন্দ্রিক AI কোর্সটি দেখতে পারেন।
ক্লিনল্যাব হল একটি ওপেন সোর্স প্রজেক্ট যা আপনাকে ডেটাসেটের সমস্যাগুলি স্বয়ংক্রিয়ভাবে সনাক্ত করে ডেটা এবং লেবেলগুলি পরিষ্কার করতে সহায়তা করে৷ Cleanlab আত্মবিশ্বাসী শিক্ষা ব্যবহার করে - কার্টিস নর্থকাট (এছাড়াও Cleanlab.ai- এর সহ-প্রতিষ্ঠাতা) এবং অন্যদের দ্বারা ডেটাসেট লেবেলে অনিশ্চয়তা অনুমান করার বিষয়ে কথা বলে একটি কাগজের উপর ভিত্তি করে।
ক্লিনল্যাব মূলত এআইকে প্ররোচিত করে ডেটা বিশ্লেষণের কর্মপ্রবাহ বাড়ায়।
ক্লিনল্যাব স্টুডিও হল একটি নো-কোড টুল যা ওপেন-সোর্স প্যাকেজ ক্লিনল্যাবের উপরে তৈরি করা হয়েছে—এটি বিশ্লেষণ কর্মপ্রবাহের জন্য ডেটা প্রস্তুত করতে সাহায্য করে। এছাড়াও আপনি আপনার ডেটা গুদাম যেমন Databricks , Snowflake , অথবা AWS S3 এর মতো ক্লাউড অবজেক্ট স্টোর থেকে ডেটা আমদানি করতে পারেন৷
ক্লিনল্যাব স্টুডিওতে অ্যাক্সেসের জন্য সাইন আপ করুন।
আপনাকে কিছু নমুনা ডেটাসেট এবং প্রকল্প সহ একটি ড্যাশবোর্ডে লগ ইন করা হবে।
আপলোড উইজার্ড শুরু করতে "আপলোড ডেটাসেট" এ ক্লিক করুন৷ আপনি আপনার কম্পিউটার, URL, API, বা Databricks এবং Snowflake এর মতো ডেটা গুদাম থেকে ডেটাসেট আপলোড করতে পারেন।
ক্লিনল্যাব স্টুডিও স্বয়ংক্রিয়ভাবে আপনার ডেটা স্কিমা এবং মোডালিটি, যেমন, পাঠ্য, চিত্র, ভয়েস বা ট্যাবুলার অনুমান করে।
একবার আপনি বিশদটি নিশ্চিত করলে, আপনাকে আপলোড করা ডেটাসেট এবং ডেটা আপলোড করার সময় সম্পর্কিত ত্রুটিগুলি (যদি থাকে!) সম্বলিত একটি স্ক্রীন দেখানো হবে৷
দ্রষ্টব্য: কিছু ডেটাসেট আপলোড হতে কয়েক মিনিট সময় লাগতে পারে। ডেটাসেটটি সম্পূর্ণরূপে ক্লিনল্যাব স্টুডিওতে ইমেলের মাধ্যমে আপলোড হয়ে গেলে ক্লিনল্যাব আপনাকে জানাবে।
ডেটাসেটের প্রকারের উপর ভিত্তি করে, আপনি ডেটার সমস্যাগুলি সনাক্ত করতে একটি নির্দিষ্ট মেশিন-লার্নিং টাস্ক ব্যবহার করতে পারেন। বর্তমানে, ক্লিনল্যাব স্টুডিও টেক্সট, ট্যাবুলার এবং ইমেজ ডেটা সম্পর্কিত বেশ কয়েকটি এমএল শ্রেণীবিভাগের কাজ সমর্থন করে।
শ্রেণীবিভাগের জন্য নির্দিষ্ট, এটি K শ্রেণীর একটি বা K শ্রেণীর একটি থেকে N হতে পারে। এই ডেটাসেটে, প্রতিটি গ্রাহকের অনুরোধ একটি নির্দিষ্ট বিভাগের অধীনে পড়ে। এটি একটি "মাল্টি-ক্লাস" শ্রেণীবিভাগ হবে।
ক্লিনল্যাব স্টুডিও পাঠ্য এবং লেবেল কলামটি স্বয়ংক্রিয়ভাবে সনাক্ত করবে। প্রয়োজনে আপনি এটি সংশোধন করতে পারেন।
দ্রুত মডেল ব্যবহার করা সেরা ফলাফল নাও হতে পারে; সময়ের স্বার্থে, দ্রুত নির্বাচন করা একটি বিকল্প।
হিট " আমার ডেটা পরিষ্কার করুন! "
ক্লিনল্যাব স্টুডিও ডেটাসেটে মডেলের একটি দল চালায় এবং একটি সমস্যা ওভারভিউ উপস্থাপন করে!
যেমনটি আগে উল্লেখ করা হয়েছে, ডেটাসেটে ডেটা এবং আউটলায়ারগুলিকে ভুল শ্রেণিবদ্ধ করা হয়েছে, যা বিশ্লেষণ করার সময় সামগ্রিক সিদ্ধান্ত গ্রহণের প্রক্রিয়াতে মান যোগ করতে পারে না।
এছাড়াও আপনি উপরের বিশ্লেষণ ভিউতে স্যুইচ করে ডেটাসেটে ক্লিনল্যাব স্টুডিও দ্বারা চিহ্নিত সমস্যাগুলির মেটা-বিশ্লেষণের দিকে নজর দিতে পারেন।
ক্লিনল্যাব স্টুডিওর আকর্ষণীয় অংশটি কেবল একটি পরিষ্কার করা ডেটাসেট রপ্তানি নয় বরং আপনার ডেটার একটি সমস্যা-ভিত্তিক দৃশ্য অফার করছে। অনুপস্থিত ডেটা প্রিপ ওয়ার্কবেঞ্চ যা একজন ডেটা বিশ্লেষক এবং ব্যবসায়িক বুদ্ধিমত্তা ব্যবহারকারী বছরের পর বছর ধরে চেয়েছিলেন।
আপনি ক্লিনল্যাব স্টুডিওতে দেওয়া কীবোর্ড-সহায়ক ক্রিয়া দ্বারা প্রতিটি সমস্যা বাছাই করতে পারেন বা নীচের বোতামে ক্লিক করে একটি "এক্সপোর্ট ক্লিনসেট" রপ্তানি করতে পারেন।
আসুন পরিষ্কার করা ডেটাসেটের সাথে একই ডেটা বিশ্লেষণ পরীক্ষা করি।
এটা প্রতীয়মান হয় যে cancel_transfer
এবং visa_or_mastercard
বিভাগের মধ্যে সংখ্যার মধ্যে অমিল রয়েছে। যদিও এটি একটি ছোট ডেটাসেট, এটি মনে রাখা গুরুত্বপূর্ণ যে এই ডেটা সংশোধনগুলি একটি বৃহত্তর স্কেলে উল্লেখযোগ্যভাবে ভিন্ন অনুমান এবং সম্ভাব্য ব্যবসায়িক সিদ্ধান্তের দিকে নিয়ে যেতে পারে।
একইভাবে, আপনি কিছু বিভাগের জন্য গ্রাহকের অনুরোধগুলি খুঁজে পেতে পারেন কারণ সমস্যাগুলি যথাযথভাবে চিহ্নিত করা হয়েছে।
আপনি যদি একজন ডেটা বিশ্লেষক বা ব্যবসায়িক বুদ্ধিমত্তা সম্প্রদায়ের অংশ হন, ক্লিনল্যাব স্টুডিও আপনার ডেটা প্রস্তুতির কর্মপ্রবাহকে বিপ্লব করতে পারে। আজই ক্লিনল্যাব স্টুডিও ব্যবহার করে দেখুন এবং আরও নির্ভরযোগ্য এবং নির্ভুল ডেটা বিশ্লেষণের জন্য এআই-সহায়ক ডেটা পরিষ্কার করার ক্ষমতার অভিজ্ঞতা নিন।
ক্লিনল্যাব স্টুডিও ফরচুন 500 কোম্পানির হাজার হাজার প্রকৌশলী, বিশ্লেষক এবং ডেটা বিজ্ঞানীদের দ্বারা ব্যবহৃত একটি নো-কোড ডেটা প্রিপারেশন ওয়ার্কবেঞ্চ। এই উদ্ভাবনী প্ল্যাটফর্মটি বাস্তব-বিশ্ব, ভ্রান্ত ডেটা ব্যবহার করে আরও নির্ভরযোগ্য এবং সঠিক মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য MIT-তে অগ্রণী হয়েছিল। আপনি আরও তথ্যের জন্য আমাদের স্ল্যাক সম্প্রদায়ে যোগ দিতে পারেন।