paint-brush
যদি প্রশিক্ষণের ডেটা খারাপ হয়, তবে এআই নিজেই করেদ্বারা@mytiki
751 পড়া
751 পড়া

যদি প্রশিক্ষণের ডেটা খারাপ হয়, তবে এআই নিজেই করে

দ্বারা mytiki.com5m2023/05/31
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

অনেক প্রশিক্ষণ তথ্য f*cking suck. আমি প্রশিক্ষণের ডেটা চোষা এবং জিলেট রেজারের বিক্রয়ের মধ্যে পারস্পরিক সম্পর্ক খুঁজে পাইনি, তবে আমি কল্পনা করব সেখানে কিছু আছে। এটা চুষা উপরে, এটা ব্যয়বহুল.

People Mentioned

Mention Thumbnail
featured image - যদি প্রশিক্ষণের ডেটা খারাপ হয়, তবে এআই নিজেই করে
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

একজন ব্যক্তি অনিদ্রার সাথে আপস করে এবং ভোর 4:30 টায় বিছানা ছেড়ে চলে যায়। সূর্য তার দৈনিক আত্মপ্রকাশ থেকে কয়েক ঘন্টা দূরে, কিন্তু এই মানুষটির জন্য এটি গুরুত্বপূর্ণ নয়। শেভ করার দরকার নেই। চারদিন ধরে তিনি নেই। তিনি অবিলম্বে একটি সিগারেট জ্বালান - অজানা (আপনার কাছে) উত্সের একটি হাতে রোলড সিগারেট। সে রেডিওতে ঝাঁকুনি দেয়। অবিলম্বে এটি বন্ধ. এই মুহূর্ত নীরবতা প্রাপ্য. আয়নার দিকে তাকায়। নগ্ন. বক নগ্ন. নিজের মধ্যে তাকায়। নিজের গভীরে। হাতের পিঠে সিগারেট বের করে টয়লেটে ঝাঁকিয়ে দেয়। অবশেষে, শব্দগুলি তার মস্তিষ্কের মধ্যে ঘুরপাক খাচ্ছে তার ঠোঁটের উপর দিয়ে ক্ষিপ্ত বচসা-"আমাদের প্রশিক্ষণের ডেটা f*cking চুষছে।"


এবং এটি ব্যয়বহুলও!


দেখুন, সবাই এবং তাদের দাদী জানেন AI বিশাল। হয়তো আপনার দাদি আপনার সাথে কথা বলার চেয়ে Snapchat AI এর সাথে বেশি কথা বলেন। যেভাবেই হোক, যদিও AI অবশ্যই একটি বিনোদনের উপাদান প্রদান করে, যেকোন কিছুর চেয়েও এটি নিখুঁতভাবে কার্যকর হতে পারে। এবং ব্যবসাগুলি অভূতপূর্ব গতিতে এআই উদ্যোগ গ্রহণ করছে। আমি জানি AI এর বৃদ্ধি সম্পর্কে বিশ্বের অন্য ব্লগের প্রয়োজন নেই, কিন্তু আমি এক সেকেন্ডের মধ্যে এটি মিশ্রিত করব।


প্রথমত, এটি পান: 1923 সালে, শুধুমাত্র 0% ব্যবসা তাদের প্রতিষ্ঠানের জন্য কৃত্রিম বুদ্ধিমত্তাকে উচ্চ অগ্রাধিকার বলে মনে করেছিল। কি দারুন. 2020 সাল নাগাদ, 54% জরিপকৃত আইটি পেশাদাররা AI-কে অত্যন্ত অগ্রাধিকার দিয়েছিলেন। 2022 সালের শেষ নাগাদ, এই সংখ্যাটি 69% (ভালো), মাত্র দুই বছরে 15% বৃদ্ধি পেয়েছে।


কিন্তু, AI/ML ব্যবহারকারীদের প্রায় অর্ধেক (47%) গত দুই বছরে তাদের উদ্যোগ শুরু করেছে এবং জরিপকৃতদের 78% ধারণার পর্যায় অতিক্রম করেছে। এটার মানে কি? পরিসংখ্যানগতভাবে বলতে গেলে, সেখানে অনেক ব্যবসা রয়েছে যারা এআই প্রোগ্রাম এবং উদ্যোগগুলি চালাচ্ছে যারা এই ক্ষেত্রে সম্পূর্ণ নতুন এবং সম্ভবত তারা কী করছে সে সম্পর্কে কোনও ধারণা নেই। 47% এর কোন শতাংশ সেই পুরানো কুকুর রসায়নবিদ মেম? ওয়েল, আমি আপনার জন্য যে উত্তর দিতে পারে না. আমি আপনাকে যা বলতে পারি তা হল যে কোম্পানিগুলি AI/ML যাত্রায় সবচেয়ে বড় রিপোর্ট করা চ্যালেঞ্জ হল দক্ষ প্রতিভার অভাব (67%), তারপরে অ্যালগরিদম এবং মডেল ব্যর্থতা (61%)। যখন AI গ্রহণের কথা আসে, তখন সবচেয়ে বেশি যে বাধাটি রিপোর্ট করা হয় তা হল বাস্তবায়নের খরচ। এবং এআই বাজেটের সবচেয়ে বড় অংশটি কী নেয়? প্রশিক্ষণ ডেটা সোর্সিং এবং বাস্তবায়ন, বাজেটের 13% এ চেক ইন করা।


অনেক ডাটা শুধু ফ্ল্যাট আউট খারাপ . এটি অবিশ্বস্ত, পরিচালনা করা কঠিন, এবং এটি সম্পূর্ণরূপে সম্ভব যে AI লন্ডারড ডেটার উপর প্রশিক্ষিত হয়েছে, যার অর্থ মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটা অন্য AI মডেল থেকে নেওয়া হয়েছে যা ইতিমধ্যেই স্কেচি ডেটাতে প্রশিক্ষিত ছিল। এই পরিভাষাটির ভূমিকার জন্য ওলগা ম্যাককে চিৎকার করুন।


সুতরাং ডেটা খারাপ, এটি ব্যয়বহুল, এটি একটি থ্রিফ্ট স্টোর থেকে কেনা টাইপস সহ একটি টি-শার্টের সমতুল্য হতে পারে (আমার বন্ধুর নোমার “গার্সিয়াপাড়া” রেড সোক্স শার্টকে চিৎকার করে বলুন), এবং AI বাস্তবায়নকারী ব্যবসার একটি বিশাল ঝাঁক নতুন এবং জিনিসগুলিকে কার্যকর করার জন্য সংস্থান এবং প্রতিভার অভাব, এটিকে টেকসই রাখা যাক।


এই লক্ষ্যে, 87% এক্সিকিউটিভরা উচ্চ মানের প্রশিক্ষণ ডেটার জন্য আরও বেশি অর্থ প্রদান করতে ইচ্ছুক, যখন 66% তাদের প্রশিক্ষণ ডেটার প্রয়োজনীয়তা শুধুমাত্র বৃদ্ধির পূর্বাভাস দিয়েছেন তাদের মধ্যে 0% এটি হ্রাসের পূর্বাভাস দিয়েছেন। এটি আমার মেক-বিলিভ 1923 সমীক্ষা থেকে 0% বৃদ্ধি।


আরো নাম্বার বলবেন? আরো নম্বর আপনি পাবেন. 2022 সালে, কৃত্রিম বুদ্ধিমত্তার জন্য বিশ্বব্যাপী ব্যয় ছিল প্রায় $118 বিলিয়ন । 2026 সাল নাগাদ, সংখ্যা $300 বিলিয়ন পৌঁছাবে বলে আশা করা হচ্ছে। $300 বিলিয়নের 13% হল...$39 বিলিয়ন। এখন আমি জানি পরিসংখ্যান ঠিক কীভাবে কাজ করে তা নয়, তাই আমাকে গ্রিল করবেন না। কিন্তু সংক্ষেপে: AI-এর প্রশিক্ষণ ডেটার জন্য বিশ্বব্যাপী ব্যয় একটি বহু-বিলিয়ন ডলার শিল্প। এই কার্যকারিদের মধ্যে 66% প্রশিক্ষন ডেটার প্রয়োজনীয়তা বৃদ্ধির আশা করে এবং 87% উচ্চ মানের ডেটার জন্য আরও বেশি খরচ করতে ইচ্ছুক...ভাল, আপনি বুঝতে পেরেছেন।

আরও কারণ

এর উপরে, 2023 সালে নির্ভরযোগ্য ডেটা উৎস করার ক্ষমতা অতীতের তুলনায় অনেক বেশি কঠিন। GDPR এবং CCPA-এর মতো গোপনীয়তা উদ্যোগের লক্ষ্য গ্রাহকের ডেটা সুরক্ষিত করা। গুগল এবং অ্যাপলের মতো প্রধান প্রযুক্তিবিদরা তৃতীয় পক্ষের ডেটা সংগ্রহকে আরও কঠিন করে তুলছে। চলমান আইনি লড়াইয়ে AI প্রশিক্ষণের ডেটা সামনে রয়েছে, একটি জনপ্রিয় অনুভূতি হচ্ছে AI প্রশিক্ষণের জন্য ওয়েব ডেটা স্ক্র্যাপ করা এবং এটিকে "ন্যায্য ব্যবহার" দাবি করা অতীতের জিনিস হয়ে যাওয়ার ঝুঁকিতে রয়েছে। একটি উপযুক্ত তুলনা হতে পারে 2000 এর দশকের শুরুর ন্যাপস্টার ফলআউট। যদিও তখন স্পষ্টতই প্রতীয়মান হয়েছিল যে ন্যাপস্টার কপিরাইটযুক্ত উপাদান এবং বৌদ্ধিক সম্পত্তির বেআইনি ভাগাভাগি দ্বারা চালিত হয়েছিল, একই ধরনের ট্র্যাজেক্টোরি এমন কিছু যা এআই ব্যবহার করে ব্যবসাগুলি বিবেচনা করতে বাধ্য হয়। বালি বালির ঘড়ির মধ্য দিয়ে ফিল্টার হতে পারে, এবং মেটালিকার "টু হুম দ্য বেল টোলস" তাদের জন্য বাজানোর সম্ভাবনা রয়েছে যারা তাদের AI উদ্যোগকে ভবিষ্যত প্রমাণ করার চেষ্টা করেনি।

একটি নতুন Spotify

তাহলে সমাধান কি? ওয়েল, এটা জটিল. কিন্তু Napster, Kazaa এবং Limewire-এর ছাই থেকে বেরিয়ে এল Spotify, যারা "জলদস্যুতার চেয়ে ভালো" কিছু তৈরি করার প্রেক্ষাপটে কাজ করেছিল। এর মধ্যে স্পটিফাই প্ল্যাটফর্মে স্ট্রিম করা সামগ্রীর সঠিকভাবে লাইসেন্স করার জন্য রেকর্ড লেবেল এবং এজেন্সিগুলির সাথে লেনদেন করা জড়িত। AI এর জন্য কি একই জিনিস সম্ভব? আমরা তাই মনে করি. 85% ভোক্তা কুপন বা ডিসকাউন্টের জন্য ডেটা বিনিময় করবে। এটি একটি ডেটা অধিগ্রহণ মডেলের পথ প্রশস্ত করে যা ব্যবহারকারীদের অংশগ্রহণে উৎসাহিত করে, মূল্যবান জিরো-পার্টি ডেটা তৈরি করে যা এআই প্রশিক্ষণ সহ অনেক কিছুর জন্য ব্যবহার করা যেতে পারে। আমরা জিরো-পার্টি ডেটা লাইসেন্স করার জন্য কিছু তৈরি করেছি, এবং এমনকি স্নোফ্লেকের সাথে অংশীদারিত্বে একটি বৈশিষ্ট্য তৈরি করেছি যাতে ব্যবসাগুলিকে লাইসেন্স করা জিরো-পার্টি ডেটা পুনরায় তালিকাভুক্ত করার অনুমতি দেওয়া হয়। উচ্চ-মানের প্রশিক্ষণ ডেটার আকাঙ্ক্ষার উপর ভিত্তি করে, এটি একটি অতিরিক্ত রাজস্ব প্রবাহের জন্য একটি বিশাল সুযোগ প্রমাণিত হতে পারে যা গ্রাহকের আনুগত্যও তৈরি করতে পারে। কিন্তু যথেষ্ট ব্র্যান্ড-ওয়াই স্টাফ। আপনি এখানে আরো জানতে পারেন.

সংক্ষেপে…

অনেক প্রশিক্ষণ তথ্য f*cking suck. আমি প্রশিক্ষণের ডেটা চুষা এবং জিলেট রেজারের বিক্রয়ের মধ্যে পারস্পরিক সম্পর্ক খুঁজে পাইনি, তবে আমি কল্পনা করব সেখানে কিছু আছে। এটা চুষা উপরে, এটা ব্যয়বহুল. আরও বেশি সংখ্যক কোম্পানি AI বাস্তবায়নের জন্য সময় এবং সংস্থান নিবেদন করছে, কিন্তু তাদের মধ্যে অনেকেই গেমটিতে নতুন এবং তাদের উদ্যোগকে অপ্টিমাইজ করার জন্য উপযুক্ত দল, অবকাঠামো এবং মানসম্পন্ন ডেটার অভাব রয়েছে। আইনি লড়াইগুলি এআই প্রশিক্ষণের ডেটা সোর্সিং এবং সংগ্রহের "পুরানো উপায়ে" একটি রেঞ্চ ফেলেছে এবং গোপনীয়তার উদ্যোগগুলি ব্যবসায়িকদের জন্য তাদের ব্যবসায়কে জ্বালানি দেওয়ার জন্য প্রয়োজনীয় ডেটা সংগ্রহ করা ক্রমবর্ধমান কঠিন করে তুলেছে। অনুপ্রেরণার জন্য Spotify-এর মতো কোম্পানির দিকে তাকিয়ে, আইনি দিকটি অতিক্রম করা সম্ভব বলে জানা গেছে। তাদের ব্র্যান্ড অভিজ্ঞতায় আরও ব্যক্তিগতকরণ এবং কাস্টমাইজেশনের আকাঙ্ক্ষার সাথে ডেটা ভাগ করে নেওয়ার বিষয়ে ভোক্তাদের মনোভাব প্রদত্ত, আমরা পুনরায় বিক্রয়ের জন্য শূন্য-পক্ষের ডেটা লাইসেন্স দেওয়ার জন্য একটি বিশাল বাজারকে স্বীকৃতি দিয়েছি (অন্যান্য অনেকগুলি ব্যবহারের ক্ষেত্রে)। আরে, $300 বিলিয়নের 13% আবার কত?


লিখেছেন শেন ফারিয়া, সহ-প্রতিষ্ঠাতা @TIKI