একজন ব্যক্তি অনিদ্রার সাথে আপস করে এবং ভোর 4:30 টায় বিছানা ছেড়ে চলে যায়। সূর্য তার দৈনিক আত্মপ্রকাশ থেকে কয়েক ঘন্টা দূরে, কিন্তু এই মানুষটির জন্য এটি গুরুত্বপূর্ণ নয়। শেভ করার দরকার নেই। চারদিন ধরে তিনি নেই। তিনি অবিলম্বে একটি সিগারেট জ্বালান - অজানা (আপনার কাছে) উত্সের একটি হাতে রোলড সিগারেট। সে রেডিওতে ঝাঁকুনি দেয়। অবিলম্বে এটি বন্ধ. এই মুহূর্ত নীরবতা প্রাপ্য. আয়নার দিকে তাকায়। নগ্ন. বক নগ্ন. নিজের মধ্যে তাকায়। নিজের গভীরে। হাতের পিঠে সিগারেট বের করে টয়লেটে ঝাঁকিয়ে দেয়। অবশেষে, শব্দগুলি তার মস্তিষ্কের মধ্যে ঘুরপাক খাচ্ছে তার ঠোঁটের উপর দিয়ে ক্ষিপ্ত বচসা-"আমাদের প্রশিক্ষণের ডেটা f*cking চুষছে।"
এবং এটি ব্যয়বহুলও!
দেখুন, সবাই এবং তাদের দাদী জানেন AI বিশাল। হয়তো আপনার দাদি আপনার সাথে কথা বলার চেয়ে Snapchat AI এর সাথে বেশি কথা বলেন। যেভাবেই হোক, যদিও AI অবশ্যই একটি বিনোদনের উপাদান প্রদান করে, যেকোন কিছুর চেয়েও এটি নিখুঁতভাবে কার্যকর হতে পারে। এবং ব্যবসাগুলি অভূতপূর্ব গতিতে এআই উদ্যোগ গ্রহণ করছে। আমি জানি AI এর বৃদ্ধি সম্পর্কে বিশ্বের অন্য ব্লগের প্রয়োজন নেই, কিন্তু আমি এক সেকেন্ডের মধ্যে এটি মিশ্রিত করব।
প্রথমত, এটি পান: 1923 সালে, শুধুমাত্র 0% ব্যবসা তাদের প্রতিষ্ঠানের জন্য কৃত্রিম বুদ্ধিমত্তাকে উচ্চ অগ্রাধিকার বলে মনে করেছিল। কি দারুন. 2020 সাল নাগাদ, 54% জরিপকৃত আইটি পেশাদাররা AI-কে অত্যন্ত অগ্রাধিকার দিয়েছিলেন। 2022 সালের শেষ নাগাদ, এই সংখ্যাটি 69% (ভালো), মাত্র দুই বছরে 15% বৃদ্ধি পেয়েছে।
কিন্তু, AI/ML ব্যবহারকারীদের প্রায় অর্ধেক (47%) গত দুই বছরে তাদের উদ্যোগ শুরু করেছে এবং জরিপকৃতদের 78% ধারণার পর্যায় অতিক্রম করেছে। এটার মানে কি? পরিসংখ্যানগতভাবে বলতে গেলে, সেখানে অনেক ব্যবসা রয়েছে যারা এআই প্রোগ্রাম এবং উদ্যোগগুলি চালাচ্ছে যারা এই ক্ষেত্রে সম্পূর্ণ নতুন এবং সম্ভবত তারা কী করছে সে সম্পর্কে কোনও ধারণা নেই। 47% এর কোন শতাংশ সেই পুরানো কুকুর রসায়নবিদ মেম? ওয়েল, আমি আপনার জন্য যে উত্তর দিতে পারে না. আমি আপনাকে যা বলতে পারি তা হল যে কোম্পানিগুলি AI/ML যাত্রায় সবচেয়ে বড় রিপোর্ট করা চ্যালেঞ্জ হল দক্ষ প্রতিভার অভাব (67%), তারপরে অ্যালগরিদম এবং মডেল ব্যর্থতা (61%)। যখন AI গ্রহণের কথা আসে, তখন সবচেয়ে বেশি যে বাধাটি রিপোর্ট করা হয় তা হল বাস্তবায়নের খরচ। এবং এআই বাজেটের সবচেয়ে বড় অংশটি কী নেয়? প্রশিক্ষণ ডেটা সোর্সিং এবং বাস্তবায়ন, বাজেটের 13% এ চেক ইন করা।
অনেক ডাটা শুধু ফ্ল্যাট আউট খারাপ . এটি অবিশ্বস্ত, পরিচালনা করা কঠিন, এবং এটি সম্পূর্ণরূপে সম্ভব যে AI লন্ডারড ডেটার উপর প্রশিক্ষিত হয়েছে, যার অর্থ মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটা অন্য AI মডেল থেকে নেওয়া হয়েছে যা ইতিমধ্যেই স্কেচি ডেটাতে প্রশিক্ষিত ছিল। এই পরিভাষাটির ভূমিকার জন্য ওলগা ম্যাককে চিৎকার করুন।
সুতরাং ডেটা খারাপ, এটি ব্যয়বহুল, এটি একটি থ্রিফ্ট স্টোর থেকে কেনা টাইপস সহ একটি টি-শার্টের সমতুল্য হতে পারে (আমার বন্ধুর নোমার “গার্সিয়াপাড়া” রেড সোক্স শার্টকে চিৎকার করে বলুন), এবং AI বাস্তবায়নকারী ব্যবসার একটি বিশাল ঝাঁক নতুন এবং জিনিসগুলিকে কার্যকর করার জন্য সংস্থান এবং প্রতিভার অভাব, এটিকে টেকসই রাখা যাক।
এই লক্ষ্যে, 87% এক্সিকিউটিভরা উচ্চ মানের প্রশিক্ষণ ডেটার জন্য আরও বেশি অর্থ প্রদান করতে ইচ্ছুক, যখন 66% তাদের প্রশিক্ষণ ডেটার প্রয়োজনীয়তা শুধুমাত্র বৃদ্ধির পূর্বাভাস দিয়েছেন তাদের মধ্যে 0% এটি হ্রাসের পূর্বাভাস দিয়েছেন। এটি আমার মেক-বিলিভ 1923 সমীক্ষা থেকে 0% বৃদ্ধি।
আরো নাম্বার বলবেন? আরো নম্বর আপনি পাবেন. 2022 সালে, কৃত্রিম বুদ্ধিমত্তার জন্য বিশ্বব্যাপী ব্যয় ছিল প্রায় $118 বিলিয়ন । 2026 সাল নাগাদ, সংখ্যা $300 বিলিয়ন পৌঁছাবে বলে আশা করা হচ্ছে। $300 বিলিয়নের 13% হল...$39 বিলিয়ন। এখন আমি জানি পরিসংখ্যান ঠিক কীভাবে কাজ করে তা নয়, তাই আমাকে গ্রিল করবেন না। কিন্তু সংক্ষেপে: AI-এর প্রশিক্ষণ ডেটার জন্য বিশ্বব্যাপী ব্যয় একটি বহু-বিলিয়ন ডলার শিল্প। এই কার্যকারিদের মধ্যে 66% প্রশিক্ষন ডেটার প্রয়োজনীয়তা বৃদ্ধির আশা করে এবং 87% উচ্চ মানের ডেটার জন্য আরও বেশি খরচ করতে ইচ্ছুক...ভাল, আপনি বুঝতে পেরেছেন।
এর উপরে, 2023 সালে নির্ভরযোগ্য ডেটা উৎস করার ক্ষমতা অতীতের তুলনায় অনেক বেশি কঠিন। GDPR এবং CCPA-এর মতো গোপনীয়তা উদ্যোগের লক্ষ্য গ্রাহকের ডেটা সুরক্ষিত করা। গুগল এবং অ্যাপলের মতো প্রধান প্রযুক্তিবিদরা তৃতীয় পক্ষের ডেটা সংগ্রহকে আরও কঠিন করে তুলছে। চলমান আইনি লড়াইয়ে AI প্রশিক্ষণের ডেটা সামনে রয়েছে, একটি জনপ্রিয় অনুভূতি হচ্ছে AI প্রশিক্ষণের জন্য ওয়েব ডেটা স্ক্র্যাপ করা এবং এটিকে "ন্যায্য ব্যবহার" দাবি করা অতীতের জিনিস হয়ে যাওয়ার ঝুঁকিতে রয়েছে। একটি উপযুক্ত তুলনা হতে পারে 2000 এর দশকের শুরুর ন্যাপস্টার ফলআউট। যদিও তখন স্পষ্টতই প্রতীয়মান হয়েছিল যে ন্যাপস্টার কপিরাইটযুক্ত উপাদান এবং বৌদ্ধিক সম্পত্তির বেআইনি ভাগাভাগি দ্বারা চালিত হয়েছিল, একই ধরনের ট্র্যাজেক্টোরি এমন কিছু যা এআই ব্যবহার করে ব্যবসাগুলি বিবেচনা করতে বাধ্য হয়। বালি বালির ঘড়ির মধ্য দিয়ে ফিল্টার হতে পারে, এবং মেটালিকার "টু হুম দ্য বেল টোলস" তাদের জন্য বাজানোর সম্ভাবনা রয়েছে যারা তাদের AI উদ্যোগকে ভবিষ্যত প্রমাণ করার চেষ্টা করেনি।
তাহলে সমাধান কি? ওয়েল, এটা জটিল. কিন্তু Napster, Kazaa এবং Limewire-এর ছাই থেকে বেরিয়ে এল Spotify, যারা "জলদস্যুতার চেয়ে ভালো" কিছু তৈরি করার প্রেক্ষাপটে কাজ করেছিল। এর মধ্যে স্পটিফাই প্ল্যাটফর্মে স্ট্রিম করা সামগ্রীর সঠিকভাবে লাইসেন্স করার জন্য রেকর্ড লেবেল এবং এজেন্সিগুলির সাথে লেনদেন করা জড়িত। AI এর জন্য কি একই জিনিস সম্ভব? আমরা তাই মনে করি. 85% ভোক্তা কুপন বা ডিসকাউন্টের জন্য ডেটা বিনিময় করবে। এটি একটি ডেটা অধিগ্রহণ মডেলের পথ প্রশস্ত করে যা ব্যবহারকারীদের অংশগ্রহণে উৎসাহিত করে, মূল্যবান জিরো-পার্টি ডেটা তৈরি করে যা এআই প্রশিক্ষণ সহ অনেক কিছুর জন্য ব্যবহার করা যেতে পারে। আমরা জিরো-পার্টি ডেটা লাইসেন্স করার জন্য কিছু তৈরি করেছি, এবং এমনকি স্নোফ্লেকের সাথে অংশীদারিত্বে একটি বৈশিষ্ট্য তৈরি করেছি যাতে ব্যবসাগুলিকে লাইসেন্স করা জিরো-পার্টি ডেটা পুনরায় তালিকাভুক্ত করার অনুমতি দেওয়া হয়। উচ্চ-মানের প্রশিক্ষণ ডেটার আকাঙ্ক্ষার উপর ভিত্তি করে, এটি একটি অতিরিক্ত রাজস্ব প্রবাহের জন্য একটি বিশাল সুযোগ প্রমাণিত হতে পারে যা গ্রাহকের আনুগত্যও তৈরি করতে পারে। কিন্তু যথেষ্ট ব্র্যান্ড-ওয়াই স্টাফ। আপনি এখানে আরো জানতে পারেন.
অনেক প্রশিক্ষণ তথ্য f*cking suck. আমি প্রশিক্ষণের ডেটা চুষা এবং জিলেট রেজারের বিক্রয়ের মধ্যে পারস্পরিক সম্পর্ক খুঁজে পাইনি, তবে আমি কল্পনা করব সেখানে কিছু আছে। এটা চুষা উপরে, এটা ব্যয়বহুল. আরও বেশি সংখ্যক কোম্পানি AI বাস্তবায়নের জন্য সময় এবং সংস্থান নিবেদন করছে, কিন্তু তাদের মধ্যে অনেকেই গেমটিতে নতুন এবং তাদের উদ্যোগকে অপ্টিমাইজ করার জন্য উপযুক্ত দল, অবকাঠামো এবং মানসম্পন্ন ডেটার অভাব রয়েছে। আইনি লড়াইগুলি এআই প্রশিক্ষণের ডেটা সোর্সিং এবং সংগ্রহের "পুরানো উপায়ে" একটি রেঞ্চ ফেলেছে এবং গোপনীয়তার উদ্যোগগুলি ব্যবসায়িকদের জন্য তাদের ব্যবসায়কে জ্বালানি দেওয়ার জন্য প্রয়োজনীয় ডেটা সংগ্রহ করা ক্রমবর্ধমান কঠিন করে তুলেছে। অনুপ্রেরণার জন্য Spotify-এর মতো কোম্পানির দিকে তাকিয়ে, আইনি দিকটি অতিক্রম করা সম্ভব বলে জানা গেছে। তাদের ব্র্যান্ড অভিজ্ঞতায় আরও ব্যক্তিগতকরণ এবং কাস্টমাইজেশনের আকাঙ্ক্ষার সাথে ডেটা ভাগ করে নেওয়ার বিষয়ে ভোক্তাদের মনোভাব প্রদত্ত, আমরা পুনরায় বিক্রয়ের জন্য শূন্য-পক্ষের ডেটা লাইসেন্স দেওয়ার জন্য একটি বিশাল বাজারকে স্বীকৃতি দিয়েছি (অন্যান্য অনেকগুলি ব্যবহারের ক্ষেত্রে)। আরে, $300 বিলিয়নের 13% আবার কত?
লিখেছেন শেন ফারিয়া, সহ-প্রতিষ্ঠাতা @TIKI