ঠিক আছে, ChatGPT প্রকাশের পর এক বছরেরও বেশি সময় হয়ে গেছে। এই টার্নিং পয়েন্টের আগে, গবেষণা সম্প্রদায় এবং শিল্পের নেতারা ইতিমধ্যেই সক্রিয়ভাবে জেনারেটিভ AI-তে কাজ করছিল, বিশেষ করে কম্পিউটার ভিশনের ক্ষেত্রে, স্থিতিশীল বিস্তার অনুসন্ধান এবং অ্যাপ্লিকেশনগুলির একটি সিরিজ সহ। সংক্ষিপ্তভাবে বলতে গেলে, 2022কে স্থিতিশীল বিস্তারের বছর এবং 2023কে বড় ভাষা মডেলের (LLMs) বছর হিসেবে বিবেচনা করা যেতে পারে।
2023 সালের শুরুতে LLM-এর আধিপত্য চিহ্নিত করা হয়েছে, যেখানে ChatGPT ব্যাপক গ্রহণ ও উদ্ভাবনের ক্ষেত্রে নেতৃত্ব দিচ্ছে। এই বছর এলএলএমগুলি বিভিন্ন সেক্টরে ব্যাপক হয়ে উঠতে দেখেছে, কার্যকরভাবে তাত্ত্বিক গবেষণা এবং ব্যবহারিক শিল্প অ্যাপ্লিকেশনের মধ্যে ব্যবধান পূরণ করেছে। আসুন 2023 সালে এলএলএম ল্যান্ডস্কেপকে রূপদানকারী মূল মাইলফলক এবং প্রবণতাগুলি অন্বেষণ করি, তারা কীভাবে প্রযুক্তির সাথে আমাদের মিথস্ক্রিয়াকে বৈপ্লবিক পরিবর্তন করেছে সে সম্পর্কে কিছু অন্তর্দৃষ্টিও রয়েছে।
ওপেন সোর্স এলএলএম এর বছর
2023 সালে, আমরা ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) জন্য একটি উল্লেখযোগ্য বছর প্রত্যক্ষ করেছি। সবচেয়ে উল্লেখযোগ্য রিলিজ ছিল মেটা-র LLaMa সিরিজ, যা পরবর্তীতে ঘন ঘন রিলিজের নজির স্থাপন করে, প্রতি মাসে, সপ্তাহে এবং কখনও কখনও প্রতিদিন নতুন মডেলের আবির্ভাব ঘটে। Meta, EleutherAI, MosaicML, TIIUAE, এবং StabilityAI এর মত মূল খেলোয়াড়রা পাবলিক ডেটাসেটে প্রশিক্ষিত বিভিন্ন মডেল প্রবর্তন করেছে, যা এআই সম্প্রদায়ের বিভিন্ন চাহিদা পূরণ করে। এই মডেলগুলির বেশিরভাগই ছিল ডিকোডার-অনলি ট্রান্সফরমার, যা ChatGPT দ্বারা প্রতিষ্ঠিত প্রবণতা অব্যাহত রাখে। এই বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য মডেলগুলির মধ্যে কয়েকটি এখানে রয়েছে:
মেটা দ্বারা LLaMa: LLaMa পরিবারে বিভিন্ন আকারের মডেল রয়েছে, যেখানে 1.4 ট্রিলিয়ন টোকেনগুলিতে প্রশিক্ষিত 65 বিলিয়ন প্যারামিটার নিয়ে গর্বিত সবচেয়ে বড় মডেল রয়েছে৷ উল্লেখযোগ্যভাবে, ছোট মডেলগুলি, বিশেষ করে 13 বিলিয়ন প্যারামিটার সহ একটি, 1 ট্রিলিয়ন টোকেনে প্রশিক্ষিত, আরও ডেটার উপর বর্ধিত প্রশিক্ষণ সময়কালের সুবিধার মাধ্যমে উচ্চতর কর্মক্ষমতা প্রদর্শন করেছে, এমনকি কিছু বেঞ্চমার্কে বড় মডেলগুলিকে ছাড়িয়ে গেছে। 13B LLaMa মডেলটি বেশিরভাগ বেঞ্চমার্কে GPT-3কে ছাড়িয়ে গেছে এবং সবচেয়ে বড় মডেলটি প্রকাশের পর নতুন অত্যাধুনিক পারফরম্যান্স বেঞ্চমার্ক সেট করেছে।এলিউথার এআই দ্বারা পাইথিয়া: Pythia 154টি আংশিকভাবে প্রশিক্ষিত চেকপয়েন্ট সহ 16 মডেলের একটি স্যুট নিয়ে গঠিত, যা খোলাখুলিভাবে অ্যাক্সেসযোগ্য এবং স্বচ্ছভাবে প্রশিক্ষিত এলএলএমগুলির উপর নিয়ন্ত্রিত বৈজ্ঞানিক গবেষণার সুবিধার্থে ডিজাইন করা হয়েছে। এই সিরিজটি এলএলএম প্রশিক্ষণের জন্য বিস্তারিত কাগজপত্র এবং একটি ব্যাপক কোডবেস প্রদান করে গবেষকদের ব্যাপকভাবে সাহায্য করে।MosaicML দ্বারা MPT এবংTIIUAE দ্বারা ফ্যালকন সিরিজ: উভয়কেই 1T থেকে 1.5T টোকেন পর্যন্ত ডেটা উত্সের বিভিন্ন পরিসরে প্রশিক্ষণ দেওয়া হয়েছিল এবং 7B এবং 30B প্যারামিটার সহ সংস্করণ তৈরি করা হয়েছিল। উল্লেখযোগ্যভাবে, বছরের শেষের দিকে, TIIUAE একটি 180B মডেল প্রকাশ করেছে, যা এখন পর্যন্ত সবচেয়ে বড় ওপেন সোর্স মডেল।মিস্ট্রাল ,ফি এবংওরকা : এই মডেলগুলি 2023 সালে আরেকটি প্রবণতা তুলে ধরে, সীমিত হার্ডওয়্যার এবং বাজেটের সীমাবদ্ধতার জন্য উপযুক্ত ছোট এবং আরও দক্ষ মডেলের প্রশিক্ষণের উপর দৃষ্টি নিবদ্ধ করে, যা এআই মডেলের বিকাশে অ্যাক্সেসযোগ্যতা এবং ব্যবহারিকতার দিকে একটি উল্লেখযোগ্য পরিবর্তন চিহ্নিত করে।
ছোট এবং দক্ষ মডেল
2023 সালে, আমরা অসংখ্য ছোট এবং দক্ষ মডেল প্রকাশের সাক্ষী হয়েছি। এই প্রবণতার প্রাথমিক কারণ হল বেশিরভাগ গবেষণা গোষ্ঠীর জন্য বড় মডেলের প্রশিক্ষণের নিষেধমূলকভাবে উচ্চ খরচ। অতিরিক্তভাবে, বড় মডেলগুলি প্রায়শই তাদের ব্যয়বহুল প্রশিক্ষণ এবং স্থাপনার খরচ, সেইসাথে তাদের উল্লেখযোগ্য মেমরি এবং গণনাগত শক্তির প্রয়োজনীয়তার কারণে অনেক বাস্তব-বিশ্বের অ্যাপ্লিকেশনের জন্য অনুপযুক্ত। অতএব, ছোট এবং দক্ষ মডেলগুলি বছরের অন্যতম প্রধান প্রবণতা হিসাবে আবির্ভূত হয়েছে। আগেই উল্লেখ করা হয়েছে, মিস্ট্রাল এবং ওরকা সিরিজ এই প্রবণতার মূল খেলোয়াড়। মিস্ট্রাল একটি 7B মডেল দিয়ে সম্প্রদায়কে অবাক করেছে যা বেশিরভাগ বেঞ্চমার্কে তার বৃহত্তর সমকক্ষগুলিকে ছাড়িয়ে গেছে, যখন Phi সিরিজটি আরও ছোট, শুধুমাত্র 1.3B থেকে 2.7B প্যারামিটার সহ, তবুও এটি চিত্তাকর্ষক কর্মক্ষমতা প্রদান করে।
আরেকটি উদ্ভাবনী পদ্ধতি হল
ছোট এবং দক্ষ মডেলগুলির সাফল্য মূলত ডেটা গুণমান এবং দ্রুত মনোযোগের কৌশলগুলির উপর নির্ভর করে। যদিও মিস্ট্রাল তার প্রশিক্ষণের তথ্যের সুনির্দিষ্ট তথ্য প্রকাশ করেনি, বিভিন্ন গবেষণা এবং মডেলগুলি দেখিয়েছে যে কার্যকর মডেলের প্রশিক্ষণের জন্য ডেটা গুণমান অত্যন্ত গুরুত্বপূর্ণ। এই বছরের সবচেয়ে উল্লেখযোগ্য ফলাফলগুলির মধ্যে একটি
নিম্ন-র্যাঙ্ক অভিযোজন টিউনিং
ঠিক আছে, এর সম্পর্কে কথা বলা যাক
LoRA মূলত হিমায়িত প্রাক-প্রশিক্ষিত মডেল ওজন এবং প্রশিক্ষনযোগ্য স্তরগুলি ইনজেকশন ( র্যাঙ্ক-ডিকপোজিশন ম্যাট্রিক্স )। এই ম্যাট্রিক্সগুলি কমপ্যাক্ট তবুও মডেলের আচরণের প্রয়োজনীয় অভিযোজনগুলি আনুমানিক করতে সক্ষম, মূল মডেলের জ্ঞানের অখণ্ডতা বজায় রেখে দক্ষ সূক্ষ্ম-টিউনিংয়ের অনুমতি দেয়। LoRA এর সর্বাধিক ব্যবহৃত বৈকল্পিকগুলির মধ্যে একটি
বিশেষজ্ঞদের মিশ্রণ
দ্য
গত বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য MoE মডেলগুলির মধ্যে একটি
ভাষা থেকে সাধারণ ফাউন্ডেশন মডেল পর্যন্ত
এলএলএমগুলি সাধারণ ভিত্তি মডেলে বিকশিত হচ্ছে, ভাষা প্রক্রিয়াকরণের বাইরে তাদের ক্ষমতা প্রসারিত করছে। এই রূপান্তরটি এমন মডেলগুলির দিকে একটি পরিবর্তনকে নির্দেশ করে যা কেবল পাঠ্যই নয় কোড, ভিজ্যুয়াল সামগ্রী, অডিও এবং আরও অনেক কিছু বুঝতে এবং তৈরি করতে পারে৷ গত বছর, আমরা মডেলের প্রচলন দেখেছি
টুল-সজ্জিত এজেন্ট
বিভিন্ন সরঞ্জাম এবং প্ল্যাটফর্মের সাথে LLM-এর একীকরণ AI-কে দৈনন্দিন ব্যবহারের জন্য আরও সহজলভ্য এবং ব্যবহারিক করে তুলছে। এই সরঞ্জামগুলির সাথে সজ্জিত এজেন্টগুলি নির্দিষ্ট কাজের জন্য তৈরি করা হচ্ছে, কোডিং সহায়তা থেকে শুরু করে সৃজনশীল লেখা পর্যন্ত, এআইকে অনেক পেশাদার কর্মপ্রবাহের একটি অপরিহার্য অংশ করে তুলেছে। এলএলএম-এর যুক্তি ও কর্মক্ষমতার কারণে এই উন্নয়ন সম্ভব হয়েছে। এই ধরনের বৈশিষ্ট্য প্রায়ই অধীনে ফাংশন কলিং হিসাবে উল্লেখ করা হয়
OpenAI এখনও শিল্পের ল্যান্ডস্কেপ আধিপত্য
ওপেনএআই গবেষণা এবং প্রয়োগের ক্ষেত্রে তার নেতৃত্ব বজায় রেখে শিল্পের ল্যান্ডস্কেপে আধিপত্য বজায় রেখেছে। GPT-4 এবং নতুন
উপসংহার
2023 সালটি বৃহৎ ভাষার মডেলের (LLMs) ক্ষেত্রে উল্লেখযোগ্য বৃদ্ধি এবং উদ্ভাবনের একটি সময়কাল চিহ্নিত করেছে। ওপেন-সোর্স মডেলের মাধ্যমে AI-এর গণতন্ত্রীকরণ থেকে শুরু করে আরও দক্ষ এবং বিশেষায়িত সিস্টেমের বিকাশ পর্যন্ত, এই অগ্রগতিগুলি কেবল প্রযুক্তিগত কৃতিত্ব নয় বরং বিভিন্ন ডোমেনে AI-কে আরও অ্যাক্সেসযোগ্য এবং প্রযোজ্য করার দিকেও পদক্ষেপ। সামনের দিকে তাকিয়ে, শিল্পগুলিকে রূপান্তরিত করার এবং মানুষের ক্ষমতা বাড়ানোর জন্য এই প্রযুক্তিগুলির সম্ভাবনা একটি উত্তেজনাপূর্ণ সম্ভাবনা হিসাবে অব্যাহত রয়েছে। 2024 সালে, মেটা LLaMA-3 প্রশিক্ষণের পরিকল্পনা ঘোষণা করে এবং এটিকে ওপেন-সোর্সিং করার পরিকল্পনার সাথে আমরা আরও উল্লেখযোগ্য মাইলফলকের প্রত্যাশা করছি। ইন্ডাস্ট্রি ল্যান্ডস্কেপে, গুগলের মতো জায়ান্ট বা অ্যানথ্রপিকের মতো স্টার্টআপগুলি ওপেনএআইকে ছাড়িয়ে যেতে পারে কিনা তা দেখার জন্যও গভীর আগ্রহ রয়েছে৷
আরও নিবন্ধের জন্য আমার ব্যক্তিগত ব্লগে যান এবং সাবস্ক্রাইব করুন।