লেখক:
(1) মিংজি লিউ, NVIDIA {সমান অবদান};
(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};
(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};
(4) ক্রিস চেং, NVIDIA {সমান অবদান};
(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};
(6) Rongjian Liang, NVIDIA {সমান অবদান};
(7) জোনাহ আলবেন, এনভিআইডিএ;
(8) হিমাংশু আনন্দ, NVIDIA;
(9) সন্মিত্র ব্যানার্জী, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) বনিতা ভাস্করন, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) অর্জুন চৌধুরী, NVIDIA;
(14) শ্যারন ক্লে, NVIDIA;
(15) বিল ডালি, NVIDIA;
(16) লরা ড্যাং, NVIDIA;
(17) পরীক্ষিত দেশপান্ডে, NVIDIA;
(18) সিদ্ধান্ত ধোধি, NVIDIA;
(19) সমীর হালেপেট, NVIDIA;
(20) এরিক হিল, NVIDIA;
(21) জিয়াং হু, এনভিআইডিএ;
(22) সুমিত জৈন, NVIDIA;
(23) ব্রুসেক খাইলানি, NVIDIA;
(24) জর্জ কোকাই, NVIDIA;
(25) কিশোর কুনাল, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) চার্লি লিন্ড, NVIDIA;
(28) হাও লিউ, NVIDIA;
(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;
(30) সুজিত ওমর, NVIDIA;
(31) শ্রীধর প্রাট্টি, NVIDIA;
(23) জোনাথন রাইমান, এনভিআইডিএ;
(33) অম্বর সরকার, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) হানফেই সান, এনভিআইডিএ;
(36) প্রতীক পি সুথার, NVIDIA;
(37) বরুণ তেজ, NVIDIA;
(38) ওয়াকার টার্নার, NVIDIA;
(39) কাইজে জু, NVIDIA;
(40) Haoxing Ren, NVIDIA.
অনেক ডোমেনেই উল্লেখযোগ্য পরিমাণে মালিকানা তথ্য থাকে যা একটি ডোমেন-নির্দিষ্ট এলএলএম প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। একটি পদ্ধতি হল স্ক্র্যাচ থেকে একটি ডোমেন নির্দিষ্ট ভিত্তি মডেলকে প্রশিক্ষণ দেওয়া, যেমন, অর্থের জন্য ব্লুমবার্গজিপিটি [১০], বায়োমেডের জন্য বায়োমেডএলএলএম [১১] এবং বিজ্ঞানের জন্য গ্যালাকটিকা [৩৮]। এই মডেলগুলিকে সাধারণত কাঁচা ডোমেন ডেটার 100B টোকেনের বেশি প্রশিক্ষণ দেওয়া হয়। দ্বিতীয় পদ্ধতি হল ডোমেইন-অ্যাডাপ্টিভ প্রিট্রেইনিং (DAPT) [১৪] যা অতিরিক্ত কাঁচা ডোমেন ডেটার উপর একটি পূর্বপ্রশিক্ষিত ফাউন্ডেশন মডেলকে প্রশিক্ষণ দিয়ে চলেছে। এটি বায়োমেডিকাল, কম্পিউটার বিজ্ঞান প্রকাশনা, সংবাদ এবং পর্যালোচনার মতো ডোমেনে ডোমেন-নির্দিষ্ট কাজগুলিতে সামান্য কর্মক্ষমতা বৃদ্ধি দেখায়। একটি উদাহরণে, [৩৯] প্রযুক্তিগত বিষয়বস্তু ডেটাসেটের উপর একটি ভিত্তি মডেলকে অব্যাহত-প্রশিক্ষিত করে এবং অনেক পরিমাণগত যুক্তির কাজগুলিতে স্টেট-অফ-হার্ট পারফরম্যান্স অর্জন করে।
পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) LLM কে সঠিক তথ্য তৈরি করতে এবং জ্ঞান-নিবিড় NLP কাজগুলিকে উন্নত করার জন্য আপ-টু-ডেট তথ্য বের করতে সাহায্য করে [40]। এটি লক্ষ্য করা যায় যে RAG সহ ছোট মডেলগুলি RAG [41] ছাড়াই বড় মডেলগুলিকে ছাড়িয়ে যেতে পারে। পুনরুদ্ধার পদ্ধতির মধ্যে রয়েছে স্পার্স পুনরুদ্ধার পদ্ধতি যেমন TF-IDF বা BM25 [42], যা শব্দ পরিসংখ্যান তথ্য বিশ্লেষণ করে এবং একটি উচ্চমাত্রিক স্পার্স ভেক্টরের সাথে মিলিত নথি খুঁজে পায়। ঘন পুনরুদ্ধার পদ্ধতি যেমন [৪৩] [৪৪] একটি পুনরুদ্ধার ডেটাসেটে সূক্ষ্ম-টিউনিং সহ বা ছাড়াই একটি বৃহৎ কর্পাসে পূর্বপ্রশিক্ষিত একটি পুনরুদ্ধার মডেল দ্বারা উত্পন্ন একটি এমবেডিং স্পেসে মিলিত নথি খুঁজে পায়। পুনরুদ্ধার মডেল স্বতন্ত্রভাবে প্রশিক্ষিত হতে পারে [৪৩] [৪৪] [৪৫] বা ভাষা মডেলের সাথে যৌথভাবে [৪৬] [৪১]। উপরন্তু, এটি দেখানো হয়েছে যে অফ-দ্য-শেল্ফ সাধারণ উদ্দেশ্য পুনরুদ্ধারকারীরা আরও ফাইনটিউনিং ছাড়াই একটি বেসলাইন ভাষা মডেলকে উল্লেখযোগ্যভাবে উন্নত করতে পারে [47]। কোডিং নথি থেকে পুনরুদ্ধার করে কোড তৈরির কাজগুলি [৪৮] সঞ্চালনের জন্য RAG-কেও প্রস্তাব করা হয়েছে।
ফাউন্ডেশন মডেলগুলি হল সমাপ্তি মডেল, যেগুলির সীমিত চ্যাট এবং নির্দেশাবলী অনুসরণ করার ক্ষমতা রয়েছে৷ অতএব, একটি অনুরূপ চ্যাট মডেল প্রশিক্ষণের জন্য ফাউন্ডেশন মডেলগুলিতে একটি মডেল সারিবদ্ধকরণ প্রক্রিয়া প্রয়োগ করা হয়। ইন্সট্রাকশন ফাইন-টিউনিং [২০] এবং মানুষের ফিডব্যাক (RLHF) [৩৬] থেকে রিইনফোর্সমেন্ট লার্নিং হল দুটি সাধারণ মডেল অ্যালাইনমেন্ট কৌশল। নির্দেশনা ফাইন-টিউনিং নির্দেশাবলী ডেটাসেট ব্যবহার করে একটি ভিত্তি মডেলকে আরও প্রশিক্ষণ দেয়। RLHF একটি পুরষ্কার মডেলকে প্রশিক্ষিত করার জন্য একটি ডেটাসেট লেবেল করার জন্য মানুষের প্রতিক্রিয়া ব্যবহার করে এবং প্রশিক্ষিত পুরষ্কার মডেলের প্রদত্ত মডেলগুলিকে আরও উন্নত করতে শক্তিবৃদ্ধি শিক্ষা প্রয়োগ করে। RLHF সাধারণত নির্দেশনা ফাইন-টিউনিংয়ের চেয়ে আরও জটিল এবং সম্পদের ক্ষুধার্ত। অতএব, সাম্প্রতিক গবেষণাগুলি ডিপিও [49] এবং স্টিয়ারএলএম [50] এর মতো সহজ পদ্ধতিগুলির সাথে এই ওভারহেডটি কমানোর প্রস্তাবও করে।
গবেষকরা চিপ ডিজাইনের সমস্যায় এলএলএম প্রয়োগ করতে শুরু করেছেন। প্রাথমিক কাজ যেমন ডেভ [৫১] প্রথমে একটি ভাষা মডেল (GPT-2) দিয়ে ইংরেজি থেকে ভেরিলগ তৈরির সম্ভাবনা অন্বেষণ করেছিলেন। সেই কাজটি অনুসরণ করে, [৬] দেখায় যে গিটহাব এবং ভেরিলগ পাঠ্যপুস্তক থেকে সংগৃহীত ভেরিলগ ডেটাসেটে সূক্ষ্ম-টিউনড ওপেন-সোর্স এলএলএম (কোডজেন) 17টি ভেরিলগ প্রশ্নে কোড-ডেভিনসি-002-এর মতো অত্যাধুনিক ওপেনএআই মডেলকে ছাড়িয়ে গেছে। [১২] 150 টিরও বেশি সমস্যার সাথে একটি বেঞ্চমার্কের প্রস্তাব করেছেন এবং দেখিয়েছেন যে LLM জেনারেটেড সিন্থেটিক সমস্যা-কোড জোড়ার সাথে বুটস্ট্র্যাপিংয়ের মাধ্যমে তত্ত্বাবধানে সূক্ষ্ম-টিউনিংয়ের মাধ্যমে পূর্বপ্রশিক্ষিত ভাষা মডেলগুলির ভেরিলগ কোড তৈরির ক্ষমতা উন্নত করা যেতে পারে। চিপ-চ্যাট [৭] GPT-4 এবং GPT-3.5 সহ একটি 8-বিট অ্যাকুমুলেটর-ভিত্তিক মাইক্রোপ্রসেসর ডিজাইন এবং যাচাই করার জন্য কথোপকথন প্রবাহ নিয়ে পরীক্ষা করেছে। তাদের অনুসন্ধানে দেখা গেছে যে যদিও GPT-4 তুলনামূলকভাবে উচ্চ-মানের কোড তৈরি করেছে, তবুও এটি ত্রুটিগুলি বোঝার এবং ঠিক করার ক্ষেত্রে যথেষ্ট ভাল কাজ করে না। Chipeda [8] EDA টুল স্ক্রিপ্ট তৈরি করতে LLM ব্যবহার করার প্রস্তাব করেছে। এটি আরও দেখায় যে সূক্ষ্ম-টিউনড LLaMA2 70B মডেল এই টাস্কে GPT-4 মডেলকে ছাড়িয়ে যায়।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।