হেই সবাই! আমি নটরাজ , এবং ঠিক আপনার মতো, আমি কৃত্রিম বুদ্ধিমত্তার সাম্প্রতিক অগ্রগতিতে মুগ্ধ হয়েছি। আমি বুঝতে পেরেছিলাম যে সমস্ত উন্নয়ন ঘটছে তার সাথে আমার সমান থাকতে হবে, আমি শেখার একটি ব্যক্তিগত যাত্রা শুরু করার সিদ্ধান্ত নিয়েছিলাম, এইভাবে 100 দিনের AI জন্ম হয়েছিল! এই সিরিজের মাধ্যমে, আমি LLM সম্পর্কে শিখব এবং আমার ব্লগ পোস্টগুলির মাধ্যমে ধারণা, পরীক্ষা, মতামত, প্রবণতা এবং শিক্ষাগুলি শেয়ার করব। আপনি এখানে হ্যাকারনুন বা আমার ব্যক্তিগত ওয়েবসাইটের যাত্রা অনুসরণ করতে পারেন। আজকের নিবন্ধে, আমরা GPT-4 এর সাহায্যে একটি শব্দার্থিক কার্নেল তৈরি করতে চাই।
আপনি যদি জেনারেটিভ এআই বা এলএলএম স্পেস অনুসরণ করে থাকেন তবে আপনি ইতিমধ্যে ফাইনটিউনিং সম্পর্কে শুনে থাকবেন। এই পোস্টে ফাইনটিউনিং কী এবং জেন এআই অ্যাপ্লিকেশন তৈরিতে এর ভূমিকা কী তা বোঝার চেষ্টা করা যাক।
ফাইনটিউনিং কি?
ফাইনটিউনিং হল একটি সাধারণ উদ্দেশ্য বেস মডেল সংশোধন করার একটি প্রক্রিয়া যাতে এটি একটি বিশেষ ব্যবহারের ক্ষেত্রে কাজ করে। উদাহরণস্বরূপ Open AI দ্বারা gpt-3 মডেল নিন। Gpt-3 হল একটি বেস মডেল যা একটি চ্যাট বট হওয়ার উদ্দেশ্যে ফাইনটিউন করা হয়েছিল যার ফলস্বরূপ লোকেরা এখন চ্যাট-জিপিটি অ্যাপ্লিকেশন হিসাবে উল্লেখ করে। আরেকটি উদাহরণ হল কোডারদের জন্য একটি সহ-পাইলট হতে GPT-4 মডেল পরিবর্তন করা, যা GitHub সহ-পাইলট তৈরি করার জন্য করা হয়েছিল।
কেন আমরা বেস মডেল ফাইনটিউন করতে হবে?
ফাইনটিউনিং আমাদের বেস মডেলের সীমাবদ্ধতা কাটিয়ে উঠতে দেয়। Open AI এর gpt-3 বা Meta's Llama এর মত বেস মডেলগুলি সাধারণত সমগ্র ইন্টারনেটের ডেটার উপর প্রশিক্ষিত হয়। কিন্তু আপনার প্রতিষ্ঠানের অভ্যন্তরীণ ডেটার প্রসঙ্গ তাদের কাছে নেই। এবং প্রম্পটের মাধ্যমে আপনার প্রতিষ্ঠান বা মালিকানাধীন ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক সমস্ত ডেটা দেওয়া সম্ভব নয়। ফাইনটিউনিং আমাদের প্রম্পট ইঞ্জিনিয়ারিং এর চেয়ে অনেক বেশি ডেটা ফিট করার অনুমতি দেয়। ফাইনটিউনিং মডেলটিকে সামঞ্জস্যপূর্ণ আউটপুট তৈরি করতে, হ্যালুসিনেশন কমাতে এবং একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে মডেলটিকে কাস্টমাইজ করার অনুমতি দেয়।
কিভাবে ফাইনটিউনিং প্রম্পট ইঞ্জিনিয়ারিং থেকে আলাদা?
আমরা আগের পোস্টে দেখেছি প্রম্পট ইঞ্জিনিয়ারিং কতটা শক্তিশালী হতে পারে। তাহলে কিভাবে ফাইনটিউনিং আলাদা? ফাইনটিউনিং হল এন্টারপ্রাইজ অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রে যখন প্রম্পট ইঞ্জিনিয়ারিং সাধারণ ব্যবহারের ক্ষেত্রে এবং ডেটার প্রয়োজন হয় না। এটি একটি কৌশল হিসাবে RAG এর সাথে অতিরিক্ত ডেটা ব্যবহার করা যেতে পারে তবে এটি এন্টারপ্রাইজ ব্যবহারের ক্ষেত্রে বিদ্যমান বড় ডেটার সাথে ব্যবহার করা যাবে না। ফাইনটিউনিং সীমাহীন ডেটার জন্য অনুমতি দেয়, মডেলটিকে নতুন তথ্য শিখতে দেয়, এটি একটি RAG এর সাথেও ব্যবহার করা যেতে পারে।
ফাইনটিউনড বনাম নন-ফাইনটিউনড প্রতিক্রিয়া তুলনা করা
আসুন একটি উদাহরণ নেওয়া যাক যা আপনাকে ফাইনটিউনড বনাম অ-সূক্ষ্ম মডেলের মধ্যে পার্থক্য সম্পর্কে আরও ভাল অন্তর্দৃষ্টি দিতে পারে। পার্থক্য দেখানোর জন্য আমি লামিনীর লাইব্রেরি ব্যবহার করছি ফাইনটিউনড এবং নন-ফাইনিটিউনড লামা মডেলকে কল করতে। এই উদ্দেশ্যে আপনার Lamini থেকে api কী প্রয়োজন হবে। Lamini ওপেন সোর্স LLM-এর সাথে ইন্টারঅ্যাক্ট করার একটি সহজ এবং সহজ উপায় প্রদান করে। আপনি যদি এটি সম্পর্কে আরও জানতে চান তবে এটি এখানে দেখুন।
এই উদাহরণে আমি উভয় মডেলকে একই প্রশ্ন জিজ্ঞাসা করেছি "মৃত্যু সম্পর্কে আপনি কী ভাবেন?" এবং এখানে প্রতিক্রিয়া আছে.
নন-ফাইনটিউনড লামা মডেলের প্রতিক্রিয়া:
ফাইনটিউনড লামা মডেলের প্রতিক্রিয়া:
আপনি লক্ষ্য করবেন যে প্রথম প্রতিক্রিয়া শুধুমাত্র একটি একক লাইনের পুনরাবৃত্তি ছিল, যখন দ্বিতীয় প্রতিক্রিয়া অনেক বেশি সুসংগত প্রতিক্রিয়া। এখানে কী ঘটছে তা নিয়ে কথা বলার আগে আরেকটি উদাহরণ নেওয়া যাক যেখানে আমি মডেলটিকে জিজ্ঞাসা করি "আপনার প্রথম নাম কী?" এখানে আমি কি পেয়েছি.
নন-ফাইনটিউনড লামা মডেলের প্রতিক্রিয়া:
ফাইনটিউনড লামা মডেলের প্রতিক্রিয়া:
অ-সূক্ষ্ম মডেল প্রতিক্রিয়াগুলিতে, প্রতিক্রিয়াগুলি অদ্ভুত কারণ মডেলটি কেবল একটি কাজ করছে৷ এটি আপনার ইনপুট পাঠ্যের উপর ভিত্তি করে পরবর্তী সম্ভাব্য পাঠ্যের ভবিষ্যদ্বাণী করার চেষ্টা করছে, এটিও বুঝতে পারছে না যে আপনি এটিকে একটি প্রশ্ন করেছেন। ইন্টারনেটের ডেটাতে প্রশিক্ষিত ভিত্তিক মডেলগুলি হল পাঠ্য ভবিষ্যদ্বাণী করার মেশিন এবং পরবর্তী সেরা পাঠের পূর্বাভাস দেওয়ার চেষ্টা করে। ফাইনটিউনিংয়ের মাধ্যমে মডেলটিকে অতিরিক্ত ডেটা দেওয়ার মাধ্যমে তার প্রতিক্রিয়ার ভিত্তি করার জন্য প্রশিক্ষিত করা হয় এবং এটি নতুন আচরণ শিখে যা প্রশ্নের উত্তর দেওয়ার জন্য একটি চ্যাট বট হিসাবে কাজ করা। এছাড়াও মনে রাখবেন যে বেশিরভাগ বন্ধ মডেল যেমন Open AI এর gpt-3 বা gpt-4 আমরা ঠিক জানি না তারা কোন ডেটাতে প্রশিক্ষিত। তবে সেখানে কিছু দুর্দান্ত খোলা ডেটা সেট রয়েছে যা আপনার মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। পরে যে আরো.
AI এর 100 দিনের মধ্যে 11 তম দিনের জন্য এটি।
আমি গড়ের উপরে নামে একটি নিউজলেটার লিখি যেখানে আমি বড় প্রযুক্তিতে ঘটছে এমন সবকিছুর পিছনে দ্বিতীয় ক্রম অন্তর্দৃষ্টি সম্পর্কে কথা বলি। আপনি যদি প্রযুক্তিতে থাকেন এবং গড় হতে না চান তবে এতে সদস্যতা নিন ।
AI এর 100 দিনের সর্বশেষ আপডেটের জন্য আমাকে Twitter , LinkedIn বা HackerNoon- এ অনুসরণ করুন। আপনি যদি প্রযুক্তিতে থাকেন তবে আপনি এখানে প্রযুক্তি পেশাদারদের আমার সম্প্রদায়ে যোগদান করতে আগ্রহী হতে পারেন।