আমি হাত দিয়ে এক ডজন বইয়ের সারসংক্ষেপ করতে শুরু করলাম এবং দেখতে পেলাম প্রতিটি সারাংশের জন্য আমাকে কয়েক সপ্তাহ সময় লাগবে। তারপরে আমি এই এআই বিপ্লবের কথা মনে পড়লাম এবং সিদ্ধান্ত নিলাম যে এই জলে ঝাঁপ দেওয়ার কারণে আমি অনেক অতীত হয়ে গেছি।
যখন আমি বৃহৎ পাঠ্যের সংক্ষিপ্তসারের জন্য বৃহৎ ভাষা মডেল (LLM) ব্যবহার অন্বেষণ করা শুরু করি, তখন আমি কীভাবে তা করতে পারি সে সম্পর্কে কোনো স্পষ্ট নির্দেশনা পাইনি ।
- কিছু পৃষ্ঠা GPT4 দেওয়ার জন্য উদাহরণ দেয় এই ধারণা দিয়ে যে এটি যাদুকরীভাবে আপনি যে বইটির সারসংক্ষেপ করতে চান তার বিষয়বস্তু জানতে পারবে। (না)
- কিছু লোক পরামর্শ দিয়েছে যে আমাকে একটি বড় প্রসঙ্গ সহ একটি মডেল খুঁজে বের করতে হবে যা আমার পুরো পাঠ্যকে একবারে প্রক্রিয়া করতে পারে। (এখনো না)
- কিছু ওপেন সোর্স টুল উপলব্ধ যা আপনাকে একটি ডাটাবেসে নথি আপলোড করতে এবং সেই ডাটাবেসের বিষয়বস্তুর উপর ভিত্তি করে প্রশ্নের উত্তর দিতে দেয়। (আরও কাছাকাছি হচ্ছে)
- অন্যরা পরামর্শ দিয়েছেন যে আপনাকে অবশ্যই প্রথমে বইটিকে ভাগে ভাগ করতে হবে এবং একবারে একটি সংক্ষিপ্তসারের জন্য সেগুলিকে এলএলএম-এ খাওয়াতে হবে। (এখন আমরা কথা বলছি)
- সেই সংকল্পের বাইরেও, প্রদত্ত এলএলএম বাস্তবায়নের সময় অনেকগুলি ভেরিয়েবল রয়েছে যা অবশ্যই বিবেচনা করতে হবে।
- আমি দ্রুত উপলব্ধি করেছি, যেকোনো সুপারিশ বা মডেল র্যাঙ্কিং উপলব্ধ থাকা সত্ত্বেও, আমি অন্যদের তুলনায় ভিন্ন ফলাফল পাচ্ছিলাম। এটা আমার ব্যবহারের ক্ষেত্রে কিনা, মডেল বিন্যাস, পরিমাপকরণ, সংকোচন, প্রম্পট শৈলী, বা কি? আমি জানি না আমি শুধু জানি, আপনার নিজের কাজের অবস্থার অধীনে আপনার নিজস্ব মডেল র্যাঙ্কিং করুন। আপনি অনলাইনে পড়া কিছু চার্ট বিশ্বাস করবেন না।
এই নির্দেশিকাটি আমার সংকল্পের প্রক্রিয়া এবং উপরে উল্লিখিত ভেরিয়েবলের বিশদ পরীক্ষা করার কিছু সুনির্দিষ্ট তথ্য প্রদান করে।
GitHub-এ সম্পূর্ণ র্যাঙ্কিং ডেটা, ওয়াকথ্রু এবং ফলাফলের সারাংশ খুঁজুন ।
পটভূমি
মূল শর্তাবলী
প্রসঙ্গের উপর নির্ভর করে (কোন শ্লেষের উদ্দেশ্য নয়) এই পদগুলির মধ্যে কয়েকটি বিভিন্ন উপায়ে ব্যবহৃত হয়।
লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) : (একেএ মডেল) এক ধরনের কৃত্রিম বুদ্ধিমত্তা যা মানুষের ভাষা বোঝা এবং তৈরি করার জন্য বিশাল ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছে।
উদাহরণ : OpenAI এর GPT3.5 এবং GPT4 যা বিশ্বকে ঝড় তুলেছে। (আমাদের ক্ষেত্রে আমরা ওপেন সোর্স এবং/অথবা অবাধে ডাউনলোডযোগ্য মডেলগুলির মধ্যে থেকে বেছে নিচ্ছি যেগুলি Hugging Face- এ পাওয়া যায়।)
পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) : মেটা এআই দ্বারা তৈরি একটি ডাটাবেসে নথি সংরক্ষণ করার একটি কৌশল যা এলএলএম ব্যবহারকারীর একটি প্রদত্ত প্রশ্নের (ডকুমেন্ট Q/A) উত্তর খুঁজতে অনুসন্ধান করে।
ব্যবহারকারীর নির্দেশাবলী: (একেএ প্রম্পট, বা প্রসঙ্গ) হল ব্যবহারকারী দ্বারা প্রদত্ত প্রশ্ন।
উদাহরণ: "নিম্নলিখিত টেক্সট সংক্ষিপ্ত করুন :
{ text }
"সিস্টেম প্রম্পট: ব্যবহারকারীর প্রম্পটের আগে দেওয়া বিশেষ নির্দেশাবলী, যা আপনার সহকারীর ব্যক্তিত্ব গঠনে সহায়তা করে।
উদাহরণ: "আপনি একজন সহায়ক এআই সহকারী।"
প্রসঙ্গ: ব্যবহারকারীর নির্দেশাবলী, এবং সম্ভবত একটি সিস্টেম প্রম্পট, এবং সম্ভবত পূর্ববর্তী রাউন্ডের প্রশ্ন\উত্তর জোড়া। (আগের Q/A জোড়াগুলিকে কেবল প্রসঙ্গ হিসাবে উল্লেখ করা হয়)।
প্রম্পট স্টাইল : এগুলি বিশেষ অক্ষরের সংমিশ্রণ যা ব্যবহারকারীর নির্দেশাবলী, সিস্টেম প্রম্পট এবং পূর্ববর্তী প্রশ্নগুলির প্রসঙ্গগুলির মধ্যে পার্থক্য চিনতে একজন এলএলএমকে প্রশিক্ষণ দেওয়া হয়।
উদাহরণ:
<s>[INST] {systemPrompt} [INST] [INST] {previousQuestion} [/INST] {answer} </s> [INST] {userInstructions} [/INST]
7B: একটি প্রদত্ত মডেলের প্যারামিটারের সংখ্যা নির্দেশ করে (উচ্চতর সাধারণত ভাল)। প্যারামিটার হল অভ্যন্তরীণ ভেরিয়েবল যা মডেল প্রশিক্ষণের সময় শিখে এবং ভবিষ্যদ্বাণী করতে ব্যবহৃত হয়। আমার উদ্দেশ্যে, 7B মডেল 12GB VRAM সহ আমার GPU-তে ফিট হতে পারে।
GGUF: এটি গ্রাহক হার্ডওয়্যারের (CPU/GPU) জন্য ডিজাইন করা এলএলএম-এর জন্য একটি নির্দিষ্ট বিন্যাস। প্রাইভেটজিপিটি-তে ব্যবহারের জন্য আপনি যে মডেলটিতে আগ্রহী হন না কেন, আপনাকে অবশ্যই এটির GGUF সংস্করণ খুঁজে বের করতে হবে (সাধারণত TheBloke দ্বারা তৈরি)।
Q2-Q8 0, K_M বা K_S: একটি GGUF সংগ্রহস্থলের ফাইল ব্রাউজ করার সময় আপনি একই মডেলের বিভিন্ন সংস্করণ দেখতে পাবেন। একটি উচ্চ সংখ্যা মানে কম সংকুচিত, এবং ভাল মানের। K_M-এ M মানে "মাঝারি" এবং K_S-তে S-এর অর্থ "ছোট"।
VRAM: এটি আপনার GPU এর মেমরি ক্ষমতা। এটি সম্পূর্ণরূপে GPU-তে লোড করতে, আপনি আপনার উপলব্ধ VRAM থেকে ছোট আকারের একটি মডেল চাইবেন৷
টোকেন: এটি মেট্রিক এলএলএম যার সাথে ভাষা ওজন করে। প্রতিটি টোকেনে মোটামুটি ৪টি অক্ষর থাকে।
PrivateGPT কি?
প্রাইভেটজিপিটি (পিজিপিটি) হল একটি ওপেন সোর্স প্রজেক্ট যা একটি ইউজার-ইন্টারফেস এবং প্রোগ্রামেবল API প্রদান করে যা ব্যবহারকারীদের বাড়িতে নিজের হার্ডওয়্যার সহ এলএলএম ব্যবহার করতে সক্ষম করে। এটি আপনাকে RAG সমর্থিত ডকুমেন্ট Q/A-এর জন্য আপনার নিজস্ব স্থানীয় ডাটাবেসে ডকুমেন্ট আপলোড করতে দেয়।
ব্যক্তিগত জিপিটি ডকুমেন্টেশন - ওভারভিউ :
প্রাইভেটজিপিটি একটি এপিআই প্রদান করে যাতে ব্যক্তিগত, প্রসঙ্গ-সচেতন এআই অ্যাপ্লিকেশন তৈরির জন্য প্রয়োজনীয় সমস্ত বিল্ডিং ব্লক রয়েছে। এপিআই ওপেনএআই এপিআই স্ট্যান্ডার্ড অনুসরণ করে এবং প্রসারিত করে এবং স্বাভাবিক এবং স্ট্রিমিং উভয় প্রতিক্রিয়া সমর্থন করে। এর মানে হল, আপনি যদি আপনার কোনো একটি টুলে OpenAI API ব্যবহার করতে পারেন, তাহলে আপনি আপনার নিজস্ব PrivateGPT API ব্যবহার করতে পারেন, কোনো কোড পরিবর্তন ছাড়াই, এবং আপনি যদি
local
মোডে ব্যক্তিগত জিপিটি চালাচ্ছেন তাহলে বিনামূল্যে ।
ওভারভিউ
আমি প্রাইভেটজিপিটি UI\RAG ব্যবহার করে অধ্যায় বুক করার জন্য প্রশ্ন জিজ্ঞাসা করে শুরু করেছি।
তারপর সারসংক্ষেপের জন্য পাঠ্য প্রাক-নির্বাচনের চেষ্টা করুন। এটি ছিল রাউন্ড 1 র্যাঙ্কিংয়ের অনুপ্রেরণা, আমার ফলাফল কতটা বড় পার্থক্য দেখাবে তা দেখতে। (প্রাক-নির্বাচিত বিভাগগুলির সারসংক্ষেপ।)
পরবর্তীতে আমি খুঁজে বের করতে চেয়েছিলাম কোন মডেলগুলি এই টাস্কের সাথে সেরা করবে, যার ফলে রাউন্ড 2 র্যাঙ্কিং হয়েছে, যেখানে Mistral-7B-Instruct-v0.2 ছিল স্পষ্ট বিজয়ী৷
তারপর আমি প্রম্পট শৈলী র্যাঙ্কিং করে এবং প্রত্যাশিত সঠিক প্রম্পট শৈলী পেতে কোড লিখে এই মডেল থেকে সেরা ফলাফল পেতে চেয়েছিলাম।
এর পরে, অবশ্যই, কোনটি সেরা কাজ করবে তা দেখতে আমাকে বিভিন্ন সিস্টেম প্রম্পট পরীক্ষা করতে হয়েছিল।
এর পরে, আমি কয়েকটি, ব্যবহারকারীর প্রম্পট চেষ্টা করেছি, আমার দ্বারা সর্বনিম্ন পোস্ট-প্রসেসিং প্রয়োজন এমন সারাংশ তৈরি করার জন্য সঠিক সেরা প্রম্পট কী তা নির্ধারণ করতে।
পরিশেষে, প্রতিটি এলএলএম-এর জন্য এবং আমাদের প্রক্রিয়ায় কোনো পরিমার্জনের কার্যকারিতা নির্ধারণের জন্য এই ধরনের পরীক্ষা করা উচিত। আমার মতে, শুধুমাত্র একবার প্রতিটি মডেলকে তার সবচেয়ে আদর্শ অবস্থার জন্য লক্ষ্য করা হলে তারা একে অপরের বিপরীতে সঠিকভাবে র্যাঙ্ক করা যেতে পারে।
র্যাঙ্কিং
যখন আমি বিভিন্ন LLM ভেরিয়েন্ট পরীক্ষা করা শুরু করি, mistral-7b-instruct-v0.1.Q4_K_M.gguf
প্রাইভেটজিপিটি-এর ডিফল্ট সেটআপের অংশ হিসাবে এসেছিল (আপনার সিপিইউতে চালানোর জন্য তৈরি)। এখানে, আমি Q8_0 ভেরিয়েন্ট পছন্দ করেছি।
যদিও আমি এই একই কাজের জন্য 50+ ভিন্ন ভিন্ন এলএলএম চেষ্টা করেছি, মিস্ট্রাল-7বি-ইন্সট্রাক্ট এখনও সেরাগুলির মধ্যে রয়েছে, বিশেষ করে যেহেতু v0.2 প্রকাশিত হয়েছে আমি এর থেকে ভাল আর খুঁজে পাইনি।
TLDR: Mistral-7B-Instruct-v0.2 - সংক্ষিপ্তকরণ কাজের জন্য আমার বর্তমান নেতা।
রাউন্ড 1 - প্রশ্ন/উ বনাম সারাংশ
Q/A করার সময় আমি দ্রুত আবিষ্কার করেছি যে ডাটাবেসে ছোট ছোট ডেটা আপলোড করার সময় এবং প্রতিবার পরিষ্কার স্লেট দিয়ে শুরু করার সময় আমি অনেক ভালো ফলাফল পাই। তাই আমি Q/A উদ্দেশ্যে পিডিএফকে অধ্যায়ে বিভক্ত করতে শুরু করেছি।
আমার প্রথম বিশ্লেষণের জন্য আমি নিম্নলিখিত কাজের জন্য 5 টি ভিন্ন এলএলএম পরীক্ষা করেছি:
- 70 পৃষ্ঠার বইয়ের অধ্যায়ে একই 30টি প্রশ্ন জিজ্ঞাসা করা।
- 30 খণ্ডে বিভক্ত একই 70 পৃষ্ঠার বইয়ের অধ্যায়ের সারসংক্ষেপ।
প্রশ্ন/উত্তর র্যাঙ্কিং
- Hermes Trismegistus Mistral 7b - আমার প্রিয়, এই পরীক্ষার সময়, কিন্তু আসলে সারাংশ সম্পাদনা করার সময় আমি সিদ্ধান্ত নিয়েছিলাম যে এটি খুব ভার্বস ছিল।
- SynthIA 7B V2 - এই রাউন্ডে পরীক্ষিত মডেলগুলির মধ্যে আমার প্রিয় হয়ে উঠেছে।
- Mistral 7b Instruct v0.1 - আমি যতটা চাই ততটা ভালো না।
- CollectiveCognition v1.1 Mistral 7b প্রচুর পরিমাণ ফিলার এবং সেগুলির মধ্যে সবচেয়ে বেশি সময় নিয়েছে। এটি গুণমান\উপযোগিতা সম্পর্কে মিস্ট্রালের চেয়ে কিছুটা বেশি স্কোর করেছে, তবে ফিলারের পরিমাণ এটিকে পড়তে কম উপভোগ্য করে তুলেছে।
- KAI 7b নির্দেশনা উত্তরগুলি খুব ছোট ছিল, এবং এর BSকে আরও একটু আলাদা করে তুলেছে। একটি ভাল মডেল, কিন্তু বিস্তারিত বই সারাংশ জন্য না.
দেখানো হয়েছে, প্রতিটি মডেলের জন্য
- উত্তর তৈরি করতে সেকেন্ডের সংখ্যা
- বিষয়ভিত্তিক উপযোগিতা\গুণমান রেটিং এর সমষ্টি
- কতগুলি অক্ষর তৈরি হয়েছিল?
- লক্ষ্য পরিসরে পাওয়া প্রসঙ্গ প্রসঙ্গ খণ্ডের সমষ্টি।
- নিচে উত্পন্ন টেক্সটে পাওয়া গুণাবলীর সংখ্যা:
- ফিলার (কম মান সহ অতিরিক্ত শব্দ)
- সংক্ষিপ্ত (খুব ছোট, কাজ করার জন্য যথেষ্ট নয়।)
- BS (এই বই থেকে নয় এবং সহায়ক নয়।)
- ভাল BS (লক্ষ্যযুক্ত বিভাগ থেকে নয় তবে বৈধ।)
মডেল | রেটিং | অনুসন্ধান সঠিকতা | চরিত্র | সেকেন্ড | বি.এস | ফিলার | সংক্ষিপ্ত | ভাল বি.এস |
---|---|---|---|---|---|---|---|---|
hermes-trismegistus-mistral-7b | 68 | 56 | 62141 | 298 | 3 | 4 | 0 | 6 |
synthia-7b-v2.0 | 63 | 59 | 28087 | 188 | 1 | 7 | 7 | 0 |
mistral-7b-instruct-v0.1 | 51 | 56 | 21131 | 144 | 3 | 0 | 17 | 1 |
সমষ্টিগত জ্ঞান-v1.1-মিস্ট্রাল-7b | 56 | 57 | 59453 | 377 | 3 | 10 | 0 | 0 |
kai-7b-নির্দেশ | 44 | 56 | 21480 | 117 | 5 | 0 | 18 | 0 |
সারসংক্ষেপ র্যাঙ্কিং
এই প্রথম রাউন্ডের জন্য আমি অধ্যায়ের বিষয়বস্তুগুলিকে একটি পরিসীমা সহ বিভাগে বিভক্ত করেছি
900-14000 অক্ষর প্রতিটি (বা 225-3500 টোকেন)।
দ্রষ্টব্য: অসংখ্য বড় প্রসঙ্গ মডেল প্রকাশিত হওয়া সত্ত্বেও, আপাতত, আমি এখনও বিশ্বাস করি যে ছোট প্রসঙ্গগুলি আরও ভাল সারাংশে পরিণত হয়। আমি সংক্ষিপ্তকরণ টাস্ক প্রতি 2750 টোকেন (11000 অক্ষর) এর বেশি পছন্দ করি না।
- হার্মিস Trismegistus Mistral 7b - এখনও নেতৃত্বে। এটা কিছু ভরাট সঙ্গে, শব্দপূর্ণ. আমি এই ফলাফল ব্যবহার করতে পারেন.
- SynthIA 7B - বেশ ভাল, কিন্তু খুব সংক্ষিপ্ত। অনেক উত্তর নিখুঁত ছিল, কিন্তু 7টি ব্যবহার করার জন্য খুব ছোট\অসম্পূর্ণ ছিল।
- Mistral 7b Instruct v0.1 - খুব ছোট।
- KAI 7b নির্দেশ - খুব ছোট।
- CollectiveCognition v1.1 Mistral 7b - প্রচুর আবর্জনা। কিছু সারাংশ ছিল অতি বিস্তারিত এবং নিখুঁত, কিন্তু অর্ধেকেরও বেশি উত্তর ছিল পাঠ্যের উপর ভিত্তি করে প্রশ্নগুলির সেট, সারাংশ নয়।
আশ্চর্যের বিষয় নয়, সারাংশগুলি Q/A-এর থেকে অনেক ভাল পারফর্ম করেছে, কিন্তু তাদের আরও সূক্ষ্মভাবে লক্ষ্যযুক্ত প্রসঙ্গও ছিল।
নাম | স্কোর | অক্ষর উত্পন্ন | OG থেকে % পার্থক্য | জেনারেট করতে সেকেন্ড | সংক্ষিপ্ত | আবর্জনা | বি.এস | ভরাট | প্রশ্ন | বিশদ |
---|---|---|---|---|---|---|---|---|---|---|
hermes-trismegistus-mistral-7b | 74 | 45870 | -61 | 274 | 0 | 1 | 1 | 3 | 0 | 0 |
synthia-7b-v2.0 | 60 | 26849 | -77 | 171 | 7 | 1 | 0 | 0 | 0 | 1 |
mistral-7b-instruct-v0.1 | 58 | 25797 | -78 | 174 | 7 | 2 | 0 | 0 | 0 | 0 |
kai-7b-নির্দেশ | 59 | 25057 | -79 | 168 | 5 | 1 | 0 | 0 | 0 | 0 |
সমষ্টিগত জ্ঞান-v1.1-মিস্ট্রাল-7b | 31 | 29509 | -75 | 214 | 0 | 1 | 1 | 2 | 17 | 8 |
Google ডক্সে বা GitHub-এ সম্পূর্ণ ডেটা এবং র্যাঙ্কিং খুঁজুন: QA স্কোর , সারাংশ র্যাঙ্কিং ।
রাউন্ড 2: সংক্ষিপ্তকরণ - মডেল র্যাঙ্কিং
আবার, আমি 7B মডেলের Q8 সংস্করণ পছন্দ করি।
Mistral 7b Instruct v0.2 প্রকাশ করা হয়েছে তা খুঁজে পাওয়া একটি নতুন রাউন্ডের পরীক্ষার মূল্য ছিল।
আমি প্রম্পট শৈলী পরীক্ষা করার সিদ্ধান্ত নিয়েছে। PrivateGPT মিস্ট্রাল প্রম্পটের সাথে প্যাকেজ করা হয়নি, এবং মিস্ট্রাল প্রম্পট Llama2 প্রম্পটের অনুরূপ, এটি ডিফল্ট (llama-index) প্রম্পটের সাথে আরও ভাল পারফরম্যান্স বলে মনে হচ্ছে।
- SynthIA-7B-v2.0-GGUF - এই মডেলটি আমার প্রিয় হয়ে উঠেছে, তাই আমি এটি একটি মানদণ্ড হিসাবে ব্যবহার করেছি।
- Mistral-7B-Instruct-v0.2 (Llama-index Prompt) এখানে শোয়ের তারকা, বেশ চিত্তাকর্ষক।
- Mistral-7B-Instruct-v0.2 (Llama2 Prompt) এখনও ভাল, কিন্তু llama-index প্রম্পট ব্যবহার করার মতো ভাল নয়
- Tess-7B-v1.4 - Synthia v2-এর মতো একই নির্মাতার আরেকটি। ভাল, কিন্তু হিসাবে ভাল না.
- Llama-2-7B-32K-Instruct-GGUF - কাজ করেছে ঠিক আছে, কিন্তু ধীরে ধীরে, llama-index প্রম্পট সহ। শুধু llama2 প্রম্পট সঙ্গে খারাপ. (Llama2 "শুধু নির্দেশনা" শৈলী দিয়ে আবার পরীক্ষা করা উচিত)
সারসংক্ষেপ র্যাঙ্কিং
শুধুমাত্র সারাংশ, Q/A বইয়ের সারাংশের জন্য কম দক্ষ।
মডেল | % পার্থক্য | স্কোর | মন্তব্য করুন |
---|---|---|---|
Synthia 7b V2 | -64.43790093 | 28 | ভাল |
Mistral 7b Instruct v0.2 (ডিফল্ট প্রম্পট) | -60.81878508 | 33 | ভি গুড |
Mistral 7b Instruct v0.2 (Llama2 প্রম্পট) | -64.5871483 | 28 | ভাল |
Tess 7b v1.4 | -62.12938978 | 29 | কম স্ট্রাকচার্ড |
Llama 2 7b 32k নির্দেশ (ডিফল্ট) | -61.39890553 | 27 | কম স্ট্রাকচার্ড। ধীর |
Google ডক্সে বা GitHub- এ সম্পূর্ণ ডেটা এবং র্যাঙ্কিং খুঁজুন।
রাউন্ড 3: প্রম্পট স্টাইল
আগের রাউন্ডে, আমি লক্ষ্য করেছি Mistral 7b Instruct v0.2 ডিফল্ট প্রম্পটের সাথে llama2 এর চেয়ে অনেক ভালো পারফর্ম করছে।
ঠিক আছে, আসলে, মিস্ট্রাল প্রম্পটটি llama2 এর সাথে বেশ মিল, কিন্তু ঠিক একই নয়।
- llama_index (ডিফল্ট)
system: {{systemPrompt}} user: {{userInstructions}} assistant: {{assistantResponse}}
- llama2:
<s> [INST] <<SYS>> {{systemPrompt}} <</SYS>> {{userInstructions}} [/INST]
- মিস্ট্রাল
<s>[INST] {{systemPrompt}} [/INST]</s>[INST] {{userInstructions}} [/INST]
আমি default
, তারপর llama2
প্রম্পট শৈলী দিয়ে আউটপুট পরীক্ষা করা শুরু করেছি। এরপরে আমি মিস্ট্রাল টেমপ্লেট কোডিং কাজ করতে গিয়েছিলাম।
সেই র্যাঙ্কিংয়ের ফলাফল আমাকে আত্মবিশ্বাস দিয়েছে যে আমি সঠিকভাবে কোড করেছি।
প্রম্পট শৈলী | % পার্থক্য | স্কোর | বিঃদ্রঃ |
---|---|---|---|
মিস্ট্রাল | -50% | 51 | নিখুঁত! |
ডিফল্ট (লামা-সূচক) | -42% | 43 | খারাপ শিরোনাম |
লামা2 | -47% | 48 | নো স্ট্রাকচার |
Google ডক্সে বা GitHub- এ সম্পূর্ণ ডেটা এবং র্যাঙ্কিং খুঁজুন।
রাউন্ড 4: সিস্টেম প্রম্পট
একবার আমি প্রম্পট স্টাইল ডায়াল করার পরে, আমি কয়েকটি ভিন্ন সিস্টেম প্রম্পট চেষ্টা করেছিলাম, এবং ফলাফল দেখে অবাক হয়েছিলাম!
নাম | সিস্টেম প্রম্পট | পরিবর্তন | স্কোর | মন্তব্য করুন |
---|---|---|---|---|
কোনোটিই নয় | | -49.8 | 51 | পারফেক্ট |
ডিফল্ট প্রম্পট | আপনি একজন সহায়ক, শ্রদ্ধাশীল এবং সৎ সহকারী। \nসর্বদা যথাসম্ভব সহায়ক উত্তর দিন এবং প্রদত্ত সমস্ত নির্দেশাবলী অনুসরণ করুন। \nতথ্য অনুমান বা তৈরি করবেন না। \nপ্রদত্ত নির্দেশাবলী বা প্রসঙ্গ উল্লেখ করবেন না।" | -58.5 | 39 | কম চমৎকার |
MyPrompt1 | "আপনি প্রিয়। সংক্ষিপ্তকরণ, রূপরেখা এবং কাঠামোর বিশেষজ্ঞ হিসাবে কাজ করুন। \nআপনার লেখার শৈলী তথ্যপূর্ণ এবং যৌক্তিক হওয়া উচিত।" | -54.4 | 44 | কম চমৎকার |
সরল | "আপনি একজন সহায়ক AI সহকারী। আপনার আউটপুটের অংশ হিসাবে কোনও ব্যবহারকারীর নির্দেশাবলী, বা সিস্টেম প্রসঙ্গ অন্তর্ভুক্ত করবেন না।" | -52.5 | 42 | কম চমৎকার |
শেষ পর্যন্ত, আমি দেখতে পাই যে Mistral 7b Instruct v0.2 কোনো সিস্টেম প্রম্পট ছাড়াই আমার সারাংশের জন্য সবচেয়ে ভালো কাজ করে।
হয়তো একটি ভিন্ন টাস্কের জন্য ভিন্ন ফলাফল হতে পারে, বা আরও ভাল প্রম্পট করতে পারে, কিন্তু এটি ভাল কাজ করে তাই আমি এটির সাথে জগাখিচুড়ি করছি না।
Google ডক্সে বা GitHub- এ সম্পূর্ণ ডেটা এবং র্যাঙ্কিং খুঁজুন।
রাউন্ড 5: ইউজার প্রম্পট
আমি ইতিমধ্যে সন্দেহ করতে শুরু করেছি যে আমি প্রম্পটে কম শব্দ দিয়ে আরও ভাল ফলাফল পাচ্ছি। যেহেতু আমি সেরা সিস্টেম প্রম্পট পেয়েছি, Mistral 7b Instruct v0.2 এর জন্য, আমি এটিও পরীক্ষা করেছি কোন ব্যবহারকারীর প্রম্পট এটি সবচেয়ে উপযুক্ত।
| শীঘ্র | বনাম ওজি | স্কোর | বিঃদ্রঃ |
---|---|---|---|---|
Propmt0 | নিম্নলিখিত পাঠ্যের সংক্ষিপ্তসারে সংক্ষিপ্ত, তবুও ব্যাপক, নোট লিখুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে। কোন বাহ্যিক তথ্য যোগ না করে এই পাঠ্য থেকে প্রয়োজনীয় জ্ঞানের উপর ফোকাস করুন। | 43% | 11 | |
প্রম্পট1 | নিম্নলিখিত পাঠ্যের সংক্ষিপ্তসারে সংক্ষিপ্ত, তবুও ব্যাপক, নোট লিখুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে। কোন বাহ্যিক তথ্য যোগ না করে এই পাঠ্য থেকে প্রয়োজনীয় জ্ঞানের উপর ফোকাস করুন। | 46% | 11 | অতিরিক্ত নোট |
প্রম্পট2 | নিম্নলিখিত পাঠ্যের সংক্ষিপ্তসারে ব্যাপক নোট লিখুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে। | 58% | 15 | |
প্রম্পট3 | নিম্নলিখিত পাঠ্যের গুরুত্বপূর্ণ অংশগুলিকে সংক্ষিপ্ত করে সংক্ষিপ্ত বুলেট-পয়েন্ট নোট তৈরি করুন। পঠনযোগ্যতা নিশ্চিত করতে হোয়াইটস্পেস সহ বোল্ডে শিরোনাম পদ এবং মূল ধারণা সহ নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন। পুনরাবৃত্তি এড়িয়ে চলুন। | 43% | 10 | |
প্রম্পট4 | নিম্নলিখিত পাঠ্যের সংক্ষিপ্ত সংক্ষিপ্ত নোট লিখুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে। | 41% | 14 | |
প্রম্পট5 | নিম্নলিখিত পাঠ্যের সংক্ষিপ্তসারে ব্যাপক, কিন্তু সংক্ষিপ্ত, নোট তৈরি করুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে। | 52% | 14 | অতিরিক্ত নোট |
Google ডক্সে বা GitHub- এ সম্পূর্ণ ডেটা এবং র্যাঙ্কিং খুঁজুন।
সম্ভবত আরও শক্তিশালী হার্ডওয়্যার সহ যা 11b বা 30b মডেলগুলিকে সমর্থন করতে পারে আমি আরও বর্ণনামূলক প্রম্পটিং সহ আরও ভাল ফলাফল পেতে পারি। এমনকি Mistral 7b Instruct v0.2 এর সাথেও আমি এখনও কিছু সৃজনশীল নির্দেশাবলী চেষ্টা করার জন্য উন্মুক্ত, কিন্তু আপাতত আমি আমার বিদ্যমান প্রক্রিয়াটিকে পরিমার্জন করতে পেরে খুশি।
প্রম্পট 2: জয়!
নিম্নলিখিত পাঠ্যের সংক্ষিপ্তসারে ব্যাপক নোট লিখুন। নেস্টেড বুলেট পয়েন্ট ব্যবহার করুন: শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে।
এই ক্ষেত্রে, ব্যাপক "সংক্ষিপ্ত" বা এমনকি "বিস্তৃত, কিন্তু সংক্ষিপ্ত" এর চেয়েও ভাল পারফর্ম করে।
যাইহোক, আমি সতর্ক করছি যে এটি আপনার ব্যবহারের ক্ষেত্রে নির্ভর করবে। আমি যা খুঁজছি তা হল একটি অত্যন্ত ঘনীভূত এবং পাঠযোগ্য নোট যা গুরুত্বপূর্ণ জ্ঞানকে কভার করে।
মূলত, যদি আমি মূলটি না পড়ি, তবে প্রতিটি নির্দিষ্ট বিশদ না হলে এটি কী তথ্য দেয় তা আমার জানা উচিত। এমনকি যদি আমি মূলটি পড়েও থাকি, আমি পরবর্তীতে সংখ্যাগরিষ্ঠের কথা মনে রাখব না। এই নোটগুলি মূল বিষয়গুলির একটি দ্রুত রেফারেন্স।
ফলাফল
এই পরীক্ষাগুলি থেকে অর্জিত জ্ঞান ব্যবহার করে, আমি আমার প্রথম সম্পূর্ণ বইটির সারসংক্ষেপ, 5-6 ঘন্টার মধ্যে 539 পৃষ্ঠা!!! অবিশ্বাস্য!
সারাংশ প্রতি সপ্তাহ ব্যয় করার পরিবর্তে, আমি আমার প্রথম 9টি বইয়ের সারাংশ মাত্র 10 দিনে সম্পূর্ণ করেছি।
চুরি
আপনি এখানে প্রকাশিত প্রতিটি পাঠ্যের জন্য নীচের কপিলিকস থেকে ফলাফল দেখতে পারেন।
বিশেষ করে বিবেচনা করে যে এটি লাভের জন্য নয়, তবে শিক্ষাগত উদ্দেশ্যে, আমি বিশ্বাস করি এই সংখ্যাগুলি গ্রহণযোগ্য।
বই | মডেল | চরিত্রের পার্থক্য | অভিন্ন | ক্ষুদ্র পরিবর্তন | প্যারাফ্রেজড | মোট মিলেছে |
---|---|---|---|---|---|---|
ইস্টার্ন বডি ওয়েস্টার্ন মাইন্ড | সিনথিয়া 7Bv2 | -75% | 3.5% | 1.1% | 0.8% | 5.4% |
নিরাময় শক্তি ভ্যাগাস নার্ভ | Mistral-7B-Instruct-v0.2; SynthIA-7B-v2.0 | -81% | 1.2% | 0.8% | 2.5% | 4.5% |
আয়ুর্বেদ এবং মন | Mistral-7B-Instruct-v0.2; SynthIA-7B-v2.0 | -77% | 0.5% | 0.3% | 1.2% | 2% |
ট্রমা সারভাইভারদের টুকরো টুকরো নিজেকে নিরাময় করা | Mistral-7B-নির্দেশ-v0.2 | -75% | | | | 2% |
একটি নিরাপদ ঘাঁটি | Mistral-7B-নির্দেশ-v0.2 | -84% | 0.3% | 0.1% | 0.3% | 0.7% |
শরীর স্কোর রাখে | Mistral-7B-নির্দেশ-v0.2 | -74% | 0.1% | 0.2% | 0.3% | 0.5% |
চক্রের সম্পূর্ণ বই | Mistral-7B-নির্দেশ-v0.2 | -70% | 0.3% | 0.3% | 0.4% | 1.1% |
সংযুক্তি তত্ত্বের 50 বছর | Mistral-7B-নির্দেশ-v0.2 | -70% | 1.1% | 0.4% | 2.1% | 3.7% |
প্রাপ্তবয়স্কদের মধ্যে সংযুক্তির ব্যাঘাত | Mistral-7B-নির্দেশ-v0.2 | -62% | 1.1% | 1.2% | 0.7% | 3.1% |
মনোবিজ্ঞান মেজর এর সঙ্গী | Mistral-7B-নির্দেশ-v0.2 | -62% | 1.3% | 1.2% | 0.4% | 2.9% |
আপনার জীবনে মনোবিজ্ঞান | Mistral-7B-নির্দেশ-v0.2 | -74% | 0.6% | 0.4% | 0.5% | 1.6% |
সম্পূর্ণ বই সারাংশ
সারাংশ প্রতি সপ্তাহ ব্যয় করার পরিবর্তে, আমি আমার প্রথম 9টি বইয়ের সারাংশ মাত্র 10 দিনে সম্পূর্ণ করেছি। বন্ধনীতে মূলের পৃষ্ঠা সংখ্যা।
- ইস্টার্ন বডি ওয়েস্টার্ন মাইন্ড অ্যানোডিয়া জুডিথ (436 পৃষ্ঠা)
- ভ্যাগাস নার্ভের নিরাময় ক্ষমতা স্ট্যানলি রোজেনবার্গ (335 পৃষ্ঠা)
- আয়ুর্বেদ এবং মন ডাঃ ডেভিড ফ্রাওলি (181 পৃষ্ঠা)
- ট্রমা সারভাইভারস জ্যানিনা ফিশারের খণ্ডিত নিজেকে নিরাময় করা (367 পৃষ্ঠা)
- একটি নিরাপদ ভিত্তি জন বোলবি (133 পৃষ্ঠা)
- দ্য বডি কিপস দ্য স্কোর বেসেল ভ্যান ডের কলক (৪৫৪ পৃষ্ঠা)
- যোগ এবং পলিভাগাল তত্ত্ব, পলিভ্যাগাল সেফটি স্টিভেন পোর্গেস থেকে (37 পৃষ্ঠা)
- লেভেলিনের চক্রের সম্পূর্ণ বই সিনথিয়া ডেল (999 পৃষ্ঠা)
- সংযুক্তি তত্ত্বের পঞ্চাশ বছর: ডোনাল্ড উইনিকোট মেমোরিয়াল লেকচার (54 পৃষ্ঠা)
- প্রাপ্তবয়স্কদের মধ্যে সংযুক্তি ব্যাঘাত (477 পৃষ্ঠা)
- দ্য সাইকোলজি মেজরের সঙ্গী ডানা এস ডন, জেন এস হ্যালোনেন (৩০৮ পৃষ্ঠা)
- দ্য মিথ অফ রিডেম্পটিভ ভায়োলেন্স ওয়াল্টার উইঙ্ক (5 পৃষ্ঠা)
- আপনার জীবনে মনোবিজ্ঞান সারাহ গিসন এবং মাইকেল এস গাজানিগা (1072 পৃষ্ঠা)
ওয়াকথ্রু
আপনি যদি আমার পদক্ষেপগুলি আরও ঘনিষ্ঠভাবে অনুসরণ করতে আগ্রহী হন তবে স্ক্রিপ্ট এবং উদাহরণ সহ গিটহাবের ওয়াকথ্রুটি দেখুন।
উপসংহার
এখন যেহেতু আমি আমার প্রক্রিয়াগুলি পরিমার্জিত করেছি, এবং প্রম্পট ফরম্যাটের সাথে কাজ করতে আত্মবিশ্বাসী বোধ করছি, আমি আরও পরীক্ষা পরিচালনা করব। আসলে, আমি ইতিমধ্যে আরও পরীক্ষা এবং র্যাঙ্কিং পরিচালনা করেছি (পরবর্তীতে সেগুলি প্রকাশ করব), তবে অবশ্যই আবার আরও পরীক্ষা করব এবং শেখা চালিয়ে যাব!
আমি এখনও বিশ্বাস করি যে আপনি AI এর সাথে যে কাজটি করেন তার জন্য আপনি যদি সেরা ফলাফল পেতে চান তবে আপনার নিজের পরীক্ষা চালানো উচিত এবং কোনটি সবচেয়ে ভাল কাজ করে তা দেখতে হবে। শুধুমাত্র জনপ্রিয় মডেল র্যাঙ্কিংয়ের উপর নির্ভর করবেন না, তবে আপনার নিজের গবেষণার জন্য সেগুলি ব্যবহার করুন।
অতিরিক্ত সম্পদ
- চাপ-পরীক্ষিত সবচেয়ে জনপ্রিয় ওপেন-সোর্স এলএলএম (বড় ভাষা মডেল) তাদের দীর্ঘ প্রসঙ্গ স্মরণ করার ক্ষমতার জন্য u/ramprasad27 ( পার্ট 2 )
- LeonEricsson / llmcontext - 💢 চাপ পরীক্ষা করা হচ্ছে খোলা এলএলএম-এর প্রসঙ্গ উইন্ডো
- চ্যাটবক্স এরিনা লিডারবোর্ড
- 🐺🐦⬛ LLM তুলনা/পরীক্ষা: 10টি নতুন মডেলের সাথে র্যাঙ্কিং আপডেট করা হয়েছে (সেরা 7Bs)! u/WolframRavenwolf
- 🐺🐦⬛ LLM প্রম্পট ফরম্যাট তুলনা/পরীক্ষা: Mixtral 8x7B 17টি ভিন্ন নির্দেশ টেমপ্লেট সহ নির্দেশ করুন u/WolframRavenwolf
- হ্যালুসিনেশন লিডারবোর্ড Vectara
এছাড়াও এখানে উপস্থিত হয়.