লেখক:
(1) জেরি ওয়ে, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;
(2) চেনগুরান ইয়াং, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;
(3) জিইয়িং সিং, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;
লেখক:
লেখক:(1) জেরি ওয়েই, গুগল ডেপমিন্ড এবং একটি লিড অবদানকারী;
(2) Chengrun Yang, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;
(3) Xinying সঙ্গীত, গুগল DeepMind এবং একটি লিভার অবদানকারী;
(4) Yifeng Lu, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;
(5) Nathan Hu, গুগল ডেপমিন্ড এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়;
(6) জি হুয়াং, গুগল ডেপমিন্ড এবং ইলিনয় বিশ্ববিদ্যালয় এ অরবানা-শ্যাম্পেইন;
(7) ডাস্টিন ট্রান, গুগল ডেপমিন্ড;
(8) গুগল ডেপমিন্ড;
(9) রুইবো লিও, গুগল ডেপমিন্ড;
(10) গুগল ডেপমিন্ড;
(11) গুগল DeepMind;
(12) Quoc V. Le, গুগল DeepMind.
টেবিল লিঙ্ক
2 LongFact: Long-form factuality জন্য একটি multi-topic benchmark উত্পাদনের জন্য LLMs ব্যবহার
2 LongFact: Long-form factuality জন্য একটি মাল্টি-টোমিক benchmark উত্পাদন করতে LLMs ব্যবহার3 নিরাপদ:এলএলএম এজেন্ট যেমন বাস্তবতা autoraters
3 নিরাপদ:এলএলএম এজেন্ট যেমন বাস্তবতা autoraters4 LLMs এজেন্ট মানুষের চেয়ে ভাল বাস্তবতা অ্যানোটেটর হতে পারে
4 LLMs এজেন্ট মানুষের চেয়ে ভাল বাস্তবতা উল্লেখ করতে পারেন5 F1@k: মানুষের পছন্দের দৈর্ঘ্য থেকে পুনরাবৃত্তি সঙ্গে F1 প্রসারিত
5 F1@k: মানুষের পছন্দের দৈর্ঘ্য থেকে পুনরাবৃত্তি সঙ্গে F1 প্রসারিত6 বড় LLMs আরো বাস্তব7 সম্পর্কিত কাজ8 সীমাবদ্ধতা9 সিদ্ধান্ত, স্বীকৃতি, লেখক অবদান, এবং রেফারেন্স
9 উপসংহার, স্বীকৃতি, লেখক অবদান, এবং রেফারেন্সঅ্যাপ্লিকেশন
অ্যাপ্লিকেশনএ. প্রায়শই জিজ্ঞাসিত প্রশ্নবি. LongFact বিস্তারিতক. নিরাপদ বিবরণড. মেট্রিক বিস্তারিতআরো বিশ্লেষণব্রেক্ট
বহুল ভাষা মডেল (LLMs) প্রায়শই এমন সামগ্রী উত্পাদন করে যা তথ্য অনুসন্ধানের অনুরোধগুলির প্রতিক্রিয়া করার সময় বাস্তব ত্রুটিগুলি অন্তর্ভুক্ত করে। খোলা ডোমেইনগুলিতে একটি মডেলের দীর্ঘ আকারের বাস্তবতার তুলনা করার জন্য, আমরা প্রথমে GPT-4 ব্যবহার করি LongFact উত্পাদন করার জন্য, 38 টি বিষয়গুলির মধ্যে হাজার হাজার প্রশ্ন অন্তর্ভুক্ত একটি অনুরোধ সেট। তারপর আমরা প্রস্তাব করি যে LLM এজেন্টগুলি অনুসন্ধানের জন্য দীর্ঘ আকারের বাস্তবতার জন্য স্বয়ংক্রিয় মূল্যায়ক হিসাবে ব্যবহার করা যেতে পারে যা আমরা Search-Augmented Factuality E
অন্তর্ভুক্তভাবে, আমরা প্রমাণ করি যে LLM এজেন্টরা crowdsourced human annotators-এর চেয়ে বেশি পারফরম্যান্স করতে পারে- ∼16k ব্যক্তিগত তথ্যের একটি সেটের উপর, SAFE 72% এর মধ্যে crowdsourced human annotators-এর সাথে একমত হয়, এবং 100 অসভ্যতা ক্ষেত্রের একটি অন্তর্ভুক্তের উপর, SAFE 76% এর মধ্যে জয়ী হয়। একই সময়ে, SAFE মানুষের annotators-এর চেয়ে 20 গুণ বেশি সস্তা। আমরা চারটি মডেল পরিবার (Gemini, GPT, Claude, এবং PaLM-2) এ LongFact-এর উপর তিনটি ভাষা মডেলের উপর LongFact-এর তুলনা করেছি, যাতে দেখা যায় যে বড় ভাষা মডেলগুলি সাধারণত
• আমরা LongFact (অধ্যায় 6) এ চারটি মডেল পরিবার (জিমনি, GPT, Claude, এবং PaLM-2) এর মধ্যে ১৩টি বড় ভাষা মডেলের ব্যাপক রেফারেন্স পরিচালনা করি।
এই কাগজটি
এই কাগজটি
[1] আমরা সত্যতা এবং সত্য ভুলের উপর দৃষ্টি আকর্ষণ করি, হ্যালুসিনেশন নয়, কারণ আমাদের প্রস্তাবিত মূল্যায়ন পদ্ধতিটি নির্ধারণ করে যে একটি প্রতিক্রিয়া বহিরাগত প্রতিষ্ঠিত জ্ঞান (সত্যতা) সম্পর্কিত সত্যতা কিনা তা নির্ধারণ করে, বরং প্রতিক্রিয়াটি মডেলের অভ্যন্তরীণ জ্ঞান (হ্যালুসিনেশন) সঙ্গে সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করে।
[2] আমরা GPT-4-0613 ব্যবহার করি।
[3] আমাদের SAFE বাস্তবায়নে, আমরা ভাষা মডেল হিসাবে gpt-3.5-turbo-0125 এবং Google অনুসন্ধান API হিসাবে Serper (https://serper.dev/) ব্যবহার করি।