516 পড়া
516 পড়া

আইআই সত্য পরীক্ষা: নতুন গবেষণা 13 প্রধান আইআই মডেলের সঠিকতা পরীক্ষা করে

দ্বারা Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ডিপমাইন্ড লংফ্যাক্ট এবং সেফ চালু করেছে, বৃহৎ ভাষার মডেলগুলিতে তথ্যগত নির্ভুলতা পরিমাপ এবং উন্নত করার জন্য টুল। সেফ AI প্রতিক্রিয়াগুলির সত্যতা যাচাই করার জন্য সার্চ ইঞ্জিন ব্যবহার করে, প্রায়শই মানব টীকাকারদের চেয়েও বেশি পারফর্ম করে। বেঞ্চমার্কিং দেখায় যে GPT-4 এর মতো বৃহত্তর মডেলগুলি আরও সঠিক দীর্ঘ-ফর্মের উত্তর প্রদান করে।
featured image - আইআই সত্য পরীক্ষা: নতুন গবেষণা 13 প্রধান আইআই মডেলের সঠিকতা পরীক্ষা করে
Language Models (dot tech) HackerNoon profile picture
0-item

লেখক :

(1) জেরি Wei, গুগল DeepMind এবং একটি নেতৃস্থানীয় অবদানকারী;

(2) Chengrun ইয়াং, গুগল DeepMind এবং একটি নেতৃস্থানীয় অবদানকারী;

(3) Xinying সঙ্গীত, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;

(4) ইফেং লু, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;

(5) নাতান হু, গুগল ডেপমিন্ড এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়;

(6) জি হুয়াং, গুগল ডেপমিন্ড এবং ইলিনয় বিশ্ববিদ্যালয়ের ইউরবানা-শ্যাম্পেইন;

ডাস্টিন ট্রান, গুগল ডেপমিন্ড

(২) গুগল ডেপমিন্ড, গুগল ডেপমিন্ড

Ruibo Liu, গুগল ডেপমিন্ড

১০. গুগল ডেপমিন্ড;

(11) Cosmo Du, গুগল DeepMind;

Quoc V. Le, গুগল ডেপমিন্ড

Authors:

(1) জেরি Wei, গুগল DeepMind এবং একটি নেতৃস্থানীয় অবদানকারী;

(2) Chengrun ইয়াং, গুগল DeepMind এবং একটি নেতৃস্থানীয় অবদানকারী;

(3) Xinying সঙ্গীত, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;

(4) ইফেং লু, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;

(5) নাতান হু, গুগল ডেপমিন্ড এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়;

(6) জি হুয়াং, গুগল ডেপমিন্ড এবং ইলিনয় বিশ্ববিদ্যালয়ের ইউরবানা-শ্যাম্পেইন;

ডাস্টিন ট্রান, গুগল ডেপমিন্ড

(২) গুগল ডেপমিন্ড, গুগল ডেপমিন্ড

Ruibo Liu, গুগল ডেপমিন্ড

১০. গুগল ডেপমিন্ড;

(11) Cosmo Du, গুগল DeepMind;

Quoc V. Le, গুগল ডেপমিন্ড

Abstract এবং 1 Introduction

2 লং ফ্যাক্ট: লং ফর্ম বাস্তবতার জন্য একটি মাল্টি-টাইপ রেফারেন্স তৈরি করার জন্য এলএলএম ব্যবহার

3 নিরাপদ:এলএলএম এজেন্টরা বাস্তবতা autoraters হিসাবে

4 এলএলএম এজেন্টরা মানুষের চেয়ে ভাল বাস্তবতা অ্যানোটেটর হতে পারে

5 F1@k: মানুষের পছন্দের দৈর্ঘ্য থেকে F1 প্রসারিত

6 বৃহত্তর LLMs আরো বাস্তব

7 সম্পর্কিত কাজ

৮ সীমাবদ্ধতা

9 উপসংহার, স্বীকৃতি, লেখকের অবদান এবং রেফারেন্স

Appendix

A. প্রায়শই জিজ্ঞাসিত প্রশ্ন

দীর্ঘমেয়াদি বিস্তারিত

নিরাপদ বিস্তারিত

মেট্রিক বিস্তারিত

I. আরও বিশ্লেষণ

অবরোধ

বড় ভাষা মডেল (LLMs) প্রায়শই এমন সামগ্রী উত্পাদন করে যা তথ্য অনুসন্ধানের অনুরোধগুলির প্রতিক্রিয়া করার সময় সত্যের ভিত্তিতে ভুল থাকে। খোলা ডোমেইনগুলিতে একটি মডেলের দীর্ঘ আকারের বাস্তবতাকে তুলনামূলক করার জন্য, আমরা প্রথমে LongFact উত্পাদন করার জন্য GPT-4 ব্যবহার করি, 38 টি বিষয়গুলির মধ্যে হাজার হাজার প্রশ্ন অন্তর্ভুক্ত একটি অনুরোধ সেট। তারপর আমরা প্রস্তাব করি যে LLM এজেন্টগুলি অনুসন্ধানগুলি গুগল অনুসন্ধানে অনুসন্ধানের জন্য স্বয়ংক্রিয় মূল্যায়ক হিসাবে ব্যবহার করা যেতে পারে এবং অনুসন্ধানের ফলাফলগুলি দ্বারা সমর্থ


ইমেজগতভাবে, আমরা প্রমাণ করি যে এলএলএম এজেন্টরা crowdsourced human annotators-এর চেয়ে বেশি পারফরম্যান্স করতে পারে- ∼16k ব্যক্তিগত তথ্যের একটি সেটের উপর, SAFE 72% এর মধ্যে crowdsourced human annotators-এর সাথে একমত হয়, এবং 100 অসভ্যতা ক্ষেত্রে একটি র্যান্ডম সাবসেটে, SAFE 76% এর মধ্যে জয়ী হয়। একই সময়ে, SAFE মানব annotators-এর চেয়ে 20 গুণ বেশি সস্তা। আমরা চারটি মডেল পরিবার (জিমনি, GPT, Claude, এবং PaLM-2) এ LongFact-এর উপর LongFact-এর ১৩টি ভাষা মডেলের তুলনা করি, যাতে দেখা যায় যে বড় ভাষা মডেলগুলি সাধারণত


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

১ প্রবর্তন

বড় ভাষা মডেলগুলি (LLMs) সাম্প্রতিক বছরগুলিতে উল্লেখযোগ্যভাবে উন্নত হয়েছে (Brown et al., 2020; Chowdhery et al., 2022; গুগল, 2023; OpenAI, 2023; Gemini Team, 2023, ইত্যাদি) কিন্তু এখনও গভীরভাবে বাস্তবতার প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে নির্ভরযোগ্যতার অভাব রয়েছে। বিশেষ করে, তারা প্রায়ই বাস্তবতার ত্রুটি উত্পাদন করে যেখানে একটি দাবি স্থিতিশীল সত্য জ্ঞান (Huang et al., 2023; Zhang et al., 2023, ইত্যাদি)।[1] উদাহরণস্বরূপ, মডেলগুলি তারিখ, পরিসংখ্যান, বা এমনকি একটি বিখ্যাত ব্যক্তির পেশা (Li et al., 2023;


এই কাগজে, আমরা LongFact নামে একটি নতুন অনুরোধ সেট, SAFE নামে একটি মূল্যায়ন পদ্ধতি, এবং একটি মেট্রিক (F1@K) একটি দীর্ঘ ফর্ম প্রতিক্রিয়ার দীর্ঘ ফর্ম বাস্তবতা পরিমাপ করার জন্য প্রস্তাব।


• আমরা বড় ভাষা মডেলগুলিতে দীর্ঘ ফর্ম বাস্তবতা benchmarking জন্য একটি নতুন প্রম্পট সেট তৈরি করতে GPT-4 ব্যবহার করি, যা আমরা LongFact নামে ডাকি (অধ্যায় 2)। LongFact 2280 তথ্য অনুসন্ধান প্রম্পট যা 38 ম্যানুয়ালভাবে নির্বাচিত থিমগুলিতে দীর্ঘ ফর্ম উত্তর অনুরোধ করে। আমাদের জ্ঞান অনুযায়ী, LongFact বিভিন্ন ডোমেইনগুলিতে দীর্ঘ ফর্ম বাস্তবতা মূল্যায়ন করার জন্য প্রথম প্রম্পট সেট। আমরা LongFact প্রকাশ্যে https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact এ উপলব্ধ করি।


• আমরা মডেল প্রতিক্রিয়াগুলিতে দীর্ঘ আকারের বাস্তবতা স্বয়ংক্রিয়ভাবে মূল্যায়ন করার জন্য একটি LLM এজেন্ট ব্যবহার করার একটি পদ্ধতি প্রস্তাব করি। আমরা ভাষা মডেলটি ব্যবহার করি প্রথমে একটি দীর্ঘ আকারের প্রতিক্রিয়াকে ব্যক্তিগত সত্যগুলিতে বিভক্ত করার জন্য, তারপর প্রতিটি সত্যের জন্য, একটি গুগল সার্চ এপিআই-এ পাঠানোর জন্য বাস্তবতা চেক করার অনুরোধগুলি প্রস্তাব করি এবং অনুমান করি যে সার্চ ফলাফল দ্বারা সাপোর্ট করা হয় কিনা (অধ্যায় 3)। আমরা এই পদ্ধতিটি SAFE নাম করি (সার্চ অ্যাডমিনেটেড ফ্যাক্টিভিটি Evaluator)।[3] অনুভূতিগতভাবে, SA


• আমরা প্রস্তাব করি যে, একটি মডেল প্রতিক্রিয়ার দীর্ঘ আকারের বাস্তবতা পরিমাপ করার সময়, F1 একটি হাইপারপ্যারামিটার মাধ্যমে ব্যবহার করা যেতে পারে যা একটি প্রতিক্রিয়ায় মানুষের পছন্দসই "যৌন" তথ্য সংখ্যা অনুমান করে।


• আমরা LongFact (অধ্যায় 6) এ চারটি মডেল পরিবার (জিমনি, GPT, ক্লোড এবং PaLM-2) এর মধ্যে ১৩টি বড় ভাষা মডেলের ব্যাপক রেফারেন্স পরিচালনা করি।


এই নিবন্ধটি CC by 4.0 Deed লাইসেন্সের অধীনে আর্কাইভে পাওয়া যায়।

এই নিবন্ধটি CC by 4.0 Deed লাইসেন্সের অধীনে আর্কাইভে পাওয়া যায়।

আর্কাইভ উপলব্ধ

[1] আমরা সত্যতা এবং সত্য ভুলের উপর দৃষ্টি আকর্ষণ করি, হ্যালুসিনেশন নয়, যেহেতু আমাদের প্রস্তাবিত মূল্যায়ন পদ্ধতিটি নির্ধারণ করে যে একটি প্রতিক্রিয়া বহিরাগত প্রতিষ্ঠিত জ্ঞান (সত্যতা) সম্পর্কিত সত্যতা কিনা তা নির্ধারণ করে, বরং প্রতিক্রিয়াটি মডেলের অভ্যন্তরীণ জ্ঞান (হ্যালুসিনেশন) সঙ্গে সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করে।


[2] আমরা GPT-4-0613 ব্যবহার করি।


[3] আমাদের SAFE বাস্তবায়নে, আমরা ভাষা মডেল হিসাবে gpt-3.5-turbo-0125 এবং Google অনুসন্ধান এপিআই হিসাবে Serper (https://serper.dev/) ব্যবহার করি।

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks