253 পড়া নতুন ইতিহাস

আইআই সত্য পরীক্ষা: নতুন গবেষণা 13 প্রধান আইআই মডেলের সঠিকতা পরীক্ষা করে

দ্বারা Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ডিপমাইন্ড লংফ্যাক্ট এবং সেফ চালু করেছে, বৃহৎ ভাষার মডেলগুলিতে তথ্যগত নির্ভুলতা পরিমাপ এবং উন্নত করার জন্য টুল। সেফ AI প্রতিক্রিয়াগুলির সত্যতা যাচাই করার জন্য সার্চ ইঞ্জিন ব্যবহার করে, প্রায়শই মানব টীকাকারদের চেয়েও বেশি পারফর্ম করে। বেঞ্চমার্কিং দেখায় যে GPT-4 এর মতো বৃহত্তর মডেলগুলি আরও সঠিক দীর্ঘ-ফর্মের উত্তর প্রদান করে।
featured image - আইআই সত্য পরীক্ষা: নতুন গবেষণা 13 প্রধান আইআই মডেলের সঠিকতা পরীক্ষা করে
Language Models (dot tech) HackerNoon profile picture
0-item

লেখক:

(1) জেরি ওয়ে, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;

(2) চেনগুরান ইয়াং, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;

(3) জিইয়িং সিং, গুগল ডেপমিন্ড এবং একটি নেতৃত্বাধীন অবদানকারী;


লেখক:

লেখক:

(1) জেরি ওয়েই, গুগল ডেপমিন্ড এবং একটি লিড অবদানকারী;

(2) Chengrun Yang, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;

(3) Xinying সঙ্গীত, গুগল DeepMind এবং একটি লিভার অবদানকারী;

(4) Yifeng Lu, গুগল DeepMind এবং একটি নেতৃত্বাধীন অবদানকারী;

(5) Nathan Hu, গুগল ডেপমিন্ড এবং স্ট্যানফোর্ড বিশ্ববিদ্যালয়;

(6) জি হুয়াং, গুগল ডেপমিন্ড এবং ইলিনয় বিশ্ববিদ্যালয় এ অরবানা-শ্যাম্পেইন;

(7) ডাস্টিন ট্রান, গুগল ডেপমিন্ড;

(8) গুগল ডেপমিন্ড;

(9) রুইবো লিও, গুগল ডেপমিন্ড;

(10) গুগল ডেপমিন্ড;

(11) গুগল DeepMind;

(12) Quoc V. Le, গুগল DeepMind.

টেবিল লিঙ্ক

2 LongFact: Long-form factuality জন্য একটি multi-topic benchmark উত্পাদনের জন্য LLMs ব্যবহার

2 LongFact: Long-form factuality জন্য একটি মাল্টি-টোমিক benchmark উত্পাদন করতে LLMs ব্যবহার

3 নিরাপদ:এলএলএম এজেন্ট যেমন বাস্তবতা autoraters

3 নিরাপদ:এলএলএম এজেন্ট যেমন বাস্তবতা autoraters

4 LLMs এজেন্ট মানুষের চেয়ে ভাল বাস্তবতা অ্যানোটেটর হতে পারে

4 LLMs এজেন্ট মানুষের চেয়ে ভাল বাস্তবতা উল্লেখ করতে পারেন

5 F1@k: মানুষের পছন্দের দৈর্ঘ্য থেকে পুনরাবৃত্তি সঙ্গে F1 প্রসারিত

5 F1@k: মানুষের পছন্দের দৈর্ঘ্য থেকে পুনরাবৃত্তি সঙ্গে F1 প্রসারিত

6 বড় LLMs আরো বাস্তব

6 বড় LLMs আরো বাস্তব

7 সম্পর্কিত কাজ

7 সম্পর্কিত কাজ

8 সীমাবদ্ধতা

8 সীমাবদ্ধতা

9 সিদ্ধান্ত, স্বীকৃতি, লেখক অবদান, এবং রেফারেন্স

9 উপসংহার, স্বীকৃতি, লেখক অবদান, এবং রেফারেন্স

অ্যাপ্লিকেশন

অ্যাপ্লিকেশন

এ. প্রায়শই জিজ্ঞাসিত প্রশ্ন

এ. প্রায়শই জিজ্ঞাসিত প্রশ্ন

বি. LongFact বিস্তারিত

বি. LongFact বিস্তারিত

C. নিরাপদ বিবরণ

ক. নিরাপদ বিবরণ

ড. মেট্রিক বিস্তারিত

ড. মেট্রিক বিস্তারিত

আরো বিশ্লেষণ

আরো বিশ্লেষণ

ব্রেক্ট

বহুল ভাষা মডেল (LLMs) প্রায়শই এমন সামগ্রী উত্পাদন করে যা তথ্য অনুসন্ধানের অনুরোধগুলির প্রতিক্রিয়া করার সময় বাস্তব ত্রুটিগুলি অন্তর্ভুক্ত করে। খোলা ডোমেইনগুলিতে একটি মডেলের দীর্ঘ আকারের বাস্তবতার তুলনা করার জন্য, আমরা প্রথমে GPT-4 ব্যবহার করি LongFact উত্পাদন করার জন্য, 38 টি বিষয়গুলির মধ্যে হাজার হাজার প্রশ্ন অন্তর্ভুক্ত একটি অনুরোধ সেট। তারপর আমরা প্রস্তাব করি যে LLM এজেন্টগুলি অনুসন্ধানের জন্য দীর্ঘ আকারের বাস্তবতার জন্য স্বয়ংক্রিয় মূল্যায়ক হিসাবে ব্যবহার করা যেতে পারে যা আমরা Search-Augmented Factuality E


অন্তর্ভুক্তভাবে, আমরা প্রমাণ করি যে LLM এজেন্টরা crowdsourced human annotators-এর চেয়ে বেশি পারফরম্যান্স করতে পারে- ∼16k ব্যক্তিগত তথ্যের একটি সেটের উপর, SAFE 72% এর মধ্যে crowdsourced human annotators-এর সাথে একমত হয়, এবং 100 অসভ্যতা ক্ষেত্রের একটি অন্তর্ভুক্তের উপর, SAFE 76% এর মধ্যে জয়ী হয়। একই সময়ে, SAFE মানুষের annotators-এর চেয়ে 20 গুণ বেশি সস্তা। আমরা চারটি মডেল পরিবার (Gemini, GPT, Claude, এবং PaLM-2) এ LongFact-এর উপর তিনটি ভাষা মডেলের উপর LongFact-এর তুলনা করেছি, যাতে দেখা যায় যে বড় ভাষা মডেলগুলি সাধারণত


চিত্র 1: আমাদের স্বয়ংক্রিয় বাস্তবতা মূল্যায়নকারী, SAFE, গুগল অনুসন্ধান ব্যবহার করে একটি নির্দিষ্ট অনুরোধে একটি দীর্ঘ ফর্ম প্রতিক্রিয়া বাস্তবতা মূল্যায়ন করার জন্য একটি বড় ভাষা মডেল ব্যবহার করে।<img src=

• আমরা LongFact (অধ্যায় 6) এ চারটি মডেল পরিবার (জিমনি, GPT, Claude, এবং PaLM-2) এর মধ্যে ১৩টি বড় ভাষা মডেলের ব্যাপক রেফারেন্স পরিচালনা করি।


এই কাগজটি এই কাগজটি CC by 4.0 Deed লাইসেন্সের অধীনে archiv এ পাওয়া যায়।

এই কাগজটি একটি লাইসেন্সের অধীনে archiv এ উপলব্ধ।সম্পর্কিত archivসম্পর্কিত আছে‘চি’

[1] আমরা সত্যতা এবং সত্য ভুলের উপর দৃষ্টি আকর্ষণ করি, হ্যালুসিনেশন নয়, কারণ আমাদের প্রস্তাবিত মূল্যায়ন পদ্ধতিটি নির্ধারণ করে যে একটি প্রতিক্রিয়া বহিরাগত প্রতিষ্ঠিত জ্ঞান (সত্যতা) সম্পর্কিত সত্যতা কিনা তা নির্ধারণ করে, বরং প্রতিক্রিয়াটি মডেলের অভ্যন্তরীণ জ্ঞান (হ্যালুসিনেশন) সঙ্গে সামঞ্জস্যপূর্ণ কিনা তা নির্ধারণ করে।


[2] আমরা GPT-4-0613 ব্যবহার করি।


[3] আমাদের SAFE বাস্তবায়নে, আমরা ভাষা মডেল হিসাবে gpt-3.5-turbo-0125 এবং Google অনুসন্ধান API হিসাবে Serper (https://serper.dev/) ব্যবহার করি।

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks