516 කියවීම්

AI Truth Test: නව අධ්යයනය 13 ප්රධාන AI ආකෘති වල නිවැරදිත්වය පරීක්ෂා කරයි

විසින් Language Models (dot tech)5m2025/04/08

දිග වැඩියි; කියවීමට

DeepMind LongFact සහ SAFE හඳුන්වා දෙයි, විශාල භාෂා ආකෘතිවල සාක්ෂි නිවැරදිතාවය ප්රමාණවත් කිරීම සහ වැඩිදියුණු කිරීම සඳහා මෙවලම්.Safe පාවිච්චි කරන්නේ පර්යේෂණ යන්ත්රයන් විසින් සාක්ෂි පරීක්ෂා කිරීම සඳහා AI ප්රතිචාර, බොහෝ විට මනුෂ්ය ප්රවේශයන් වඩාත් ප්රතිඵලදායි.Benchmarking පෙන්වයි GPT-4 වැනි විශාලතම ආකෘති වඩාත් නිවැරදි දිගු ආකෘති ප්රතිචාර ලබා දෙයි.

featured image - AI Truth Test: නව අධ්යයනය 13 ප්රධාන AI ආකෘති වල නිවැරදිත්වය පරීක්ෂා කරයි

නුඹ

ලේඛකයෝ :

නුඹ

(1) Jerry Wei, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

නුඹ

(2) Chengrun Yang, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

නුඹ

(3) Xinying සින්දු, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

නුඹ

(4) Yifeng Lu, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

නුඹ

(5) Nathan Hu, Google DeepMind සහ ස්ටැන්ෆර්ඩ් විශ්ව විද්යාල;

නුඹ

(6) Jie Huang, Google DeepMind සහ Urbana-Champaign විශ්ව විද්යාලය;

නුඹ

(7) Dustin Tran, Google DeepMind;

නුඹ

(8) Daiyi Peng, Google DeepMind;

නුඹ

(9) Ruibo Liu, Google DeepMind;

නුඹ

(10) Da Huang, Google DeepMind;

නුඹ

(11) Cosmo Du, Google DeepMind;

නුඹ

Quoc V. Le, Google DeepMind

නුඹ

Authors:

(1) Jerry Wei, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

(2) Chengrun Yang, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

(3) Xinying සින්දු, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

(4) Yifeng Lu, Google DeepMind සහ ප්රධාන සහයෝගකරුවන්;

(5) Nathan Hu, Google DeepMind සහ ස්ටැන්ෆර්ඩ් විශ්ව විද්යාල;

(6) Jie Huang, Google DeepMind සහ Urbana-Champaign විශ්ව විද්යාලය;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

Quoc V. Le, Google DeepMind

මේසය Links

Abstract සහ 1 Introduction

2 LongFact: Long-form Factuality සඳහා බහු-තැපැල් ප්රවේශයක් නිර්මාණය කිරීම සඳහා LLM භාවිතා කිරීම

3 ආරක්ෂිත:LLM නියෝජිතයන් සත් යතාවය Authoraters ලෙස

4 LLMs නියෝජිතයන් මිනිසුන්ට වඩා හොඳ සත් යතා සටහන් කළ හැකි

5 F1@k: මනුෂ් ය ප්රියතම දිගින් ප්රවේශ කිරීම සමඟ F1 පුළුල් කිරීම

6 වැඩි LLMs වඩා සත් ය

7 සම්බන්ධ වැඩ

8 සීමාව

9 ප්රතිඵල, පිළිගැනීම්, Author Contribution, and References

Appendix

අමුද් රව් ය

ප්රධාන භාෂා ආකෘති (LLMs) බොහෝ විට ප්රතිචාරය කරන විට සත් ය සොයන ප්රශ්න වලට ප්රතිචාරය කරන විට සත් ය වැරදි ඇති අන්තර්ගතයක් නිර්මාණය කරයි. විවෘත ප්රදේශවල දී ආකෘතිගේ දිගුකාලීන සත් යතාවය අනුකූල කිරීම සඳහා, අපි පළමුවෙන්ම GPT-4 භාවිතා කරන්නේ LongFact, 38 ප්රශ්න වලට ඇතුළත් වන දහස් ගණනක් ඇතුළත් වන ප්රශ්න ප්රතිචාරයක් සකස් කිරීම සඳහා. එවිට අපි යෝජනා කරමු LLM නියෝජිතයන් දිගුකාලීන සත් යතාවය සඳහා ස්වයංක්රීය අනුකූලකරුවන් ලෙස භාවිතා කළ හැකි බව අපි Search-Augmented Factuality Evaluator (SAFE) යන ක්රමයක් හරහා හඳුන්වනවා.

ප් රායෝගිකව, අපි පෙන්වා දෙන්නෙමු LLM නියෝජිතයන් මනුෂ්ය ප්රවර්ග ප්රවර්ග වලට වඩා ප්රවර්ග කළ හැකි බව – ∼16k පෞද්ගලික සාධකයක් මත, SAFE 72% කාලයේ දී මනුෂ්ය ප්රවර්ග ප්රවර්ග වලට එකඟ වන අතර, 100 ප්රවර්ග ප්රවර්ගයක් මත, SAFE දිනුම් 76% කාලයේ දී. එම අවස්ථාවේ දී, SAFE මනුෂ්ය ප්රවර්ගයට වඩා 20 වතාවක් ලාභ වේ. අපි ද හතරක් ආකෘති පවුල් (Gemini, GPT, Claude, සහ PaLM-2) හරහා LongFact මත භාෂා ආකෘති 13 ක් සමාලෝචනය කරමු, විශාල භාෂා ආකෘති සාමාන්යයෙන් වඩා හොඳ long-form සාධකයක් සපයයි

1 ඇතුළත් කිරීම

Large Language Models (LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, අනෙකා අතර) පසුගිය වසරවල දී ඉතා හොඳින් වර්ධනය වී ඇත, නමුත් තවමත් ගැඹුරු සත් යතා ප්රශ්නවලට පිළිතුරු දීම සඳහා විශ්වාසභංගයක් නැතිව ඇත. විශේෂයෙන්, ඔවුන් නිතරම සත් යතා ප්රශ්න විරුද්ධ වන සත් ය දැනුම (Huang et al., 2023; Zhang et al., 2023, අනෙකා අතර).[1] උදාහරණයක් ලෙස, ආකෘති දත්ත වැනි සත් යතා පිළිබඳ වැරදි තොරතුරු සමඟ ප්රතිචාරය කළ හැකිය, සංඛ්යාව, හෝ පවා ප්රසිද්ධියාගේ කාර්යය (Li et al., 2023; Min et al., 2023; Muhlgay et

මෙම වාර්තාවේදී, අපි LongFact යන නව ප්රවේශයක් එකතු කිරීම, SAFE යන විනිශ්චය ක්රමයක් සහ දිගු ආකෘති ප්රතිචාරයේ දිගු ආකෘති සත් යතාවය ප්රමාණවත් කිරීම සඳහා මෙට්රික් (F1@K) යෝජනා කරමු.

• අපි භාවිතා කරන්නේ GPT-4[2] විශාල භාෂා ආකෘති වල දී දිගු ආකෘති සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක සාධක

• අපි ආකෘති ප්රතිචාර වල දීර්ඝ ප්රතිඵලයක් ස්වයංක්රීයව අගය කිරීම සඳහා LLM නියෝජිතය භාවිතා කරන ක්රමයක් යෝජනා කරමු. අපි භාෂා ආකෘතිය භාවිතා කරමු, පළමුවෙන්ම දීර්ඝ ප්රතිඵලයක් ප්රතිඵලයක් තනි ප්රතිඵලවලට බෙදා හැරීමට, පසුව සෑම ප්රතිඵලයක් සඳහාම, Google Search API වෙත යැවීමට ප්රතිඵලයක් පරීක්ෂා කිරීමේ ප්රශ්න යෝජනා කරමු සහ ප්රතිඵල විසින් ප්රතිඵල විසින් සහාය වී ඇති බව ප්රකාශයට පත් කරමුද යන්න පිළිබඳ ප්රතිඵලයක් (2023)). අපි මෙම ක්රමයක් SAFE (Search-Augmented Factuality Evaluator) නමින් නම් කරමු

• අපි යෝජනා කරමු, ආකෘති ප්රතිචාරයේ දිගුකාලීන සත් යතාවය ප්රමාණය කරන විට, F1 ප්රතිචාරයේ මිනිස් ප්රවේශයෙහි “අදකාලීන” සත් යතාවයන් සංඛ්යාව අගය කරන hyperparameter හරහා භාවිතා කළ හැක.We therefore introduce F1@K, which (in addition to measuring a response’s factual accuracy as the ratio of supported facts) measures recall as the ratio of provided supported facts over a variable desired number of supported facts K.

• අපි LongFact (Section 6) මත ප්රධාන භාෂා ආකෘති හතරක් (Gemini, GPT, Claude, සහ PaLM-2) හරහා විශාල භාෂා ආකෘති 13 ක් පුළුල් benchmark සිදු කරමු.We evaluate model responses using SAFE and quantify performance using F1@K, finding that, in general, larger language models better long-form factuality.

නුඹ

මෙම ලිපිනය වන්නේලියාපදිංචිCC by 4.0 Deed බලපත් රය යටතේ.

නුඹ

මෙම ලිපිනය වන්නේලියාපදිංචිCC by 4.0 Deed බලපත් රය යටතේ.

ලියාපදිංචි

[1] අප යෝජනා කරන විනිශ්චය ක්රමයේ ප්රවේශය වන්නේ ප්රතිචාරය අභ්යන්තර සැබෑ දැනුම (සැබෑත්වය) සම්බන්ධයෙන් සාපේක්ෂ බව තීරණය කිරීම සඳහා නොව ප්රතිචාරය ආකෘතියේ අභ්යන්තර දැනුම (සැබෑත්වය) සමග අනුකූල බව තීරණය කිරීමයි.

[2] අපි gpt-4-0613 භාවිතා කරන්නේ GPT-4 සඳහා.

[3] SAFE ක්රියාත්මක කිරීමේදී අපි gpt-3.5-turbo-0125 භාෂා ආකෘතිය ලෙස සහ Serper ( https://serper.dev/) ලෙස Google Search API ලෙස භාවිතා කරමු.