253 කියවීම් නව ඉතිහාසය

AI සත්‍ය පරීක්ෂණය: නව අධ්‍යයනය ප්‍රධාන AI ආකෘති 13 ක නිරවද්‍යතාවය පරීක්ෂා කරයි

විසින් Language Models (dot tech)5m2025/04/08

NSO

දිග වැඩියි; කියවීමට

DeepMind LongFact සහ SAFE හඳුන්වා දෙයි, විශාල භාෂා ආකෘතිවල සාක්ෂි නිවැරදිතාවය ප්රමාණවත් කිරීම සහ වැඩිදියුණු කිරීම සඳහා මෙවලම්.Safe පාවිච්චි කරන්නේ පර්යේෂණ යන්ත්රයන් විසින් සාක්ෂි පරීක්ෂා කිරීම සඳහා AI ප්රතිචාර, බොහෝ විට මනුෂ්ය ප්රවේශයන් වඩාත් ප්රතිඵලදායි.Benchmarking පෙන්වයි GPT-4 වැනි විශාලතම ආකෘති වඩාත් නිවැරදි දිගු ආකෘති ප්රතිචාර ලබා දෙයි.

featured image - AI සත්‍ය පරීක්ෂණය: නව අධ්‍යයනය ප්‍රධාන AI ආකෘති 13 ක නිරවද්‍යතාවය පරීක්ෂා කරයි

කතුවරුන්:

(1) ජෙරී වෙයි, ගූගල් ඩීප්මයින්ඩ් සහ ප්‍රමුඛ දායකයෙක්;

(2) චෙන්ග්රුන් යැං, ගූගල් ඩීප්මයින්ඩ් සහ ප්‍රමුඛ දායකයින්;

(3) ෂින්යිං සොන්ග්, ගූගල් ඩීප්මයින්ඩ් සහ ප්‍රමුඛ දායකයින්;

(4) යිෆෙන්ග් ලූ, ගූගල් ඩීප්මයින්ඩ් සහ ප්‍රමුඛ දායකයෙක්;

(5) නේතන් හූ, ගූගල් ඩීප්මයින්ඩ් සහ ස්ටැන්ෆර්ඩ් විශ්ව විද්‍යාලය;

(6) ජී හුවාං, ගූගල් ඩීප්මයින්ඩ් සහ උර්බානා-චැම්පේන් හි ඉලිනොයිස් විශ්ව විද්‍යාලය;

(7) ඩස්ටින් ට්‍රාන්, ගූගල් ඩීප්මයින්ඩ්;

(8) Daiyi Peng, Google DeepMind;

(9) Ruibo Liu, Google DeepMind;

(10) ඩා හුවාං, ගූගල් ඩීප්මයින්ඩ්;

(11) Cosmo Du, Google DeepMind;

(12) ක්වොක් වී. ලී, ගූගල් ඩීප්මයින්ඩ්.

සබැඳි වගුව

සාරාංශය සහ 1 හැඳින්වීම

2 දිගු සාධක: දිගු ආකාරයේ සත්‍යතාව සඳහා බහු-මාතෘකා මිණුම් ලකුණක් ජනනය කිරීම සඳහා LLM භාවිතා කිරීම.

3 ආරක්ෂිත:LLM නියෝජිතයන් කරුණු සත්‍යාපකයින් ලෙස

LLM නියෝජිතයන් 4 දෙනෙකුට මිනිසුන්ට වඩා හොඳ කරුණු විවරණයක් කළ හැකිය.

5 F1@k: මිනිසා කැමති දිගකින් නැවත කැඳවීම සමඟ F1 දිගු කිරීම

6 විශාල LLM වඩාත් සත්‍ය වේ

7 අදාළ වැඩ

8 සීමාවන්

9 නිගමනය, ස්තූති, කර්තෘ දායකත්වය සහ යොමු කිරීම්

උපග්රන්ථය

වදන්

විශාල භාෂා ආකෘති (LLM) බොහෝ විට විවෘත මාතෘකා පිළිබඳ කරුණු සෙවීමේ විමසීම් වලට ප්‍රතිචාර දක්වන විට සත්‍ය දෝෂ අඩංගු අන්තර්ගතයන් ජනනය කරයි. විවෘත වසම් තුළ ආකෘතියක දිගු-ආකෘති සත්‍යතාව මිණුම් සලකුණු කිරීම සඳහා, අපි මුලින්ම GPT-4 භාවිතා කර LongFact ජනනය කරමු, එය මාතෘකා 38 ක් පුරා විහිදෙන ප්‍රශ්න දහස් ගණනකින් සමන්විත ක්ෂණික කට්ටලයකි. ඉන්පසු අපි යෝජනා කරන්නේ LLM නියෝජිතයන් දිගු-ආකෘති සත්‍යතාව සඳහා ස්වයංක්‍රීය ඇගයුම්කරුවන් ලෙස භාවිතා කළ හැකි බවයි, එය අපි සෙවුම්-වර්ධනය කළ සත්‍යතා ඇගයුම්කරු (SAFE) ලෙස හඳුන්වන ක්‍රමයක් හරහා. SAFE දිගු-ආකෘති ප්‍රතිචාරයක් තනි කරුණු සමූහයකට බිඳ දැමීමට සහ Google සෙවුමට සෙවුම් විමසුම් යැවීම සහ සෙවුම් ප්‍රතිඵල මගින් සත්‍යයකට සහය දක්වන්නේද යන්න තීරණය කිරීම ඇතුළත් බහු-පියවර තර්කන ක්‍රියාවලියක් භාවිතා කරමින් එක් එක් කරුණෙහි නිරවද්‍යතාවය ඇගයීමට LLM භාවිතා කරයි. තවද, දිගු-ආකෘති සත්‍යතාව සඳහා එකතු කළ මිතිකයක් ලෙස F1 ලකුණු දීර්ඝ කිරීමට අපි යෝජනා කරමු. එසේ කිරීම සඳහා, අපි ප්‍රතිචාරයක (නිරවද්‍යතාවය) සහාය දක්වන කරුණුවල ප්‍රතිශතය පරිශීලකයාගේ කැමති ප්‍රතිචාර දිග (මතක් කිරීම) නියෝජනය කරන අධි පරාමිතියකට සාපේක්ෂව සපයා ඇති කරුණුවල ප්‍රතිශතය සමඟ සමතුලිත කරමු.

ප්‍රායෝගිකව, අපි LLM නියෝජිතයින්ට සමූහ මූලාශ්‍රගත මානව විවරණකරුවන් අභිබවා යා හැකි බව පෙන්නුම් කරමු - ~16k තනි කරුණු කට්ටලයක් මත, SAFE 72% ක් සමූහ මූලාශ්‍රගත මානව විවරණකරුවන් සමඟ එකඟ වන අතර, එකඟ නොවීම් අවස්ථා 100 ක අහඹු උප කුලකයක, SAFE 76% ක් ජයග්‍රහණය කරයි. ඒ සමඟම, SAFE මානව විවරණකරුවන්ට වඩා 20 ගුණයකට වඩා ලාභදායී වේ. අපි ආකෘති පවුල් හතරක් (Gemini, GPT, Claude, සහ PaLM-2) හරහා LongFact හි දහතුනක භාෂා ආකෘති මිණුම් සලකුණු කරන්නෙමු, විශාල භාෂා ආකෘති සාමාන්‍යයෙන් වඩා හොඳ දිගු-ආකෘති සත්‍යතාවයක් ලබා ගන්නා බව සොයා ගනිමු. LongFact, SAFE සහ සියලුම පර්යේෂණාත්මක කේත https://github හි ඇත. com/google-deepmind/long-form-factuality.

1 හැඳින්වීම

මෑත වසරවලදී විශාල භාෂා ආකෘති (LLMs) සැලකිය යුතු ලෙස වැඩිදියුණු වී ඇත (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, වෙනත් දේ අතර) නමුත් ගැඹුරු කරුණු පිළිබඳ ප්‍රශ්නවලට පිළිතුරු දීමේදී තවමත් විශ්වසනීයත්වයක් නොමැත. විශේෂයෙන්, ඔවුන් බොහෝ විට ප්‍රකාශයක් ස්ථාපිත බිම්-සත්‍ය දැනුමට පටහැනි වන කරුණු දෝෂ ඇති කරයි (Huang et al., 2023; Zhang et al., 2023, වෙනත් දේ අතර).[1] උදාහරණයක් ලෙස, ආකෘති දිනයන්, සංඛ්‍යාලේඛන හෝ කීර්තිමත් පුද්ගලයෙකුගේ රැකියාව වැනි ස්ථාපිත කරුණු පිළිබඳ වැරදි තොරතුරු සමඟ ප්‍රතිචාර දැක්විය හැකිය (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). මෙම කරුණු සහිත දෝෂ භාෂා ආකෘතියක කරුණු පිළිබඳ දුර්වල කරයි, කරුණු සහිත-නිවැරදි ප්‍රතිචාරයක් අපේක්ෂා කරන බොහෝ සැබෑ ලෝක සැකසුම් තුළ ආකෘතිය විශ්වාස කළ නොහැකි කරයි.

මෙම පත්‍රිකාවේ දී, අපි LongFact නමින් නව ප්‍රොම්ප්ට් කට්ටලයක්, SAFE නමින් ඇගයීමේ ක්‍රමයක් සහ දිගු ආකාරයේ ප්‍රතිචාරයක දිගු ආකාරයේ සත්‍යතාව ප්‍රමාණනය කිරීම සඳහා මෙට්‍රික් (F1@K) යෝජනා කරමු. ඉන්පසු අපි මෙම නව දත්ත කට්ටල සහ ඇගයීම් ක්‍රම භාවිතා කරමින් ජනප්‍රිය විශාල භාෂා ආකෘති පුළුල් ලෙස මිණුම් සලකුණු කරමු. අපගේ දායකත්වයන් පහත පරිදි වේ:

• අපි විශාල භාෂා ආකෘතිවල දිගු-ආකෘති සත්‍යතාව මිණුම් සලකුණු කිරීම සඳහා නව විමසුම් කට්ටලයක් ජනනය කිරීමට GPT-4[2] භාවිතා කරමු, එය අපි LongFact (2 කොටස) ලෙස හඳුන්වමු. LongFact අතින් තෝරාගත් මාතෘකා 38ක් හරහා දිගු-ආකෘති ප්‍රතිචාර ඉල්ලා සිටින කරුණු-සොයන විමසුම් 2,280 කින් සමන්විත වේ. අපගේ දැනුමට අනුව, LongFact යනු පුළුල් පරාසයක වසම්වල දිගු-ආකෘති සත්‍යතාව ඇගයීම සඳහා වන පළමු විමසුම් කට්ටලයයි. අපි LongFact ප්‍රසිද්ධියේ https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact හි ලබා ගත හැකි කරමු.

• ආකෘති ප්‍රතිචාරවල දිගු-ආකෘති සත්‍යතාව ස්වයංක්‍රීයව ඇගයීම සඳහා LLM නියෝජිතයෙකු භාවිතා කිරීමේ ක්‍රමයක් අපි යෝජනා කරමු. අපි භාෂා ආකෘතිය භාවිතා කර පළමුව දිගු-ආකෘති ප්‍රතිචාරයක් තනි කරුණු බවට වියෝජනය කරන්නෙමු, පසුව එක් එක් කරුණ සඳහා, Google සෙවුම් API එකකට යැවීමට කරුණු-පරීක්ෂා කිරීමේ විමසුම් යෝජනා කර සෙවුම් ප්‍රතිඵල මගින් සත්‍යයට සහය දක්වන්නේද යන්න පිළිබඳව තර්ක කරන්නෙමු (3 වන කොටස). අපි මෙම ක්‍රමය SAFE (සෙවුම්-වර්ධනය කළ සත්‍යතා ඇගයුම්කරු) ලෙස නම් කරමු.[3] ආනුභවිකව, SAFE සමූහ මූලාශ්‍රගත මානව විවරණකරුවන් අභිබවා යයි, Min et al. (2023) වෙතින් මානව විවරණවලින් 72% ක් සමඟ එකඟ වන අතර එකඟ නොවීම් අවස්ථා 100 ක අහඹු සාම්පලයකින් එකඟ නොවන අවස්ථා වලින් 76% ක් දිනා ගනී (4 වන කොටස). SAFE ද මානව විවරණකරුවන්ට වඩා 20× ලාභදායී වේ. අපි https://github.com/ google-deepmind/long-form-factuality/tree/main/eval/safe හි SAFE නිකුත් කරමු.

• ආකෘති ප්‍රතිචාරයක දිගුකාලීන සත්‍යතාව ප්‍රමාණනය කිරීමේදී, ප්‍රතිචාරයක මිනිසා කැමති "පරමාදර්ශී" කරුණු ගණන ඇස්තමේන්තු කරන අධි පරාමිතියක් හරහා F1 භාවිතා කළ හැකි බව අපි යෝජනා කරමු. එබැවින් අපි F1@K හඳුන්වා දෙන්නෙමු, එය (සහය දක්වන කරුණුවල අනුපාතය ලෙස ප්‍රතිචාරයක සත්‍ය නිරවද්‍යතාවය මැනීමට අමතරව) විචල්‍ය අපේක්ෂිත සහාය දක්වන කරුණු ගණනකට වඩා සපයා ඇති සහාය දක්වන කරුණුවල අනුපාතය ලෙස නැවත කැඳවීම මනිනු ලබයි.

• අපි LongFact (6 වන කොටස) මත ආකෘති පවුල් හතරක් (Gemini, GPT, Claude, සහ PalM-2) හරහා විශාල භාෂා ආකෘති දහතුනක පුළුල් මිණුම් ලකුණක් පවත්වමු. අපි SAFE භාවිතයෙන් ආකෘති ප්‍රතිචාර ඇගයීමට ලක් කරන අතර F1@K භාවිතයෙන් කාර්ය සාධනය ප්‍රමාණනය කරන්නෙමු, සාමාන්‍යයෙන්, විශාල භාෂා ආකෘති වඩා හොඳ දිගු-ආකෘති සත්‍යතාවයක් ලබා ගන්නා බව සොයා ගනිමු.

මෙම පත්‍රිකාව arxiv හි ඇත CC by 4.0 ඔප්පු බලපත්‍රය යටතේ.

[1] අපගේ යෝජිත ඇගයීමේ ක්‍රමය අවධානය යොමු කරන්නේ ප්‍රතිචාරය ආකෘතියේ අභ්‍යන්තර දැනුමට (මායාවන්ට) අනුකූලද යන්නට වඩා බාහිර ස්ථාපිත දැනුමට (සත්‍යතාවයට) අදාළව සත්‍යද යන්න තීරණය කිරීම කෙරෙහි වන බැවින්, අපි මායාවන් නොව සත්‍යවාදී දෝෂ කෙරෙහි අවධානය යොමු කරමු.

[2] අපි GPT-4 සඳහා gpt-4-0613 භාවිතා කරමු.

[3] අපගේ SAFE ක්‍රියාත්මක කිරීමේදී, අපි භාෂා ආකෘතිය ලෙස gpt-3.5-turbo-0125 සහ Google සෙවුම් API ලෙස Serper (https://serper.dev/ හි ඇත) භාවිතා කරමු.