Արդյունաբերողները:
Այս գրողները:(1) Jerry Wei, Google DeepMind եւ Lead- ի գործակալներ;
(2) Chengrun Yang, Google DeepMind եւ Lead- ի գրասենյակներ;
(3) Xinying Song, Google DeepMind եւ մի Lead- ի գրասենյակներ;
(4) Yifeng Lu, Google DeepMind եւ Lead- ի գործակալներ;
(5) Nathan Hu, Google DeepMind եւ Stanford համալսարան;
(6) Jie Huang, Google DeepMind եւ University of Illinois at Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Բրիտանիա, Google DeepMind;
(9) Լիբո Լիբո, Google DeepMind;
(10) Բրիտանիա, Google DeepMind;
(11) Բրիտանիա, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Table of Links
ՀեղինակըՏեսանյութ եւ 1 Առաջարկ2 LongFact: Օգտագործելով LLMs է ստեղծել մի բազմաթիվ հարցերի մանրամասներ long-form ճշգրիտությունը3 Safe:LLM գործիչները որպես ճշգրիտությունը autoraters
3 Safe:LLM գործիչները որպես ճշգրիտությունը autoraters4 LLM- ի գործիչները կարող են լինել ավելի լավ գործառույթներ, քան մարդիկ
4 LLM- ի գործիչները կարող են լինել ավելի լավ գործառույթներ, քան մարդիկ5 F1@k: Բարձրացնել F1 հետ վերահսկողության է մարդային սիրելի երկարություն
5 F1@k: Բարձրացնել F1 հետ վերահսկել է մարդային նախընտրական երկարությունը6 Բարձրագույն LLMs են ավելի ճշգրիտ
6 Բարձրագույն LLMs են ավելի ճշգրիտ7 Related Work8 Պայմաններ9 Ապրիշները, հավելվածները, գրասենյակային գրասենյակներ եւ տեղեկություններ
9 Հիմնական հոդվածներ, գրասենյակներ, գրասենյակներ եւ տեղեկություններԱյսը
Հիմնական էջԱ. Ավելի շատ հարցերB. LongFact տեղեկություններC. SAFE տեղեկություններD. Մետրիկ տեղեկություններԱվելին վերլուծությունԱրդյունաբերություն
«Այս ժամանակ, երբ մենք ստանում ենք ամեն ինչ, մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք»:
Ապիմիմիմիականորեն, մենք ցույց ենք տալիս, որ LLM- ի գործիչները կարող են գերազանցել crowdsourced human annotators- ի հետ մի շարք ∼16k- ի բաղադրիչների, SAFE- ը 72%- ի բաղադրիչների հետ հավատում է, եւ 100 բաղադրիչների բաղադրիչների բաղադրիչների բաղադրիչների հետ, SAFE- ը հաղթում է 76%- ի բաղադրիչների հետ: Այսպիսով, SAFE- ը ավելի քան 20 անգամ ավելի գեղեցիկ է, քան բաղադրիչները: Մենք նաեւ հավատում ենք LongFact- ի 13 լեզուների մոդելներ, որոնք ներառում են 4 մոդելային ընտանիքներում (Gemini, GPT, Claude, եւ PaLM-2), եւ գտնում ենք, որ ավելի մեծ լեզ
1 Հիմնական հոդվածը
«Այս տարիների ընթացքում լայն լեզուային մոդելներ (LLMs) կարեւորորեն բարելավվել են (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, այլն), բայց դեռ չգիտեն հավասարության համար, որ պատասխանել են ճշգրիտ ճշգրիտության հարցերի համար: Բացի այդ, նրանք հաճախ արտադրում են ճշգրիտ սխալներ, որտեղ ճշգրիտության գիտություն (Huang et al., 2023; Zhang et al., 2023, այլն):[1] Օրինակ, մոդելները կարող են պատասխանել ճշգրիտ տեղեկատվության հետ, ինչպիսիք են ճշգրիտ ճշգրիտության մասին, ինչպիսիք են օրինակները, ստանդարտությունը, կամ նույնիսկ սերտի
Մենք առաջարկում ենք LongFact- ը, SAFE- ը, եւ F1@K- ը (F1@K), որը օգտագործվում է երկար ձեւային պատասխանի երկար ձեւային ճշգրիտության քանակման համար: Այնուհետեւ մենք օգտագործում ենք այս նոր տվյալների սերտիֆիկների եւ ճշգրիտման մեթոդների օգտագործման համար լայնորեն համեմատում ենք հայտնի մեծ լեզուների մոդելները:
• Մենք առաջարկում ենք, որ մի մոդել պատասխանի երկար ձեւի գործառույթը մանրամասելու ժամանակ, F1 կարող է օգտագործվել մի hyperparameter- ի միջոցով, որը մանրամասում է տղամարդկանց նախընտրված «դիմալ» գործառույթների չափը: Այսպիսով, մենք տեղադրում ենք F1@K- ը, որը (բացի մանրամասում պատասխանի գործառույթային ճշգրիտությունը, որպես աջակցված գործառույթների քանակը) մանրամասները մանրամասում են, քանի որ առաջարկված աջակցված գործառույթների քանակը ցանկացած տարբեր գործառույթների քանակի հետ:
• Մենք կատարում ենք 13 մեծ լեզուների մոդելների (Gemini, GPT, Claude, եւ PaLM-2) չափանիշը LongFact- ում (Section 6). Մենք evaluate model responses using SAFE and quantify performance using F1@K, տեսնում ենք, որ, հիմնականում, ավելի մեծ լեզուների մոդելները հասանելի են ավելի լավ long-form ճշգրիտությունը:
Այս գրասենյակը
[1] Մենք կենտրոնանում ենք ճշգրտության եւ ճշգրտության սխալների, ոչ թե խելացիանության, քանի որ մեր առաջարկված արժեքագրության մեթոդը կենտրոնանում է որոշել, թե՞ պատասխանը ճշգրտված է արտաքին հաստատված գիտելիքի (հատականության) մասին, ոչ թե այն, թե՞ պատասխանը ճշգրտված է մոդելի ներքին գիտելիքի (հատականության) հետ:
[2] Մենք օգտագործում ենք gpt-4-0613 համար GPT-4.