253 ընթերցումներ Նոր պատմություն

The AI Truth Test: Նոր ուսումնասիրություն ստուգում է 13 հիմնական AI մոդելների ճշգրիտությունը

կողմից Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

Չափազանց երկար; Կարդալ

DeepMind-ը ներկայացնում է LongFact և SAFE գործիքները` չափելու և բարելավելու փաստացի ճշգրտությունը մեծ լեզվական մոդելներում: SAFE-ն օգտագործում է որոնիչները՝ փաստացի ստուգելու արհեստական ինտելեկտի պատասխանները՝ հաճախ գերազանցելով մարդկային ծանոթագրողներին: Հենանիշավորումը ցույց է տալիս, որ ավելի մեծ մոդելները, ինչպիսիք են GPT-4-ը, տալիս են ավելի ճշգրիտ երկարատև պատասխաններ:
featured image - The AI Truth Test: Նոր ուսումնասիրություն ստուգում է 13 հիմնական AI մոդելների ճշգրիտությունը
Language Models (dot tech) HackerNoon profile picture
0-item
«Անհարկե, թե ինչ է անում, թե ինչ է անում», «Անհարկե, թե ինչ է անում», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկե», «Անհարկ

Արդյունաբերողները:

Այս գրողները:

(1) Jerry Wei, Google DeepMind եւ Lead- ի գործակալներ;

(2) Chengrun Yang, Google DeepMind եւ Lead- ի գրասենյակներ;

(3) Xinying Song, Google DeepMind եւ մի Lead- ի գրասենյակներ;

(4) Yifeng Lu, Google DeepMind եւ Lead- ի գործակալներ;

(5) Nathan Hu, Google DeepMind եւ Stanford համալսարան;

(6) Jie Huang, Google DeepMind եւ University of Illinois at Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Բրիտանիա, Google DeepMind;

(9) Լիբո Լիբո, Google DeepMind;

(10) Բրիտանիա, Google DeepMind;

(11) Բրիտանիա, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Table of Links

Հեղինակը

Տեսանյութ եւ 1 Հիմնական

Տեսանյութ եւ 1 Առաջարկ

2 LongFact: Օգտագործելով LLMs է ստեղծել մի բազմաթիվ տեքստային մանրամասներ համար long-form ճշգրիտություն

2 LongFact: Օգտագործելով LLMs է ստեղծել մի բազմաթիվ հարցերի մանրամասներ long-form ճշգրիտությունը

3 Safe:LLM գործիչները որպես ճշգրիտությունը autoraters

3 Safe:LLM գործիչները որպես ճշգրիտությունը autoraters

4 LLM- ի գործիչները կարող են լինել ավելի լավ գործառույթներ, քան մարդիկ

4 LLM- ի գործիչները կարող են լինել ավելի լավ գործառույթներ, քան մարդիկ

5 F1@k: Բարձրացնել F1 հետ վերահսկողության է մարդային սիրելի երկարություն

5 F1@k: Բարձրացնել F1 հետ վերահսկել է մարդային նախընտրական երկարությունը

6 Բարձրագույն LLMs են ավելի ճշգրիտ

6 Բարձրագույն LLMs են ավելի ճշգրիտ

7 Related Work

7 Related Work

8 Պայմաններ

8 Պայմաններ

9 Ապրիշները, հավելվածները, գրասենյակային գրասենյակներ եւ տեղեկություններ

9 Հիմնական հոդվածներ, գրասենյակներ, գրասենյակներ եւ տեղեկություններ

Այսը

Հիմնական էջ

Ա. Ավելի շատ հարցեր

Ա. Ավելի շատ հարցեր

B. LongFact տեղեկություններ

B. LongFact տեղեկություններ

C. անվտանգ տեղեկություններ

C. SAFE տեղեկություններ

D. Մետրիկ տեղեկություններ

D. Մետրիկ տեղեկություններ

Ավելին վերլուծություն

Ավելին վերլուծություն

Արդյունաբերություն

«Այս ժամանակ, երբ մենք ստանում ենք ամեն ինչ, մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք, եւ մենք պետք է ստանում ենք ամեն ինչ, որ մենք պետք է ստանում ենք»:


Ապիմիմիմիականորեն, մենք ցույց ենք տալիս, որ LLM- ի գործիչները կարող են գերազանցել crowdsourced human annotators- ի հետ մի շարք ∼16k- ի բաղադրիչների, SAFE- ը 72%- ի բաղադրիչների հետ հավատում է, եւ 100 բաղադրիչների բաղադրիչների բաղադրիչների բաղադրիչների հետ, SAFE- ը հաղթում է 76%- ի բաղադրիչների հետ: Այսպիսով, SAFE- ը ավելի քան 20 անգամ ավելի գեղեցիկ է, քան բաղադրիչները: Մենք նաեւ հավատում ենք LongFact- ի 13 լեզուների մոդելներ, որոնք ներառում են 4 մոդելային ընտանիքներում (Gemini, GPT, Claude, եւ PaLM-2), եւ գտնում ենք, որ ավելի մեծ լեզ


Figure 1: Մեր ավտոմատ ճշգրիտության գնահատիչը, SAFE, օգտագործում է մեծ լեզուային մոդել, որը օգտագործում է Google Search- ի օգտագործման որոշման հարցի երկար ձեւի պատասխանի ճշգրիտությունը:<img src=

1 Հիմնական հոդվածը

«Այս տարիների ընթացքում լայն լեզուային մոդելներ (LLMs) կարեւորորեն բարելավվել են (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, այլն), բայց դեռ չգիտեն հավասարության համար, որ պատասխանել են ճշգրիտ ճշգրիտության հարցերի համար: Բացի այդ, նրանք հաճախ արտադրում են ճշգրիտ սխալներ, որտեղ ճշգրիտության գիտություն (Huang et al., 2023; Zhang et al., 2023, այլն):[1] Օրինակ, մոդելները կարող են պատասխանել ճշգրիտ տեղեկատվության հետ, ինչպիսիք են ճշգրիտ ճշգրիտության մասին, ինչպիսիք են օրինակները, ստանդարտությունը, կամ նույնիսկ սերտի


Մենք առաջարկում ենք LongFact- ը, SAFE- ը, եւ F1@K- ը (F1@K), որը օգտագործվում է երկար ձեւային պատասխանի երկար ձեւային ճշգրիտության քանակման համար: Այնուհետեւ մենք օգտագործում ենք այս նոր տվյալների սերտիֆիկների եւ ճշգրիտման մեթոդների օգտագործման համար լայնորեն համեմատում ենք հայտնի մեծ լեզուների մոդելները:


«Մենք օգտագործում ենք GPT-4- ը[2], որպեսզի ստեղծել ենք նոր մոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպտոմպ


«Մենք առաջարկում ենք մեթոդը, որը օգտագործում է LLM- ի գործիչը, որը ավտոմատորեն գնահատում է Long-Form Factuality- ը մոդելային պատասխանների մեջ: Մենք օգտագործում ենք լեզուային մոդելը, որը առաջին անգամ կտրում է Long-Form Reply- ը միասին, ապա յուրաքանչյուր բանից հետո, առաջարկում ենք Fact-Checking Query- ը, որը ուղարկել է Google Search API- ում եւ հավատում ենք, թե ինչ է աջակցում Search Results- ը (Section 3). Մենք կոչում ենք այս մեթոդը SAFE-ին (Search-Augmented Factuality Evaluator).[3] Հիմնականորեն, SAFE- ը գերազանցում է Crowdsourced Human Annotators- ը, համատեղելով Min et al. (2023)- ից 72%-


• Մենք առաջարկում ենք, որ մի մոդել պատասխանի երկար ձեւի գործառույթը մանրամասելու ժամանակ, F1 կարող է օգտագործվել մի hyperparameter- ի միջոցով, որը մանրամասում է տղամարդկանց նախընտրված «դիմալ» գործառույթների չափը: Այսպիսով, մենք տեղադրում ենք F1@K- ը, որը (բացի մանրամասում պատասխանի գործառույթային ճշգրիտությունը, որպես աջակցված գործառույթների քանակը) մանրամասները մանրամասում են, քանի որ առաջարկված աջակցված գործառույթների քանակը ցանկացած տարբեր գործառույթների քանակի հետ:


• Մենք կատարում ենք 13 մեծ լեզուների մոդելների (Gemini, GPT, Claude, եւ PaLM-2) չափանիշը LongFact- ում (Section 6). Մենք evaluate model responses using SAFE and quantify performance using F1@K, տեսնում ենք, որ, հիմնականում, ավելի մեծ լեզուների մոդելները հասանելի են ավելի լավ long-form ճշգրիտությունը:


«Այս գրասենյակը լուծվում է arxiv տակ CC by 4.0 Deed license.


Այս գրասենյակը լուծվում է arxiv տակ CC by 4.0 Deed license.

լուծվում է arxivլուծվում է arxiv«Այս»

[1] Մենք կենտրոնանում ենք ճշգրտության եւ ճշգրտության սխալների, ոչ թե խելացիանության, քանի որ մեր առաջարկված արժեքագրության մեթոդը կենտրոնանում է որոշել, թե՞ պատասխանը ճշգրտված է արտաքին հաստատված գիտելիքի (հատականության) մասին, ոչ թե այն, թե՞ պատասխանը ճշգրտված է մոդելի ներքին գիտելիքի (հատականության) հետ:


[2] Մենք օգտագործում ենք gpt-4-0613 համար GPT-4.


«Մենք օգտագործում ենք gpt-3.5-turbo-0125- ը որպես լեզուային մոդել եւ Serper- ը, որը հասանելի է https://serper.dev/) որպես Google Search API-ը:

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks