516 ընթերցումներ
516 ընթերցումներ

The AI Truth Test: Նոր ուսումնասիրություն ստուգում է 13 հիմնական AI մոդելների ճշգրիտությունը

կողմից Language Models (dot tech)5m2025/04/08
Read on Terminal Reader

Չափազանց երկար; Կարդալ

DeepMind-ը ներկայացնում է LongFact և SAFE գործիքները` չափելու և բարելավելու փաստացի ճշգրտությունը մեծ լեզվական մոդելներում: SAFE-ն օգտագործում է որոնիչները՝ փաստացի ստուգելու արհեստական ինտելեկտի պատասխանները՝ հաճախ գերազանցելով մարդկային ծանոթագրողներին: Հենանիշավորումը ցույց է տալիս, որ ավելի մեծ մոդելները, ինչպիսիք են GPT-4-ը, տալիս են ավելի ճշգրիտ երկարատև պատասխաններ:
featured image - The AI Truth Test: Նոր ուսումնասիրություն ստուգում է 13 հիմնական AI մոդելների ճշգրիտությունը
Language Models (dot tech) HackerNoon profile picture
0-item
Հիմնական

Նրա գրասենյակներ :

Հիմնական

(1) Jerry Wei, Google DeepMind եւ Lead գրասենյակներ;

Հիմնական

(2) Chengrun Yang, Google DeepMind եւ Lead- ի գրասենյակներ:

Հիմնական

(3) Xinying Song- ը, Google DeepMind- ը եւ Lead- ը:

Հիմնական

(4) Yifeng Lu, Google DeepMind եւ Lead մասնագետները:

Հիմնական

(5) Nathan Hu, Google DeepMind եւ Stanford համալսարան

Հիմնական

(6) Jie Huang, Google DeepMind եւ University of Illinois at Urbana-Champaign;

Հիմնական

(7) Dustin Tran, Google DeepMind

Հիմնական

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind

Հիմնական

(10) Da Huang, Google DeepMind

Հիմնական

(11) Cosmo Du, Google DeepMind

Հիմնական

(12) Quoc V. Le, Google DeepMind.

Հիմնական

Authors:

(1) Jerry Wei, Google DeepMind եւ Lead գրասենյակներ;

(2) Chengrun Yang, Google DeepMind եւ Lead- ի գրասենյակներ:

(3) Xinying Song- ը, Google DeepMind- ը եւ Lead- ը:

(4) Yifeng Lu, Google DeepMind եւ Lead մասնագետները:

(5) Nathan Hu, Google DeepMind եւ Stanford համալսարան

(6) Jie Huang, Google DeepMind եւ University of Illinois at Urbana-Champaign;

(7) Dustin Tran, Google DeepMind

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind

(10) Da Huang, Google DeepMind

(11) Cosmo Du, Google DeepMind

(12) Quoc V. Le, Google DeepMind.

Abstract եւ 1 ներսում

2 LongFact: Օգտագործելով LLM- ները արտադրելու համար բազմաթիվ նյութերի մանրամասներ Long-Form Factuality- ի համար

3 Safe:LLM- ի գործակալները, ինչպիսիք են ճշգրիտության autoraters

4 LLM- ի գործակալները կարող են լինել ավելի լավ գործառույթներ, քան մարդիկ

5 F1@k: Extending F1 with recall from human-preferred երկարություն

6 ավելի մեծ LLMs են ավելի ճշգրիտ

7 Արդյունաբերական աշխատանքներ

8 Կառուցումներ

9 Նկարագրություն, հավելվածություն, գրասենյակային գրասենյակ եւ ցուցակներ

Appendix

A. Հատկապես հարցված հարցեր

B. LongFact տեղեկություններ

C. Safe մանրամասներ

Metric մանրամասներ

E. Ավելի ավելի վերլուծություն

abstrakt է

Բարձր լեզուային մոդելները (LLMs) հաճախ արտադրում են բաղադրատոմսերը, որոնք ներառում են բաղադրատոմսերը, երբ պատասխանում են բաղադրատոմսերը, որոնք պահանջում են բաղադրատոմսերի հետ: Բարձր լեզուային մոդելները (LLMs) սովորաբար արտադրում են բաղադրատոմսերը, որոնք ներառում են բաղադրատոմսերը, որոնք ներառում են բաղադրատոմսերը, երբ պատասխանում են բաղադրատոմսերի հետ: Բարձր լեզուային մոդելների բաղադրատոմսերի բաղադրատոմսերի բաղադրատոմսերը (LLMs) կարող են օգտագործվել բաղադրատոմսերի բաղադրատոմսերի բաղադրատոմսերի բաղադրատոմս


Հիմնականորեն, մենք ցույց ենք տալիս, որ LLM- ի գործիչները կարող են գերազանցել crowdsourced human annotators- ի մի շարք ∼16k- ի մասնավոր գիտելիքներ, SAFE- ը համոզված է crowdsourced human annotators- ի 72%- ի ժամանակով, եւ 100 անսահմանափակ անսահմանափակ դեպքերում, SAFE- ը հաղթում է 76%- ի ժամանակով: Այսպիսով, SAFE- ը ավելի քան 20 անգամ ավելի գեղեցիկ է, քան տղամարդկանց անսահմանափակներ: Մենք նաեւ համոզված ենք, որ LongFact- ում 13 լեզու մոդելներ են 4 մոդելfamilies (Gemini, GPT, Claude, եւ PaLM-2), գտնվում են, որ ավելի մեծ լեզուների մոդելներ սովորաբար ապահովում են


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Առաջարկ

Մեծ լեզուային մոդելներ (LLMs) մեծապես բարելավվել են վերջին տարիների ընթացքում (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, այլն), բայց դեռ չգիտեն հավասարավետություն պատասխանել ճշգրտական ճշգրտության հարցերի համար: Բացի այդ, նրանք հաճախ արտադրում են ճշգրտական սխալներ, որտեղ ճշգրտված ճշգրտության գիտություն (Huang et al., 2023; Zhang et al., 2023, այլն):[1] Օրինակ, մոդելները կարող են պատասխանել ճշգրտված տեղեկատվության հետ, ինչպիսիք են ճշգրտված ճշգրտությունների մասին, ինչպիսիք են օրինակները, ստանդարտությունները, կամ նույնիսկ մի


Այս գրասենյակում մենք առաջարկում ենք LongFact- ի, SAFE- ի եւ F1@K- ի համար մի մետրիկը (F1@K) համար, որը օգտագործում է երկար ձեւային պատասխանի երկար ձեւային ճշգրիտությունը: Այնուհետեւ մենք օգտագործում ենք այս նոր տվյալների սերտիֆիկների եւ evaluation- ի մեթոդների օգտագործում լայնորեն հարմարեցնում ենք հայտնի մեծ լեզուների մոդելներ: Մեր գրասենյակները հետեւյալ են:


• Մենք օգտագործում ենք GPT-4[2]- ը, որը ստեղծում է նոր պոմպտային սերտիֆիկը, որը օգտագործվում է մեծ լեզուների մոդելներում, որը մենք կոչում ենք LongFact (Section 2). LongFact- ը ներառում է 2,280 պոմպտային սերտիֆիկներ, որոնք պահանջում են long-form պատասխանները 38 մանրաձայնորեն ընտրված նյութերի վրա: Մենք գիտենք, որ LongFact- ը առաջին պոմպտային սերտիֆիկն է, որը օգտագործվում է լայն տեսակի պոմպտիկներ տարբեր տեսակի տոմսերի վրա: Մենք LongFact- ը բացահայտել ենք https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact- ում:


• Մենք առաջարկում ենք մեթոդը, որը օգտագործում է LLM- ի գործիչը, որը ավտոմատորեն գնահատում է մոդելային պատասխանների երկար ձեւի գործառույթը: Մենք օգտագործում ենք լեզուային մոդելը, որը առաջին անգամ կտրում է երկար ձեւի պատասխանը մասնավոր գործառույթների մեջ, ապա յուրաքանչյուր գործառույթի համար, առաջարկում է գործառույթների ստուգման հարցեր, որոնք ուղարկել են Google Search API- ում եւ նշանակում ենք, թե ինչու է գործառույթը աջակցում search results (Section 3). Մենք կոչում ենք այս մեթոդը SAFE-ին (Search-Augmented Factuality Evaluator).[3] Հիմնականորեն, SAFE- ը գերազանցում է միասնական հրամանագրողները, հավատում Min et al. (2023)- ից 72%-


• Մենք առաջարկում ենք, որ մի մոդելի պատասխանի երկար ձեւի գործառույթը մանրամասում, F1 կարող է օգտագործվել մի hyperparameter- ի միջոցով, որը կասկածում է տղամարդկանց նախընտրված «դիմալ» գործառույթների չափը: Այսպիսով, մենք ներառում ենք F1@K- ը, որը (լուսանկարներ) (լուսանկարներ) համարում է, որ պատասխանի գործառույթային ճշգրտությունը մանրամասում է, քանի որ աջակցված գործառույթների քանակը) կասկածում է, քանի որ առաջարկված աջակցված գործառույթների չափը կասկածում է ցանկացած փոխանցված պահանջված գործառույթների քանակը K- ը:


• Մենք կատարում ենք LongFact- ում (Section 6) 13 մեծ լեզուների մոդելների (Gemini, GPT, Claude, եւ PaLM-2) լայն մակարդակը: Մենք գնահատում ենք մոդելների պատասխանները, օգտագործելով SAFE- ում, եւ քիչավորում ենք կատարումը F1@K- ի օգտագործում, եւ գտնում ենք, որ, հիմնականում, ավելի մեծ լեզուների մոդելները ապահովում են ավելի լավ long-form- ի ճշգրտությունը:


Հիմնական

Այս հոդվածը հասանելի է archiv- ում CC by 4.0 Deed license- ում:

Հիմնական

Այս թերթըԱրդյոք հասանելի էCC by 4.0 Deed License-ի հետ.

Արդյոք հասանելի է

[1] Մենք կենտրոնանում ենք ճշգրտության եւ ճշգրտության սխալների, ոչ թե խելացիանության, քանի որ մեր առաջարկված արժեքագրության մեթոդը կենտրոնանում է որոշել, թե՞ պատասխանը ճշգրտված է արտաքին հաստատված գիտության (ֆոտալություն) մասին, ոչ թե այն մասին, թե՞ պատասխանը ճշգրտված է մոդելի ներքին գիտության (խելացիանություն) հետ:


[2] Մենք օգտագործում ենք gpt-4-0613 համար GPT-4.


[3] SAFE- ում մենք օգտագործում ենք gpt-3.5-turbo-0125- ը որպես լեզուային մոդել եւ Serper- ը (երվել է https://serper.dev/) որպես Google Search API-ը:

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks