ang mga author:
sa loob(1) Jerry Wei, Google DeepMind at isang Lead contributors;
sa loob(2) Chengrun Yang, Google DeepMind at isang Lead contributors;
sa loob(3) Xinying Song, Google DeepMind at isang Lead contributors;
sa loob(4) Yifeng Lu, Google DeepMind at isang Lead contributors;
sa loob(5) Nathan Hu, Google DeepMind at Stanford University;
sa loob(6) Jie Huang, Google DeepMind at University of Illinois sa Urbana-Champaign;
sa loob(7) Dustin Tran, ang Google DeepMind;
sa loob(8) Daiyi Peng, Google DeepMind;
sa loob(9) Ruibo Liu, ang Google DeepMind;
sa loob(10) Da Huang, ang Google DeepMind;
sa loob(11) Cosmo Du, Google DeepMind;
sa loob(12) Quoc V. Le, ang Google DeepMind.
sa loobAuthors:
(1) Jerry Wei, Google DeepMind at isang Lead contributors;
(2) Chengrun Yang, Google DeepMind at isang Lead contributors;
(3) Xinying Song, Google DeepMind at isang Lead contributors;
(4) Yifeng Lu, Google DeepMind at isang Lead contributors;
(5) Nathan Hu, Google DeepMind at Stanford University;
(6) Jie Huang, Google DeepMind at University of Illinois sa Urbana-Champaign;
(7) Dustin Tran, ang Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Ruibo Liu, ang Google DeepMind;
(10) Da Huang, ang Google DeepMind;
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, ang Google DeepMind.
Table ng mga Links
3 Safe:LLM mga agente bilang factuality autoraters
4 Mga agensya ng LLM ay maaaring maging mas mahusay na mga annotator ng factuality kaysa sa mga tao
5 F1@k: Extending F1 with recall from human-preferred length
9 Konklusyon, mga pagkilos, kontribusyon ng mga awtor, at references
Appendix
abstrak ang
Ang mga big language models (LLMs) ay karaniwang gumaganap ng content na naglalaman ng mga error ng fakto kapag tumugon sa mga prompts na naghahanap ng fakto sa mga open-end topic. Upang i-benchmark ang long-form factuality ng isang modelo sa mga open-domain, ginagamit namin ang unang GPT-4 upang i-generate LongFact, isang prompt set na binubuo ng libu-libong mga tanong na naglalaman ng 38 topics. Ipinapakita namin pagkatapos na ang mga agente ng LLM ay maaaring gamitin bilang mga automatic evaluator para sa longform factuality sa pamamagitan ng isang paraan na kami tinatawag na Search-Augmented Factuality Evaluator (SAFE). Sa karamihan, ginagamit namin ang SAFE ng isang LLM upang i-combine
Empirically, nag-demonstrate na ang mga agente ng LLM ay maaaring ipakita sa mga crowdsourced human annotators—sa isang set ng ∼16k individual facts, ang SAFE ay sumali sa mga crowdsourced human annotators 72% ng oras, at sa isang random subset ng 100 mga kaso ng disagreement, ang SAFE ay humingi ng 76% ng oras. Sa parehong oras, ang SAFE ay higit sa 20 beses mas mababa kaysa sa mga human annotators. Kami ay din na-benchmark ang thirteen language models sa LongFact sa pagitan ng tatlong family ng modelo (Gemini, GPT, Claude, at PaLM-2), na natagpuan na ang mas mahusay na mga modelo ng wika ay karaniwang nag-aalala ng mas mahusay na long-form factuality. LongFact,
1 Introduction
Ang Large Language Models (LLMs) ay nangangahulugang nababago sa mga nakalipas na taon (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia), ngunit hindi pa rin ang reliability sa pagbabago sa mga pangunahing mga tanong ng katotohanan. Halimbawa, ang mga ito ay karaniwang gumagawa ng mga error sa mga katotohanan kung saan ang isang claim ay nagkakaiba sa mga tinatawag na pangunahing katotohanan (Huang et al., 2023; Zhang et al., 2023, inter alia).[1] Halimbawa, ang mga modelo ay maaaring tumugon sa mga hindi katotohanan na impormasyon tungkol sa mga katotohanan tulad ng mga petsa, mga statistics, o kahit na ang
Sa dokumento na ito, nag-aalok namin ang isang bagong pakikipagtulungan na tinatawag na LongFact, isang pamamaraan ng pag-evaluation na tinatawag na SAFE, at isang metric (F1@K) para sa pag-uugali ng long-form factuality ng isang long-form response.
• Ginagamit namin ang GPT-4[2] upang lumikha ng isang bagong prompt set para sa benchmarking ng long-form factuality sa malaking mga modelo ng wika, na tinatawag namin ang LongFact (Section 2). Ang LongFact ay binubuo ng 2280 fact-seeking prompts na mag-solicite long-form responses sa 38 manually-selected topics. Sa aming karanasan, ang LongFact ay ang unang prompt set para sa pag-evaluate ng long-form factuality sa isang iba't-ibang iba't-ibang mga domain. Nag-aalok namin ang LongFact na magagamit sa publiko sa https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.
• Ipinapakita namin ang isang paraan upang gamitin ang isang agent ng LLM upang automatically i-evaluate ang long-form factuality sa mga responses ng modelo. Ginagamit namin ang modelo ng wika upang unang i-decompose ang isang long-form response sa mga individual na mga katotohanan, pagkatapos ay para sa bawat katotohanan, i-propose ang mga queries ng pag-verify ng mga katotohanan upang i-send sa isang Google Search API at ang pag-argument tungkol sa kung ang katotohanan ay sumusuporta sa pamamagitan ng mga resulta ng paghahanap (Section 3). Ipinapakita namin ang paraan SAFE (Search-Augmented Factuality Evaluator).[3] Empirically, SAFE ay humihingi sa mga crowdsourced human annotators, na sumali sa 72% ng mga
• Ipinapakita namin na kapag maiwasan ang long-form factuality ng isang modelo response, F1 ay maaaring gamitin sa pamamagitan ng isang hyperparameter na estimate ang human-preferred "ideal" bilang ng mga katotohanan sa isang response.
• Nagtatrabaho kami ng isang malakas na benchmark ng thirteen malaking mga modelo ng wika sa tatlong mga family ng modelo (Gemini, GPT, Claude, at PaLM-2) sa LongFact (Section 6). Nag-evaluate ang mga responsibilidad ng modelo gamit ang SAFE at i-quantify ang pagganap gamit ang F1@K, na natagpuan na, sa pangkalahatan, ang mas mataas na mga modelo ng wika ay may mas mahusay na long-form factuality.
Ang artikulong ito ay magagamit sa archiv sa ilalim ng CC by 4.0 Deed license.
sa loobAng papel na ito ay
[1] Nag-focus sa factuality at factual errors, hindi halucination, dahil ang aming mga propesyonal na pamamaraan ng pag-evaluation ay nag-focus sa pagkuha ng kung ang isang reaksyon ay factual sa pagitan ng external established knowledge (factuality) at hindi kung ang reaksyon ay consistent sa modelo's internal knowledge (hallucination).
[2] Ginagamit namin ang gpt-4-0613 para sa GPT-4.
[3] Sa aming pag-implementasyon ng SAFE, ginagamit namin ang gpt-3.5-turbo-0125 bilang modelo ng wika at Serper (mga magagamit sa https://serper.dev/) bilang ang Google Search API.