De auteurs:
De(1) Jerry Wei, Google DeepMind en een Lead bijdrager;
De(2) Chengrun Yang, Google DeepMind en een Lead bijdrager;
De(3) Xinying Song, Google DeepMind en een Lead bijdrager;
De(4) Yifeng Lu, Google DeepMind en een Lead bijdrager;
De(5) Nathan Hu, Google DeepMind en Stanford University;
(6) Jie Huang, Google DeepMind en de Universiteit van Illinois in Urbana-Champaign;
De(7) Dustin Tran, Google DeepMind;
De(8) Daiyi Peng, Google DeepMind;
De(9) Ruibo Liu, Google DeepMind;
De(10) Da Huang, Google DeepMind
De(11) Cosmo Du, Google DeepMind;
De(12) Quoc V. Le, Google DeepMind.
DeAuthors:
(1) Jerry Wei, Google DeepMind en een Lead bijdrager;
(2) Chengrun Yang, Google DeepMind en een Lead bijdrager;
(3) Xinying Song, Google DeepMind en een Lead bijdrager;
(4) Yifeng Lu, Google DeepMind en een Lead bijdrager;
(5) Nathan Hu, Google DeepMind en Stanford University;
(6) Jie Huang, Google DeepMind en de Universiteit van Illinois in Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Ruibo Liu, Google DeepMind;
(10) Da Huang, Google DeepMind
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Tafel links
2 LongFact: LLM's gebruiken om een multi-topic benchmark te genereren voor long-form factuality
3 Safe:LLM agenten als feitelijkheid autoraters
4 LLM-agenten kunnen betere feitelijke annotatoren zijn dan mensen
5 F1@k: Uitbreiding van F1 met herroeping van menselijke voorkeur lengte
6 Grotere LLM's zijn meer feitelijk
9 Conclusie, erkenning, bijdrage van de auteur en referenties
Appendix
Abstractie
Grote taalmodellen (LLM's) genereren vaak inhoud die feitelijke fouten bevat wanneer ze reageren op feitenzoekende aanwijzingen op open-end-thema's. Om de lange-vorm feitelijkheid van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een prompt set bestaande uit duizenden vragen die 38 onderwerpen bestrijken. We stellen vervolgens voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde beoordelaars voor lange-vorm feitelijkheid via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE gebruikt een LLM om een lange-vormige reactie te breken in een reeks individuele feiten en de nauwkeurigheid van elk feit te evalueren met behulp van
Empirisch gezien tonen we aan dat LLM-agenten crowdsourced menselijke annotatoren kunnen overtreffen – op een reeks ∼16k individuele feiten, SAFE gaat akkoord met crowdsourced menselijke annotatoren 72% van de tijd, en op een willekeurige subset van 100 meningsverschillen gevallen, SAFE wint 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotatoren. We vergelijken ook dertien taalmodellen op LongFact over vier modelfamilies (Gemini, GPT, Claude en PaLM-2), en ontdekken dat grotere taalmodellen over het algemeen betere long-form factuality opleveren. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/
1 Inleiding
Large Language Models (LLMs) have significantly improved in recent years (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) but still lack reliability in responding to in-depth factuality questions. In particular, they often produce factual errors in which a claim contradicts established ground-truth knowledge (Huang et al., 2023; Zhang et al., 2023, inter-alia).[1] For example, models may respond with incorrect information about established facts such as dates, statistics, or even a celebrity’s occupation (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). These factual errors weaken a language model’s factuality, making the model unreliable in many real-world settings where a factually-accurate response is expected.
In dit artikel stellen we een nieuwe prompt set genaamd LongFact, een evaluatiemethode genaamd SAFE, en een metric (F1@K) voor het kwantificeren van de long-form feitelijkheid van een long-form reactie.
• We gebruiken GPT-4[2] om een nieuwe prompt set te genereren voor het benchmarken van long-form factuality in grote taalmodellen, die we LongFact noemen (Section 2). LongFact bestaat uit 2280 fact-seeking prompts die long-form antwoorden vragen over 38 handmatig geselecteerde onderwerpen. Naar onze kennis is LongFact de eerste prompt set voor het evalueren van long-form factuality in een breed scala aan domeinen. We maken LongFact publiekelijk beschikbaar op https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.
We gebruiken het taalmodel om eerst een langvormige reactie in individuele feiten te ontbinden, dan voor elk feit, voorstellen feitencontrole-verzoeken om naar een Google Search API te sturen en redeneren of het feit wordt ondersteund door zoekresultaten (Section 3). We noemen deze methode SAFE (Search-Augmented Factuality Evaluator).[3] Empirisch, SAFE overtreft crowdsourced menselijke annotators, overeenkomstig 72% van menselijke annotaties van Min et al. (2023) en wint 76% van de meningsverschillen gevallen uit een willekeurige steekproef van 100 meningsverschillen gevallen (Section 4). SAFE is ook 20x goedkoper dan menselijke annotatoren. We geven SAFE vrij op https://github.com/
• We stellen voor dat bij het kwantificeren van de lange-vorm feitelijkheid van een modelrespons, F1 kan worden gebruikt via een hyperparameter die het door de mens voorkeur “ideale” aantal feiten in een reactie schat. We introduceren daarom F1@K, die (naast het meten van de feitelijke nauwkeurigheid van een reactie als de verhouding van ondersteunde feiten) maatregelen herinneren als de verhouding van verstrekt ondersteunde feiten tegen een variabel gewenste aantal ondersteunde feiten K.
• We voeren een uitgebreide benchmark uit van dertien grote taalmodellen in vier modelfamilies (Gemini, GPT, Claude en PaLM-2) op LongFact (Section 6).
Dit document is beschikbaar op archiv onder CC by 4.0 Deed license.
DeDit document is beschikbaar op archiv onder CC by 4.0 Deed license.
Beschikbaar in het archief[1] We richten ons op feitelijkheid en feitelijke fouten, niet hallucinatie, omdat onze voorgestelde evaluatiemethode zich richt op het bepalen of een reactie feitelijk is ten opzichte van externe vastgestelde kennis (factuality) in plaats van of de reactie consistent is met de interne kennis van het model (hallucinatie).
[2] We gebruiken gpt-4-0613 voor GPT-4.
[3] In onze implementatie van SAFE gebruiken we gpt-3.5-turbo-0125 als taalmodel en Serper (beschikbaar op https://serper.dev/) als de Google Search API.