De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 grote AI-modellen

Grote taalmodellen (LLM's) genereren vaak inhoud die feitelijke fouten bevat wanneer ze reageren op feitenzoekende aanwijzingen op open-end-thema's. Om de lange-vorm feitelijkheid van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een prompt set bestaande uit duizenden vragen die 38 onderwerpen bestrijken. We stellen vervolgens voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde beoordelaars voor lange-vorm feitelijkheid via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE gebruikt een LLM om een lange-vormige reactie te breken in een reeks individuele feiten en de nauwkeurigheid van elk feit te evalueren met behulp van

Empirisch gezien tonen we aan dat LLM-agenten crowdsourced menselijke annotatoren kunnen overtreffen – op een reeks ∼16k individuele feiten, SAFE gaat akkoord met crowdsourced menselijke annotatoren 72% van de tijd, en op een willekeurige subset van 100 meningsverschillen gevallen, SAFE wint 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotatoren. We vergelijken ook dertien taalmodellen op LongFact over vier modelfamilies (Gemini, GPT, Claude en PaLM-2), en ontdekken dat grotere taalmodellen over het algemeen betere long-form factuality opleveren. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/

1 Inleiding

Large Language Models (LLMs) have significantly improved in recent years (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) but still lack reliability in responding to in-depth factuality questions. In particular, they often produce factual errors in which a claim contradicts established ground-truth knowledge (Huang et al., 2023; Zhang et al., 2023, inter-alia).[1] For example, models may respond with incorrect information about established facts such as dates, statistics, or even a celebrity’s occupation (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). These factual errors weaken a language model’s factuality, making the model unreliable in many real-world settings where a factually-accurate response is expected.

In dit artikel stellen we een nieuwe prompt set genaamd LongFact, een evaluatiemethode genaamd SAFE, en een metric (F1@K) voor het kwantificeren van de long-form feitelijkheid van een long-form reactie.

• We gebruiken GPT-4[2] om een nieuwe prompt set te genereren voor het benchmarken van long-form factuality in grote taalmodellen, die we LongFact noemen (Section 2). LongFact bestaat uit 2280 fact-seeking prompts die long-form antwoorden vragen over 38 handmatig geselecteerde onderwerpen. Naar onze kennis is LongFact de eerste prompt set voor het evalueren van long-form factuality in een breed scala aan domeinen. We maken LongFact publiekelijk beschikbaar op https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.

We gebruiken het taalmodel om eerst een langvormige reactie in individuele feiten te ontbinden, dan voor elk feit, voorstellen feitencontrole-verzoeken om naar een Google Search API te sturen en redeneren of het feit wordt ondersteund door zoekresultaten (Section 3). We noemen deze methode SAFE (Search-Augmented Factuality Evaluator).[3] Empirisch, SAFE overtreft crowdsourced menselijke annotators, overeenkomstig 72% van menselijke annotaties van Min et al. (2023) en wint 76% van de meningsverschillen gevallen uit een willekeurige steekproef van 100 meningsverschillen gevallen (Section 4). SAFE is ook 20x goedkoper dan menselijke annotatoren. We geven SAFE vrij op https://github.com/

• We stellen voor dat bij het kwantificeren van de lange-vorm feitelijkheid van een modelrespons, F1 kan worden gebruikt via een hyperparameter die het door de mens voorkeur “ideale” aantal feiten in een reactie schat. We introduceren daarom F1@K, die (naast het meten van de feitelijke nauwkeurigheid van een reactie als de verhouding van ondersteunde feiten) maatregelen herinneren als de verhouding van verstrekt ondersteunde feiten tegen een variabel gewenste aantal ondersteunde feiten K.

• We voeren een uitgebreide benchmark uit van dertien grote taalmodellen in vier modelfamilies (Gemini, GPT, Claude en PaLM-2) op LongFact (Section 6).

Dit document is beschikbaar op archiv onder CC by 4.0 Deed license.

Beschikbaar in het archief

[1] We richten ons op feitelijkheid en feitelijke fouten, niet hallucinatie, omdat onze voorgestelde evaluatiemethode zich richt op het bepalen of een reactie feitelijk is ten opzichte van externe vastgestelde kennis (factuality) in plaats van of de reactie consistent is met de interne kennis van het model (hallucinatie).

[2] We gebruiken gpt-4-0613 voor GPT-4.

[3] In onze implementatie van SAFE gebruiken we gpt-3.5-turbo-0125 als taalmodel en Serper (beschikbaar op https://serper.dev/) als de Google Search API.

De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 grote AI-modellen

Te lang; Lezen

Tafel links

Abstractie

1 Inleiding

About Author

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...

Categories

Trending Topics

De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 grote AI-modellen

Te lang; Lezen

Tafel links

Abstractie

1 Inleiding

About Author

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...

GERELATEERDE VERHALEN

Categories

Trending Topics