De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 belangrijke AI-modellen

Grote taalmodellen (LLM's) genereren vaak content die feitelijke fouten bevat bij het reageren op vragen om feiten over open onderwerpen. Om de lange feitelijkeheid van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een promptset die bestaat uit duizenden vragen over 38 onderwerpen. Vervolgens stellen we voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde evaluatoren voor lange feitelijkeheid via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE gebruikt een LLM om een lange respons op te splitsen in een set individuele feiten en om de nauwkeurigheid van elk feit te evalueren met behulp van een meerstaps redeneringsproces dat bestaat uit het verzenden van zoekopdrachten naar Google Zoeken en het bepalen of een feit wordt ondersteund door de zoekresultaten. Verder stellen we voor om de F1-score uit te breiden als een geaggregeerde metriek voor lange feitelijkeheid. Om dit te doen, balanceren we het percentage ondersteunde feiten in een respons (precisie) met het percentage verstrekte feiten ten opzichte van een hyperparameter die de voorkeurslengte van een gebruiker vertegenwoordigt (recall).

Empirisch tonen we aan dat LLM-agenten crowdsourced menselijke annotators kunnen overtreffen: op een set van ∼16k individuele feiten is SAFE het 72% van de tijd eens met crowdsourced menselijke annotators, en op een willekeurige subset van 100 meningsverschillen wint SAFE 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotators. We benchmarken ook dertien taalmodellen op LongFact in vier modelfamilies (Gemini, GPT, Claude en PaLM-2), waarbij we ontdekken dat grotere taalmodellen over het algemeen een betere lange-form factuality bereiken. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/long-form-factuality.

1 INLEIDING

Large Language Models (LLM's) zijn de afgelopen jaren aanzienlijk verbeterd (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia), maar zijn nog steeds niet betrouwbaar genoeg om diepgaande vragen over feitelijkheid te beantwoorden. In het bijzonder produceren ze vaak feitelijke fouten waarin een bewering in tegenspraak is met gevestigde kennis van de grondwaarheid (Huang et al., 2023; Zhang et al., 2023, inter-alia).[1] Modellen kunnen bijvoorbeeld reageren met onjuiste informatie over gevestigde feiten, zoals data, statistieken of zelfs het beroep van een beroemdheid (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Deze feitelijke fouten verzwakken de feitelijkheid van een taalmodel, waardoor het model onbetrouwbaar wordt in veel situaties in de echte wereld waarin een feitelijk correct antwoord wordt verwacht.

In dit artikel stellen we een nieuwe promptset voor, genaamd LongFact, een evaluatiemethode genaamd SAFE en een metriek (F1@K) voor het kwantificeren van de lange feitelijkeheid van een lange respons. Vervolgens benchmarken we uitgebreid populaire grote taalmodellen met behulp van deze nieuwe datasets en evaluatiemethoden. Onze bijdragen zijn als volgt:

• We gebruiken GPT-4[2] om een nieuwe promptset te genereren voor het benchmarken van lange feitelijke informatie in grote taalmodellen, die we LongFact noemen (Sectie 2). LongFact bestaat uit 2.280 feitenzoekende prompts die lange antwoorden vragen over 38 handmatig geselecteerde onderwerpen. Voor zover wij weten, is LongFact de eerste promptset voor het evalueren van lange feitelijke informatie in een breed scala aan domeinen. We maken LongFact openbaar beschikbaar op https://github.com/google-deepmind/long-form-factuality/tree/main/longfact.

• We stellen een methode voor om een LLM-agent te gebruiken om automatisch de feitelijkeheid van lange formulieren in modelreacties te evalueren. We gebruiken het taalmodel om eerst een lange antwoordvorm te ontleden in afzonderlijke feiten, en stellen vervolgens voor elk feit factchecking-query's voor om te sturen naar een Google Search API en redeneren over de vraag of het feit wordt ondersteund door zoekresultaten (Sectie 3). We noemen deze methode SAFE (Search-Augmented Factuality Evaluator).[3] Empirisch gezien presteert SAFE beter dan crowdsourced menselijke annotators, met een akkoord met 72% van de menselijke annotaties van Min et al. (2023) en het winnen van 76% van de meningsverschillen uit een willekeurige steekproef van 100 meningsverschillen (Sectie 4). SAFE is ook 20× goedkoper dan menselijke annotators. We brengen SAFE uit op https://github.com/google-deepmind/long-form-factuality/tree/main/eval/safe.

• Wij stellen voor dat bij het kwantificeren van de lange-vorm feitelijkheid van een modelrespons, F1 kan worden gebruikt via een hyperparameter die het door de mens geprefereerde "ideale" aantal feiten in een respons schat. Daarom introduceren we F1@K, dat (naast het meten van de feitelijke precisie van een respons als de verhouding van ondersteunde feiten) recall meet als de verhouding van verstrekte ondersteunde feiten over een variabele gewenst aantal ondersteunde feiten K.

• We voeren een uitgebreide benchmark uit van dertien grote taalmodellen in vier modelfamilies (Gemini, GPT, Claude en PaLM-2) op LongFact (Sectie 6). We evalueren modelreacties met SAFE en kwantificeren prestaties met F1@K, waarbij we ontdekken dat grotere taalmodellen over het algemeen een betere feitelijke lange vorm bereiken.

Dit papier is beschikbaar op arxiv onder CC by 4.0 Deed-licentie.

[1] Wij richten ons op feitelijkheid en feitelijke fouten, niet op hallucinaties, omdat onze voorgestelde evaluatiemethode zich richt op het bepalen of een respons feitelijk is met betrekking tot externe vastgestelde kennis (feitelijkheid) in plaats van op de vraag of de respons consistent is met de interne kennis van het model (hallucinatie).

[2] We gebruiken gpt-4-0613 voor GPT-4.

[3] In onze implementatie van SAFE gebruiken we gpt-3.5-turbo-0125 als taalmodel en Serper (beschikbaar op https://serper.dev/) als de Google Search API.

De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 belangrijke AI-modellen

Te lang; Lezen

Tabel met links

ABSTRACT

1 INLEIDING

About Author

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...

Categories

Trending Topics

De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 belangrijke AI-modellen

Te lang; Lezen

Tabel met links

ABSTRACT

1 INLEIDING

About Author

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...

GERELATEERDE VERHALEN

Categories

Trending Topics