253 lezingen Nieuwe geschiedenis

De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 belangrijke AI-modellen

Te lang; Lezen

DeepMind introduceert LongFact en SAFE, tools om de feitelijke nauwkeurigheid in grote taalmodellen te meten en te verbeteren. SAFE maakt gebruik van zoekmachines om feitelijke AI-reacties te controleren, vaak beter dan menselijke annotatoren.
featured image - De AI-waarheidstest: nieuwe studie test de nauwkeurigheid van 13 belangrijke AI-modellen
Language Models (dot tech) HackerNoon profile picture
0-item

Auteurs:

(1) Jerry Wei, Google DeepMind en een van de belangrijkste bijdragers;

(2) Chengrun Yang, Google DeepMind en een van de belangrijkste bijdragers;

(3) Xinying Song, Google DeepMind en een aantal belangrijke bijdragers;

(4) Yifeng Lu, Google DeepMind en een van de belangrijkste bijdragers;

(5) Nathan Hu, Google DeepMind en Stanford University;

(6) Jie Huang, Google DeepMind en Universiteit van Illinois in Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Tabel met links

Samenvatting en 1 Inleiding

2 LongFact: LLM's gebruiken om een multi-topic benchmark te genereren voor lange feitelijke informatie

3 Veilig: LLM-agenten als feitelijkheidsautoraters

4 LLM-agenten kunnen betere annotators van feitelijke informatie zijn dan mensen

5 F1@k: F1 uitbreiden met terugroepactie vanaf de door de mens gewenste lengte

6 Grotere LLM's zijn meer feitelijk

7 Gerelateerd werk

8 Beperkingen

9 Conclusie, dankbetuigingen, bijdrage van de auteur en referenties

Bijlage

A. Veelgestelde vragen

B. LongFact-gegevens

C. VEILIGE details

D. Metrische details

E. Verdere analyse

ABSTRACT

Grote taalmodellen (LLM's) genereren vaak content die feitelijke fouten bevat bij het reageren op vragen om feiten over open onderwerpen. Om de lange feitelijkeheid van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een promptset die bestaat uit duizenden vragen over 38 onderwerpen. Vervolgens stellen we voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde evaluatoren voor lange feitelijkeheid via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE gebruikt een LLM om een lange respons op te splitsen in een set individuele feiten en om de nauwkeurigheid van elk feit te evalueren met behulp van een meerstaps redeneringsproces dat bestaat uit het verzenden van zoekopdrachten naar Google Zoeken en het bepalen of een feit wordt ondersteund door de zoekresultaten. Verder stellen we voor om de F1-score uit te breiden als een geaggregeerde metriek voor lange feitelijkeheid. Om dit te doen, balanceren we het percentage ondersteunde feiten in een respons (precisie) met het percentage verstrekte feiten ten opzichte van een hyperparameter die de voorkeurslengte van een gebruiker vertegenwoordigt (recall).


Empirisch tonen we aan dat LLM-agenten crowdsourced menselijke annotators kunnen overtreffen: op een set van ∼16k individuele feiten is SAFE het 72% van de tijd eens met crowdsourced menselijke annotators, en op een willekeurige subset van 100 meningsverschillen wint SAFE 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotators. We benchmarken ook dertien taalmodellen op LongFact in vier modelfamilies (Gemini, GPT, Claude en PaLM-2), waarbij we ontdekken dat grotere taalmodellen over het algemeen een betere lange-form factuality bereiken. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/long-form-factuality.


Afbeelding 1: Onze automatische feitelijkheidsbeoordelaar, SAFE, gebruikt een groot taalmodel om de feitelijkheid van een lang antwoord op een gegeven prompt te beoordelen met behulp van Google Search. We tonen empirisch aan dat SAFE beter presteert dan menselijke annotators en meer dan 20 keer goedkoper is (Sectie 4).

1 INLEIDING

Large Language Models (LLM's) zijn de afgelopen jaren aanzienlijk verbeterd (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia), maar zijn nog steeds niet betrouwbaar genoeg om diepgaande vragen over feitelijkheid te beantwoorden. In het bijzonder produceren ze vaak feitelijke fouten waarin een bewering in tegenspraak is met gevestigde kennis van de grondwaarheid (Huang et al., 2023; Zhang et al., 2023, inter-alia).[1] Modellen kunnen bijvoorbeeld reageren met onjuiste informatie over gevestigde feiten, zoals data, statistieken of zelfs het beroep van een beroemdheid (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Deze feitelijke fouten verzwakken de feitelijkheid van een taalmodel, waardoor het model onbetrouwbaar wordt in veel situaties in de echte wereld waarin een feitelijk correct antwoord wordt verwacht.


In dit artikel stellen we een nieuwe promptset voor, genaamd LongFact, een evaluatiemethode genaamd SAFE en een metriek (F1@K) voor het kwantificeren van de lange feitelijkeheid van een lange respons. Vervolgens benchmarken we uitgebreid populaire grote taalmodellen met behulp van deze nieuwe datasets en evaluatiemethoden. Onze bijdragen zijn als volgt:


• We gebruiken GPT-4[2] om een nieuwe promptset te genereren voor het benchmarken van lange feitelijke informatie in grote taalmodellen, die we LongFact noemen (Sectie 2). LongFact bestaat uit 2.280 feitenzoekende prompts die lange antwoorden vragen over 38 handmatig geselecteerde onderwerpen. Voor zover wij weten, is LongFact de eerste promptset voor het evalueren van lange feitelijke informatie in een breed scala aan domeinen. We maken LongFact openbaar beschikbaar op https://github.com/google-deepmind/long-form-factuality/tree/main/longfact.


• We stellen een methode voor om een LLM-agent te gebruiken om automatisch de feitelijkeheid van lange formulieren in modelreacties te evalueren. We gebruiken het taalmodel om eerst een lange antwoordvorm te ontleden in afzonderlijke feiten, en stellen vervolgens voor elk feit factchecking-query's voor om te sturen naar een Google Search API en redeneren over de vraag of het feit wordt ondersteund door zoekresultaten (Sectie 3). We noemen deze methode SAFE (Search-Augmented Factuality Evaluator).[3] Empirisch gezien presteert SAFE beter dan crowdsourced menselijke annotators, met een akkoord met 72% van de menselijke annotaties van Min et al. (2023) en het winnen van 76% van de meningsverschillen uit een willekeurige steekproef van 100 meningsverschillen (Sectie 4). SAFE is ook 20× goedkoper dan menselijke annotators. We brengen SAFE uit op https://github.com/google-deepmind/long-form-factuality/tree/main/eval/safe.


• Wij stellen voor dat bij het kwantificeren van de lange-vorm feitelijkheid van een modelrespons, F1 kan worden gebruikt via een hyperparameter die het door de mens geprefereerde "ideale" aantal feiten in een respons schat. Daarom introduceren we F1@K, dat (naast het meten van de feitelijke precisie van een respons als de verhouding van ondersteunde feiten) recall meet als de verhouding van verstrekte ondersteunde feiten over een variabele gewenst aantal ondersteunde feiten K.


• We voeren een uitgebreide benchmark uit van dertien grote taalmodellen in vier modelfamilies (Gemini, GPT, Claude en PaLM-2) op LongFact (Sectie 6). We evalueren modelreacties met SAFE en kwantificeren prestaties met F1@K, waarbij we ontdekken dat grotere taalmodellen over het algemeen een betere feitelijke lange vorm bereiken.


Dit papier is beschikbaar op arxiv onder CC by 4.0 Deed-licentie.


[1] Wij richten ons op feitelijkheid en feitelijke fouten, niet op hallucinaties, omdat onze voorgestelde evaluatiemethode zich richt op het bepalen of een respons feitelijk is met betrekking tot externe vastgestelde kennis (feitelijkheid) in plaats van op de vraag of de respons consistent is met de interne kennis van het model (hallucinatie).


[2] We gebruiken gpt-4-0613 voor GPT-4.


[3] In onze implementatie van SAFE gebruiken we gpt-3.5-turbo-0125 als taalmodel en Serper (beschikbaar op https://serper.dev/) als de Google Search API.

L O A D I N G
. . . comments & more!

About Author

Language Models (dot tech) HackerNoon profile picture
Language Models (dot tech)@languagemodels
Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

LABELS

DIT ARTIKEL WERD GEPRESENTEERD IN...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks