A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

que

Os autores:

que

(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;

que

(2) Chengrun Yang, Google DeepMind e un contribuínte principal;

que

(3) Xinying Song, Google DeepMind e un contribuínte Lead;

que

(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;

que

(5) Nathan Hu, Google DeepMind e Universidade de Stanford;

que

(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;

que

(7) Dustin Tran, Google DeepMind;

que

(8) Daiyi Peng, Google DeepMind

que

(9) Ruibo Liu, Google DeepMind;

que

(10) Da Huang, Google DeepMind

que

(11) Cosmo Du, Google DeepMind;

que

(12) Quoc V. Le, Google DeepMind.

que

Authors:

(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;

(2) Chengrun Yang, Google DeepMind e un contribuínte principal;

(3) Xinying Song, Google DeepMind e un contribuínte Lead;

(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;

(5) Nathan Hu, Google DeepMind e Universidade de Stanford;

(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Mesa da esquerda

Abstracto e 1 introdución

2 LongFact: Usando LLMs para xerar un punto de referencia multi-tópico para a factualidade de forma longa

3 Axentes seguros: LLM como autoradores de factualidade

4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos

5 F1@k: Extender F1 con recall desde a lonxitude preferida polo ser humano

6 LLM máis grandes son máis factuais

7 Traballos relacionados

8 Limitacións

9 Conclusión, recoñecemento, contribución do autor e referencias

Appendix

A. Preguntas máis frecuentes

Abstraccións

Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de prompts que inclúe miles de preguntas que abranguen 38 temas. A continuación, propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos Avaliación de Factualidade Aumentada de Busca (SAFE). A SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso

Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente ofrecen unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-form-fac

1 Introdución

Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estes erros factuais debilitan a factualidade dun modelo de linguaxe,

Neste artigo, propoñemos un novo conxunto de indicacións chamado LongFact, un método de avaliación chamado SAFE, e unha métrica (F1@K) para cuantificar a factualidade de forma longa dunha resposta de forma longa.

• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking de long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas de long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar a long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.

• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, logo para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos crowdsourced, de acordo co 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén é 20x máis barato

• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número de feitos "ideais" preferido por humanos nunha resposta.

• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).

que

Este artigo está dispoñible en arquivo baixo a licenza CC 4.0 Deed.

que

Este documento éDispoñible en arquivobaixo a licenza CC 4.0 Deed.

Dispoñible en arquivo

[1] Centrámonos na factualidade e os erros factuais, non na alucinación, xa que o noso método de avaliación proposto céntrase en determinar se unha resposta é factual con respecto ao coñecemento externo establecido (factualidade) en vez de se a resposta é consistente co coñecemento interno do modelo (alucinación).

[2] Usamos gpt-4-0613 para GPT-4.

[3] Na nosa implementación de SAFE, usamos gpt-3.5-turbo-0125 como o modelo de linguaxe e Serper (dispoñible en https://serper.dev/) como a API de busca de Google.

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

Mesa da esquerda

Abstraccións

1 Introdución

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

Mesa da esquerda

Abstraccións

1 Introdución

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics