516 lecturas
516 lecturas

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

DeepMind presenta LongFact e SAFE, ferramentas para medir e mellorar a precisión dos feitos en grandes modelos lingüísticos. SAFE usa motores de busca para verificar as respostas da intelixencia artificial, a miúdo superando aos anotadores humanos. A análise comparativa mostra que modelos máis grandes como GPT-4 ofrecen respostas longas máis precisas.
featured image - A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA
Language Models (dot tech) HackerNoon profile picture
0-item
que

Os autores:

que

(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;

que

(2) Chengrun Yang, Google DeepMind e un contribuínte principal;

que

(3) Xinying Song, Google DeepMind e un contribuínte Lead;

que

(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;

que

(5) Nathan Hu, Google DeepMind e Universidade de Stanford;

que

(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;

que

(7) Dustin Tran, Google DeepMind;

que

(8) Daiyi Peng, Google DeepMind

que

(9) Ruibo Liu, Google DeepMind;

que

(10) Da Huang, Google DeepMind

que

(11) Cosmo Du, Google DeepMind;

que

(12) Quoc V. Le, Google DeepMind.

que

Authors:

(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;

(2) Chengrun Yang, Google DeepMind e un contribuínte principal;

(3) Xinying Song, Google DeepMind e un contribuínte Lead;

(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;

(5) Nathan Hu, Google DeepMind e Universidade de Stanford;

(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Abstracto e 1 introdución

2 LongFact: Usando LLMs para xerar un punto de referencia multi-tópico para a factualidade de forma longa

3 Axentes seguros: LLM como autoradores de factualidade

4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos

5 F1@k: Extender F1 con recall desde a lonxitude preferida polo ser humano

6 LLM máis grandes son máis factuais

7 Traballos relacionados

8 Limitacións

9 Conclusión, recoñecemento, contribución do autor e referencias

Appendix

A. Preguntas máis frecuentes

B. LongFact detalles

C. Detalles seguros

Detalles métricos

E. Análise adicional

Abstraccións

Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de prompts que inclúe miles de preguntas que abranguen 38 temas. A continuación, propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos Avaliación de Factualidade Aumentada de Busca (SAFE). A SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso


Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente ofrecen unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-form-fac


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Introdución

Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estes erros factuais debilitan a factualidade dun modelo de linguaxe,


Neste artigo, propoñemos un novo conxunto de indicacións chamado LongFact, un método de avaliación chamado SAFE, e unha métrica (F1@K) para cuantificar a factualidade de forma longa dunha resposta de forma longa.


• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking de long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas de long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar a long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.


• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, logo para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos crowdsourced, de acordo co 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén é 20x máis barato


• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número de feitos "ideais" preferido por humanos nunha resposta.


• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).


que

Este artigo está dispoñible en arquivo baixo a licenza CC 4.0 Deed.

que

Este documento éDispoñible en arquivobaixo a licenza CC 4.0 Deed.

Dispoñible en arquivo

[1] Centrámonos na factualidade e os erros factuais, non na alucinación, xa que o noso método de avaliación proposto céntrase en determinar se unha resposta é factual con respecto ao coñecemento externo establecido (factualidade) en vez de se a resposta é consistente co coñecemento interno do modelo (alucinación).


[2] Usamos gpt-4-0613 para GPT-4.


[3] Na nosa implementación de SAFE, usamos gpt-3.5-turbo-0125 como o modelo de linguaxe e Serper (dispoñible en https://serper.dev/) como a API de busca de Google.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks