253 lecturas Nova historia

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

DeepMind presenta LongFact e SAFE, ferramentas para medir e mellorar a precisión dos feitos en grandes modelos lingüísticos. SAFE usa motores de busca para verificar as respostas da intelixencia artificial, a miúdo superando aos anotadores humanos. A análise comparativa mostra que modelos máis grandes como GPT-4 ofrecen respostas longas máis precisas.
featured image - A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA
Language Models (dot tech) HackerNoon profile picture
0-item

Autores:

(1) Jerry Wei, Google DeepMind e os seus contribuíntes principais;

(2) Chengrun Yang, Google DeepMind e os seus contribuíntes principais;

(3) Xinying Song, Google DeepMind e os seus contribuíntes principais;

(4) Yifeng Lu, Google DeepMind e os seus contribuíntes principais;

(5) Nathan Hu, Google DeepMind e a Universidade de Stanford;

(6) Jie Huang, Google DeepMind e a Universidade de Illinois en Urbana-Champaign;

Dustin Tran, Google DeepMind;

<(

Os autores:

Páxinas que ligan con:

(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;

(2) Chengrun Yang, Google DeepMind e un contribuínte de Lead;

(3) Xinying Song, Google DeepMind e os contribuíntes de Lead;

(4) Yifeng Lu, Google DeepMind e un contribuínte de Lead;

(5) Nathan Hu, Google DeepMind e Universidade de Stanford;

(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Xesús Xesús, Google DeepMind;

(10) Da Huang, Google DeepMind;

(11) Xesús de Nazaret, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Táboa de ligazóns

Abstract e 1 Introdución

Abstract e 1 Introdución

2 LongFact: Usando LLMs para xerar un benchmark multi-tópico para long-form factuality

2 LongFact: Usando LLMs para xerar un benchmark multi-tópico para long-form factuality

3 Axentes de seguridade:LLM como autoras de factualidade

3 Safe:LLM axentes como factualidade autoraters

4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos

4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos

5 F1@k: Estendendo F1 con recall desde lonxitude humana preferida

5 F1@k: Estendendo F1 con recall desde lonxitude humana preferida

6 LLMs máis grandes son máis factuais

6 LLMs máis grandes son máis factuais

7 Traballo relacionado

7 Traballo relacionado

8 Limitacións

8 Limitacións

9 Conclusións, Recoñecementos, Contribución do autor, e Referencias

9 Conclusións, Recoñecementos, Contribución do autor e referencias

Anexo

Anexo

A. Preguntas máis frecuentes

A. Preguntas máis frecuentes

B. detalles LongFact

B. detalles LongFact

C. detalles de seguridade

C. detalles de seguridade

D. Detalles métricos

D. Detalles métricos

E. Máis análise

E. Máis análise

Absolución

Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de preguntas de longo prazo que inclúe miles de preguntas que abranguen 38 temas. Logo propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos SAFE (Search-Augmented Factuality Evaluator). SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso


Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente logran unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-


Figura 1: O noso avaliador automático de factualidade, SAFE, usa un modelo de linguaxe grande para avaliar a factualidade dunha resposta de forma longa a unha solicitude dada usando Google Search. Demostramos empiricamente que SAFE supera os anotadores humanos sendo máis de 20 veces máis barato (Sección 4).

Figura 1: O noso avaliador automático de factualidade, SAFE, usa un modelo de linguaxe grande para avaliar a factualidade dunha resposta de forma longa a unha solicitude dada usando Google Search. Demostramos empiricamente que SAFE supera os anotadores humanos sendo máis de 20 veces máis barato (Sección 4).

1 Introdución

Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023).


Neste artigo, propoñemos un novo conxunto de indicacións chamado LongFact, un método de avaliación chamado SAFE e unha métrica (F1@K) para cuantificar a factualidade de forma longa dunha resposta de forma longa.


• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.


• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, a continuación, para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos de crowdsourcing, aceptando o 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén


• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número "ideal" de feitos preferido por humanos nunha resposta.


• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).


Este artigo é dispoñible en arxiv baixo a licenza CC by 4.0 Deed.

Este artigo é dispoñible en arxiv baixo CC por 4.0 Deed license.

disponible en arxivdisponible en arxiv> RR[1] Concentrámonos na factualidade e os erros factuais, non nas alucinacións, xa que o noso método de avaliación proposto céntrase en determinar se unha resposta é factual con respecto ao coñecemento externo establecido (factualidade) en vez de se a resposta é consistente co coñecemento interno do modelo (alucinación).



[2] Usamos gpt-4-0613 para GPT-4.


Na nosa implementación de SAFE, usamos gpt-3.5-turbo-0125 como o modelo de linguaxe e Serper (dispoñible en https://serper.dev/) como a API de busca de Google.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks