A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Anexo A. Preguntas máis frecuentes
A. Preguntas máis frecuentes
B. detalles LongFact
B. detalles LongFact
C. detalles de seguridade
C. detalles de seguridade
D. Detalles métricos
D. Detalles métricos
E. Máis análise
E. Máis análise
Absolución
Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de preguntas de longo prazo que inclúe miles de preguntas que abranguen 38 temas. Logo propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos SAFE (Search-Augmented Factuality Evaluator). SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso

Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente logran unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-

1 Introdución
Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023).

Neste artigo, propoñemos un novo conxunto de indicacións chamado LongFact, un método de avaliación chamado SAFE e unha métrica (F1@K) para cuantificar a factualidade de forma longa dunha resposta de forma longa.

• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.

• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, a continuación, para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos de crowdsourcing, aceptando o 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén

• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número "ideal" de feitos preferido por humanos nunha resposta.

• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).

Este artigo é dispoñible en arxiv baixo a licenza CC by 4.0 Deed.

Este artigo é dispoñible en arxiv baixo CC por 4.0 Deed license.
disponible en arxivdisponible en arxiv> RR[1] Concentrámonos na factualidade e os erros factuais, non nas alucinacións, xa que o noso método de avaliación proposto céntrase en determinar se unha resposta é factual con respecto ao coñecemento externo establecido (factualidade) en vez de se a resposta é consistente co coñecemento interno do modelo (alucinación).

[2] Usamos gpt-4-0613 para GPT-4.

Na nosa implementación de SAFE, usamos gpt-3.5-turbo-0125 como o modelo de linguaxe e Serper (dispoñible en https://serper.dev/) como a API de busca de Google.

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

Táboa de ligazóns

Absolución

1 Introdución

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

A proba de verdade de IA: novo estudo proba a precisión de 13 grandes modelos de IA

Demasiado longo; Ler

Táboa de ligazóns

Absolución

1 Introdución

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics