Os autores:
que(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;
que(2) Chengrun Yang, Google DeepMind e un contribuínte principal;
que(3) Xinying Song, Google DeepMind e un contribuínte Lead;
que(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;
que(5) Nathan Hu, Google DeepMind e Universidade de Stanford;
que(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;
que(7) Dustin Tran, Google DeepMind;
que(8) Daiyi Peng, Google DeepMind
que(9) Ruibo Liu, Google DeepMind;
que(10) Da Huang, Google DeepMind
que(11) Cosmo Du, Google DeepMind;
que(12) Quoc V. Le, Google DeepMind.
queAuthors:
(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;
(2) Chengrun Yang, Google DeepMind e un contribuínte principal;
(3) Xinying Song, Google DeepMind e un contribuínte Lead;
(4) Yifeng Lu, Google DeepMind e un contribuínte Lead;
(5) Nathan Hu, Google DeepMind e Universidade de Stanford;
(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind
(9) Ruibo Liu, Google DeepMind;
(10) Da Huang, Google DeepMind
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Mesa da esquerda
3 Axentes seguros: LLM como autoradores de factualidade
4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos
5 F1@k: Extender F1 con recall desde a lonxitude preferida polo ser humano
6 LLM máis grandes son máis factuais
9 Conclusión, recoñecemento, contribución do autor e referencias
Appendix
Abstraccións
Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de prompts que inclúe miles de preguntas que abranguen 38 temas. A continuación, propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos Avaliación de Factualidade Aumentada de Busca (SAFE). A SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso
Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente ofrecen unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-form-fac
1 Introdución
Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estes erros factuais debilitan a factualidade dun modelo de linguaxe,
Neste artigo, propoñemos un novo conxunto de indicacións chamado LongFact, un método de avaliación chamado SAFE, e unha métrica (F1@K) para cuantificar a factualidade de forma longa dunha resposta de forma longa.
• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking de long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas de long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar a long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.
• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, logo para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos crowdsourced, de acordo co 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén é 20x máis barato
• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número de feitos "ideais" preferido por humanos nunha resposta.
• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).
Este artigo está dispoñible en arquivo baixo a licenza CC 4.0 Deed.
queEste documento é
[1] Centrámonos na factualidade e os erros factuais, non na alucinación, xa que o noso método de avaliación proposto céntrase en determinar se unha resposta é factual con respecto ao coñecemento externo establecido (factualidade) en vez de se a resposta é consistente co coñecemento interno do modelo (alucinación).
[2] Usamos gpt-4-0613 para GPT-4.
[3] Na nosa implementación de SAFE, usamos gpt-3.5-turbo-0125 como o modelo de linguaxe e Serper (dispoñible en https://serper.dev/) como a API de busca de Google.