Autores:
(1) Jerry Wei, Google DeepMind e os seus contribuíntes principais;
(2) Chengrun Yang, Google DeepMind e os seus contribuíntes principais;
(3) Xinying Song, Google DeepMind e os seus contribuíntes principais;
(4) Yifeng Lu, Google DeepMind e os seus contribuíntes principais;
(5) Nathan Hu, Google DeepMind e a Universidade de Stanford;
(6) Jie Huang, Google DeepMind e a Universidade de Illinois en Urbana-Champaign;
Dustin Tran, Google DeepMind;
<(Os autores:
Páxinas que ligan con:(1) Jerry Wei, Google DeepMind e un contribuínte de Lead;
(2) Chengrun Yang, Google DeepMind e un contribuínte de Lead;
(3) Xinying Song, Google DeepMind e os contribuíntes de Lead;
(4) Yifeng Lu, Google DeepMind e un contribuínte de Lead;
(5) Nathan Hu, Google DeepMind e Universidade de Stanford;
(6) Jie Huang, Google DeepMind e Universidade de Illinois en Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Xesús Xesús, Google DeepMind;
(10) Da Huang, Google DeepMind;
(11) Xesús de Nazaret, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Táboa de ligazóns
Abstract e 1 Introdución2 LongFact: Usando LLMs para xerar un benchmark multi-tópico para long-form factuality
2 LongFact: Usando LLMs para xerar un benchmark multi-tópico para long-form factuality3 Axentes de seguridade:LLM como autoras de factualidade
3 Safe:LLM axentes como factualidade autoraters4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos
4 axentes de LLM poden ser mellores anotadores de factualidade que os humanos5 F1@k: Estendendo F1 con recall desde lonxitude humana preferida
5 F1@k: Estendendo F1 con recall desde lonxitude humana preferida6 LLMs máis grandes son máis factuais
6 LLMs máis grandes son máis factuais7 Traballo relacionado8 Limitacións9 Conclusións, Recoñecementos, Contribución do autor, e Referencias
9 Conclusións, Recoñecementos, Contribución do autor e referenciasAnexo
Anexo A. Preguntas máis frecuentesB. detalles LongFactC. detalles de seguridadeD. Detalles métricosE. Máis análiseAbsolución
Os grandes modelos de linguaxe (LLM) xeran con frecuencia contido que contén erros factuais cando responden a prompts de busca de feitos en temas abertos. Para comparar a factualidade de longo prazo dun modelo en dominios abertos, usamos primeiro o GPT-4 para xerar LongFact, un conxunto de preguntas de longo prazo que inclúe miles de preguntas que abranguen 38 temas. Logo propoñemos que os axentes de LLM poidan ser usados como avaliadores automatizados para a factualidade de longo prazo a través dun método que chamamos SAFE (Search-Augmented Factuality Evaluator). SAFE utiliza un LLM para dividir unha resposta de longo prazo en un conxunto de feitos individuais e para avaliar a exactitude de cada feito usando un proceso de razoamento multipaso
Empiricamente, demostramos que os axentes de LLM poden superar os anotadores humanos de crowdsourcing - nun conxunto de ∼16k feitos individuais, SAFE concorda con anotadores humanos de crowdsourcing 72% do tempo, e nun subconxunto aleatorio de 100 casos de desacordo, SAFE gaña 76% do tempo. Ao mesmo tempo, SAFE é máis de 20 veces máis barato que os anotadores humanos. Tamén comparamos trece modelos de linguaxe en LongFact en catro familias de modelos (Gemini, GPT, Claude e PaLM-2), descubrindo que os modelos de linguaxe máis grandes xeralmente logran unha mellor long-form factuality. LongFact, SAFE e todos os códigos experimentais están dispoñibles en https://github.com/google-deepmind/long-
1 Introdución
Os grandes modelos de linguaxe (LLM) melloraron significativamente nos últimos anos (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre outros), pero aínda carecen de fiabilidade para responder a preguntas de factualidade en profundidade. En particular, a miúdo producen erros factuais nos que unha afirmación contradí os coñecementos fundamentais establecidos (Huang et al., 2023; Zhang et al., 2023, entre outros).[1] Por exemplo, os modelos poden responder con información incorrecta sobre feitos establecidos como datas, estatísticas ou mesmo a ocupación dunha celebridade (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023).
• Usamos GPT-4[2] para xerar un novo conxunto de prompts para benchmarking long-form factuality en grandes modelos de linguaxe, que chamamos LongFact (Sección 2). LongFact consiste en 2,280 prompts de busca de feito que solicitan respostas long-form en 38 temas seleccionados manualmente. Ao noso coñecemento, LongFact é o primeiro conxunto de prompts para avaliar long-form factuality nunha ampla variedade de dominios. Facemos LongFact dispoñible publicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.
• Propoñemos un método de utilizar un axente LLM para avaliar automaticamente a factualidade de forma longa nas respostas do modelo. Usamos o modelo de linguaxe para primeiro descompoñer unha resposta de forma longa en feitos individuais, a continuación, para cada feito, propoñer consultas de verificación de feitos para enviar a unha API de busca de Google e razoar se o feito é soportado polos resultados da busca (Sección 3). Nomeamos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera os anotadores humanos de crowdsourcing, aceptando o 72% das anotacións humanas de Min et al. (2023) e gañando o 76% dos casos de desacordo dunha mostra aleatoria de 100 casos de desacordo (Sección 4). SAFE tamén
• Propoñemos que ao cuantificar a factualidade de forma longa dunha resposta modelo, F1 poida utilizarse a través dun hiperparámetro que estima o número "ideal" de feitos preferido por humanos nunha resposta.
• Realizamos unha extensa avaliación de trece grandes modelos de linguaxe en catro familias de modelos (Gemini, GPT, Claude e PaLM-2) en LongFact (Sección 6).
Este artigo é
Este artigo é
[2] Usamos gpt-4-0613 para GPT-4.