Authors:
(1) Jerry Wei, Google DeepMind y a Lead contributors;
(2) Chengrun Yang, Google DeepMind y a Lead contributors;
(3) Xinying Song, Google DeepMind y a Lead contributors;
(4) Yifeng Lu, Google DeepMind y a Lead contributors;
(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;
(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;
Dustin Tran, Google DeepMind;
<(Los autores:
Los autores:(1) Jerry Wei, Google DeepMind y un contribuyente de Lead;
(2) Chengrun Yang, Google DeepMind y un contribuyentes de Lead;
(3) Xinying Song, Google DeepMind y los contribuyentes de Lead;
(4) Yifeng Lu, Google DeepMind y un contribuyentes de Lead;
(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;
(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Ruibo Liu, Google DeepMind;
(10) Gómez Pacheco, Google DeepMind;
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Tabla de enlaces
Abstract y 1 Introducción2 LongFact: Usando LLMs para generar un benchmark multi-tópico para la factualidad de forma larga
2 LongFact: Usando LLMs para generar un benchmark multi-tópico para la factualidad de forma larga3 Agentes de LLM seguros como autores de la factualidad
3 Safe:LLM agentes como factuality autoraters4 agentes de LLM pueden ser mejores anotadores de factualidad que los humanos
4 agentes de LLM pueden ser mejores anotadores de la factualidad que los humanos5 F1@k: Extendiendo F1 con llamado desde longitud humana preferida
5 F1@k: Extendiendo F1 con llamado desde longitud humana preferida6 LLM más grandes son más factuales
6 LLM más grandes son más factuales7 Trabajo relacionado8 Limitaciones9 Conclusión, Reconocimientos, Contribución del autor y Referencias
9 Conclusión, Reconocimientos, Contribución del autor y ReferenciasApéndice
Apéndice A. Preguntas frecuentesB. Detalles de LongFactC. detalles de seguridadD. Detalles métricosE. Más análisisabstracto
Los grandes modelos de lenguaje (LLM) a menudo generan contenido que contiene errores factuales cuando responden a las promesas de búsqueda de hechos en temas abiertos. Para comparar la realidad de forma larga de un modelo en dominios abiertos, primero utilizamos el GPT-4 para generar LongFact, un conjunto de preguntas de forma rápida que abarca miles de preguntas que abarcan 38 temas. Luego proponemos que los agentes de LLM puedan ser utilizados como evaluadores automatizados de la realidad de forma larga a través de un método que llamamos Evaluador de la realidad aumentada de búsqueda (SAFE). Además, SAFE utiliza un LLM para descomponer una respuesta de forma larga en un conjunto de hechos individuales y evaluar la exactitud de cada hecho utilizando un proceso de razonamiento en múltiples pasos que consiste en enviar
Empiricamente, demostramos que los agentes de LLM pueden superar a los anotadores humanos crowdsourced —en un conjunto de ∼16k de hechos individuales, SAFE está de acuerdo con los anotadores humanos crowdsourced el 72% del tiempo, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% del tiempo. Al mismo tiempo, SAFE es más de 20 veces más barato que los anotadores humanos. También comparamos trece modelos de idiomas en LongFact en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), encontrando que los modelos de idiomas más grandes generalmente ofrecen una mejor realidad de forma larga. LongFact, SAFE, y todos los códigos experimentales están disponibles en https://github.com/google-deepmind/long
1 INTRODUCCIÓN
Los Grandes Modelos de Lenguaje (LLM) han mejorado significativamente en los últimos años (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre otros), pero todavía carecen de fiabilidad en responder a preguntas de realidad en profundidad. En particular, a menudo producen errores de hecho en los que una afirmación contradice el conocimiento de la verdad fundamental (Huang et al., 2023; Zhang et al., 2023, entre otros).[1] Por ejemplo, los modelos pueden responder con información incorrecta sobre hechos establecidos como fechas, estadísticas, o incluso la ocupación de una celebridad (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estos errores de hecho debilitan la realidad de un modelo de lenguaje,
En este artículo, proponemos un nuevo conjunto de promptos llamado LongFact, un método de evaluación llamado SAFE, y una métrica (F1@K) para cuantificar la factualidad de forma larga de una respuesta de forma larga.
• Utilizamos GPT-4[2] para generar un nuevo conjunto de promptes para el benchmarking de la factualidad de forma larga en modelos de idiomas grandes, que llamamos LongFact (Sección 2). LongFact consiste en 2,280 promptes de búsqueda de datos que solicitan respuestas de forma larga en 38 temas seleccionados manualmente. A nuestro conocimiento, LongFact es el primer conjunto de promptes para evaluar la factualidad de forma larga en una amplia variedad de dominios. Hemos hecho LongFact disponible públicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.
• Proponemos un método de utilizar un agente LLM para evaluar automáticamente la factualidad de forma larga en las respuestas de modelos. Utilizamos el modelo de lenguaje para primero descomponer una respuesta de forma larga en hechos individuales, luego para cada hecho, proponer consultas de verificación de hechos para enviar a una API de búsqueda de Google y razonar sobre si el hecho está respaldado por los resultados de búsqueda (Sección 3). Nombramos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera a los anotadores humanos crowdsourced, aceptando el 72% de las anotaciones humanas de Min et al. (2023) y ganando el 76% de los casos de desacuerdo de una muestra aleatoria de 100 casos de desacuer
• Proponemos que al cuantificar la factualidad de forma larga de una respuesta de modelo, F1 se pueda utilizar a través de un hiperparámetro que estima el número "ideal" preferido por el hombre de hechos en una respuesta.Por lo tanto, introducimos F1@K, que (además de medir la precisión factual de una respuesta como la proporción de hechos respaldados) medidas recuerdan como la proporción de hechos respaldados proporcionados a un número variable deseado de hechos respaldados K.
• Realizamos una extensa evaluación de treinta grandes modelos de idiomas en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2) en LongFact (Sección 6).Evaluamos las respuestas de los modelos utilizando SAFE y cuantificamos el rendimiento utilizando F1@K, encontrando que, en general, los modelos de idiomas más grandes logran una mejor factualidad de long-form.
Este documento es
Este artículo es
[1] Nos enfocamos en la factualidad y los errores de hecho, no en la alucinación, ya que nuestro método de evaluación propuesto se centra en determinar si una respuesta es factual con respecto al conocimiento externo establecido (factualidad) en lugar de si la respuesta es consistente con el conocimiento interno del modelo (alucinación).
[2] Utilizamos gpt-4-0613 para GPT-4.