Los autores:
y(1) Jerry Wei, Google DeepMind y un contribuyentes de Lead;
y(2) Chengrun Yang, Google DeepMind y un contribuyente principal;
y(3) Xinying Song, Google DeepMind y un contribuyentes de Lead;
y(4) Yifeng Lu, Google DeepMind y un contribuyentes Lead;
y(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;
y(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;
y(7) Dustin Tran, Google DeepMind;
y(8) Daiyi Peng, Google DeepMind;
y(9) Ruibo Liu, Google DeepMind;
y(10) Da Huang, Google DeepMind;
y(11) Cosmo Du, Google DeepMind;
y(12) Quoc V. Le, Google DeepMind.
yAuthors:
(1) Jerry Wei, Google DeepMind y un contribuyentes de Lead;
(2) Chengrun Yang, Google DeepMind y un contribuyente principal;
(3) Xinying Song, Google DeepMind y un contribuyentes de Lead;
(4) Yifeng Lu, Google DeepMind y un contribuyentes Lead;
(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;
(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;
(7) Dustin Tran, Google DeepMind;
(8) Daiyi Peng, Google DeepMind;
(9) Ruibo Liu, Google DeepMind;
(10) Da Huang, Google DeepMind;
(11) Cosmo Du, Google DeepMind;
(12) Quoc V. Le, Google DeepMind.
Mesa de la izquierda
3 Seguros: Agentes de LLM como autores de factualidad
4 agentes de LLM pueden ser mejores anotadores de hechos que los humanos
5 F1@k: Extender F1 con la recogida de la longitud preferida por el hombre
6 LLM más grandes son más factuales
9 Conclusión, reconocimientos, contribución del autor y referencias
Appendix
Abstracción
Los grandes modelos de idiomas (LLM) a menudo generan contenido que contiene errores factuales cuando responden a las promesas de búsqueda de hechos en temas abiertos. Para comparar la factualidad de forma larga de un modelo en dominios abiertos, primero utilizamos el GPT-4 para generar LongFact, un conjunto de promptes que contiene miles de preguntas que abarcan 38 temas. Luego proponemos que los agentes de LLM puedan ser utilizados como evaluadores automatizados de la factualidad de forma larga a través de un método que llamamos Search-Augmented Factuality Evaluator (SAFE). SAFE utiliza un LLM para descomponer una respuesta de forma larga en un conjunto de hechos individuales y para evaluar la exactitud de cada hecho utilizando un proceso de razonamiento en múltiples pasos que consiste en enviar consult
Empiricamente, demostramos que los agentes de LLM pueden superar a los anotadores humanos crowdsourced —en un conjunto de ∼16k de hechos individuales, SAFE está de acuerdo con los anotadores humanos crowdsourced el 72% del tiempo, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% del tiempo. Al mismo tiempo, SAFE es más de 20 veces más barato que los anotadores humanos. También comparamos trece modelos de idiomas en LongFact en cuatro familias de modelos (Gemini, GPT, Claude, y PaLM-2), encontrando que los modelos de idiomas más grandes generalmente ofrecen una mejor realidad de forma larga. LongFact, SAFE, y todos los códigos experimentales están disponibles en https://github.com/google-deepmind/longform-
1 Introducción
Los modelos de idiomas grandes (LLM) han mejorado significativamente en los últimos años (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre otros), pero todavía carecen de fiabilidad en responder a preguntas de factualidad en profundidad. En particular, a menudo producen errores de hecho en los que una afirmación contradice el conocimiento de la verdad fundamental establecido (Huang et al., 2023; Zhang et al., 2023, entre otros).[1] Por ejemplo, los modelos pueden responder con información incorrecta sobre hechos establecidos como fechas, estadísticas, o incluso la ocupación de una celebridad (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estos errores de hecho debilitan la factualidad de un modelo de
En este artículo, proponemos un nuevo conjunto de promptos llamado LongFact, un método de evaluación llamado SAFE, y una métrica (F1@K) para cuantificar la factualidad de forma larga de una respuesta de forma larga.
• Utilizamos GPT-4[2] para generar un nuevo conjunto de promptes para el benchmarking de la realidad de forma larga en modelos de idiomas grandes, que llamamos LongFact (Sección 2). LongFact consiste en 2,280 promptes de búsqueda de datos que solicitan respuestas de forma larga en 38 temas seleccionados manualmente. A nuestro conocimiento, LongFact es el primer conjunto de promptes para evaluar la realidad de forma larga en una amplia variedad de dominios. Hemos hecho LongFact disponible públicamente en https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.
• Proponemos un método de utilizar un agente LLM para evaluar automáticamente la factualidad de forma larga en las respuestas de modelos. Utilizamos el modelo de lenguaje para primero descomponer una respuesta de forma larga en hechos individuales, luego para cada hecho, proponer consultas de verificación de hechos para enviar a una API de búsqueda de Google y razonar sobre si el hecho está respaldado por los resultados de búsqueda (Sección 3). Nombramos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera a los anotadores humanos crowdsourced, acordando con el 72% de las anotaciones humanas de Min et al. (2023) y ganando el 76% de los casos de desacuerdo de una muestra aleatoria de 100 casos de desacuerdos (
• Proponemos que al cuantificar la factualidad de forma larga de una respuesta de modelo, F1 se pueda utilizar a través de un hiperparámetro que estima el número de hechos “ideales” preferido por el hombre en una respuesta. Por lo tanto, introducimos F1@K, que (además de medir la precisión factual de una respuesta como la proporción de hechos respaldados) se recuerda como la proporción de hechos respaldados proporcionados a un número variable deseado de hechos respaldados K.
• Realizamos una extensa evaluación de trece grandes modelos de idiomas en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2) en LongFact (Sección 6).
Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed.
yEste documento es
[1] Nos enfocamos en la factualidad y los errores de hecho, no en la alucinación, ya que nuestro método de evaluación propuesto se centra en determinar si una respuesta es factual con respecto al conocimiento externo establecido (factualidad) en lugar de si la respuesta es consistente con el conocimiento interno del modelo (alucinación).
[2] Utilizamos gpt-4-0613 para GPT-4.
[3] En nuestra implementación de SAFE, usamos gpt-3.5-turbo-0125 como el modelo de idioma y Serper (disponible en https://serper.dev/) como la API de búsqueda de Google.