516 lecturas
516 lecturas

La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA

Demasiado Largo; Para Leer

DeepMind introduce LongFact y SAFE, herramientas para medir y mejorar la precisión factual en grandes modelos de lenguaje. SAFE utiliza motores de búsqueda para comprobar las respuestas de la IA, a menudo superando a los anotadores humanos.
featured image - La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA
Language Models (dot tech) HackerNoon profile picture
0-item
y

Los autores:

y

(1) Jerry Wei, Google DeepMind y un contribuyentes de Lead;

y

(2) Chengrun Yang, Google DeepMind y un contribuyente principal;

y

(3) Xinying Song, Google DeepMind y un contribuyentes de Lead;

y

(4) Yifeng Lu, Google DeepMind y un contribuyentes Lead;

y

(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;

y

(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;

y

(7) Dustin Tran, Google DeepMind;

y

(8) Daiyi Peng, Google DeepMind;

y

(9) Ruibo Liu, Google DeepMind;

y

(10) Da Huang, Google DeepMind;

y

(11) Cosmo Du, Google DeepMind;

y

(12) Quoc V. Le, Google DeepMind.

y

Authors:

(1) Jerry Wei, Google DeepMind y un contribuyentes de Lead;

(2) Chengrun Yang, Google DeepMind y un contribuyente principal;

(3) Xinying Song, Google DeepMind y un contribuyentes de Lead;

(4) Yifeng Lu, Google DeepMind y un contribuyentes Lead;

(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;

(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Ruibo Liu, Google DeepMind;

(10) Da Huang, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Abstracto y 1 Introducción

2 LongFact: Usando LLMs para generar un punto de referencia multi-tema para la factualidad de forma larga

3 Seguros: Agentes de LLM como autores de factualidad

4 agentes de LLM pueden ser mejores anotadores de hechos que los humanos

5 F1@k: Extender F1 con la recogida de la longitud preferida por el hombre

6 LLM más grandes son más factuales

7 Trabajo relacionado

8 Limitaciones

9 Conclusión, reconocimientos, contribución del autor y referencias

Appendix

A. Preguntas frecuentes

B. Detalles de LongFact

C. Detalles seguros

Detalles Metricos

E. Análisis adicional

Abstracción

Los grandes modelos de idiomas (LLM) a menudo generan contenido que contiene errores factuales cuando responden a las promesas de búsqueda de hechos en temas abiertos. Para comparar la factualidad de forma larga de un modelo en dominios abiertos, primero utilizamos el GPT-4 para generar LongFact, un conjunto de promptes que contiene miles de preguntas que abarcan 38 temas. Luego proponemos que los agentes de LLM puedan ser utilizados como evaluadores automatizados de la factualidad de forma larga a través de un método que llamamos Search-Augmented Factuality Evaluator (SAFE). SAFE utiliza un LLM para descomponer una respuesta de forma larga en un conjunto de hechos individuales y para evaluar la exactitud de cada hecho utilizando un proceso de razonamiento en múltiples pasos que consiste en enviar consult


Empiricamente, demostramos que los agentes de LLM pueden superar a los anotadores humanos crowdsourced —en un conjunto de ∼16k de hechos individuales, SAFE está de acuerdo con los anotadores humanos crowdsourced el 72% del tiempo, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% del tiempo. Al mismo tiempo, SAFE es más de 20 veces más barato que los anotadores humanos. También comparamos trece modelos de idiomas en LongFact en cuatro familias de modelos (Gemini, GPT, Claude, y PaLM-2), encontrando que los modelos de idiomas más grandes generalmente ofrecen una mejor realidad de forma larga. LongFact, SAFE, y todos los códigos experimentales están disponibles en https://github.com/google-deepmind/longform-


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 Introducción

Los modelos de idiomas grandes (LLM) han mejorado significativamente en los últimos años (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre otros), pero todavía carecen de fiabilidad en responder a preguntas de factualidad en profundidad. En particular, a menudo producen errores de hecho en los que una afirmación contradice el conocimiento de la verdad fundamental establecido (Huang et al., 2023; Zhang et al., 2023, entre otros).[1] Por ejemplo, los modelos pueden responder con información incorrecta sobre hechos establecidos como fechas, estadísticas, o incluso la ocupación de una celebridad (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estos errores de hecho debilitan la factualidad de un modelo de


En este artículo, proponemos un nuevo conjunto de promptos llamado LongFact, un método de evaluación llamado SAFE, y una métrica (F1@K) para cuantificar la factualidad de forma larga de una respuesta de forma larga.


• Utilizamos GPT-4[2] para generar un nuevo conjunto de promptes para el benchmarking de la realidad de forma larga en modelos de idiomas grandes, que llamamos LongFact (Sección 2). LongFact consiste en 2,280 promptes de búsqueda de datos que solicitan respuestas de forma larga en 38 temas seleccionados manualmente. A nuestro conocimiento, LongFact es el primer conjunto de promptes para evaluar la realidad de forma larga en una amplia variedad de dominios. Hemos hecho LongFact disponible públicamente en https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact.


• Proponemos un método de utilizar un agente LLM para evaluar automáticamente la factualidad de forma larga en las respuestas de modelos. Utilizamos el modelo de lenguaje para primero descomponer una respuesta de forma larga en hechos individuales, luego para cada hecho, proponer consultas de verificación de hechos para enviar a una API de búsqueda de Google y razonar sobre si el hecho está respaldado por los resultados de búsqueda (Sección 3). Nombramos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera a los anotadores humanos crowdsourced, acordando con el 72% de las anotaciones humanas de Min et al. (2023) y ganando el 76% de los casos de desacuerdo de una muestra aleatoria de 100 casos de desacuerdos (


• Proponemos que al cuantificar la factualidad de forma larga de una respuesta de modelo, F1 se pueda utilizar a través de un hiperparámetro que estima el número de hechos “ideales” preferido por el hombre en una respuesta. Por lo tanto, introducimos F1@K, que (además de medir la precisión factual de una respuesta como la proporción de hechos respaldados) se recuerda como la proporción de hechos respaldados proporcionados a un número variable deseado de hechos respaldados K.


• Realizamos una extensa evaluación de trece grandes modelos de idiomas en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2) en LongFact (Sección 6).


y

Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed.

y

Este documento esDisponible en Archivobajo la licencia CC 4.0 Deed.

Disponible en Archivo

[1] Nos enfocamos en la factualidad y los errores de hecho, no en la alucinación, ya que nuestro método de evaluación propuesto se centra en determinar si una respuesta es factual con respecto al conocimiento externo establecido (factualidad) en lugar de si la respuesta es consistente con el conocimiento interno del modelo (alucinación).


[2] Utilizamos gpt-4-0613 para GPT-4.


[3] En nuestra implementación de SAFE, usamos gpt-3.5-turbo-0125 como el modelo de idioma y Serper (disponible en https://serper.dev/) como la API de búsqueda de Google.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks