Nueva Historia

La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA

Demasiado Largo; Para Leer

DeepMind introduce LongFact y SAFE, herramientas para medir y mejorar la precisión factual en grandes modelos de lenguaje. SAFE utiliza motores de búsqueda para comprobar las respuestas de la IA, a menudo superando a los anotadores humanos.
featured image - La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA
Language Models (dot tech) HackerNoon profile picture
0-item

Authors:

(1) Jerry Wei, Google DeepMind y a Lead contributors;

(2) Chengrun Yang, Google DeepMind y a Lead contributors;

(3) Xinying Song, Google DeepMind y a Lead contributors;

(4) Yifeng Lu, Google DeepMind y a Lead contributors;

(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;

(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;

Dustin Tran, Google DeepMind;

<(

Los autores:

Los autores:

(1) Jerry Wei, Google DeepMind y un contribuyente de Lead;

(2) Chengrun Yang, Google DeepMind y un contribuyentes de Lead;

(3) Xinying Song, Google DeepMind y los contribuyentes de Lead;

(4) Yifeng Lu, Google DeepMind y un contribuyentes de Lead;

(5) Nathan Hu, Google DeepMind y la Universidad de Stanford;

(6) Jie Huang, Google DeepMind y la Universidad de Illinois en Urbana-Champaign;

(7) Dustin Tran, Google DeepMind;

(8) Daiyi Peng, Google DeepMind;

(9) Ruibo Liu, Google DeepMind;

(10) Gómez Pacheco, Google DeepMind;

(11) Cosmo Du, Google DeepMind;

(12) Quoc V. Le, Google DeepMind.

Tabla de enlaces

Abstract y 1 Introducción

Abstract y 1 Introducción

2 LongFact: Usando LLMs para generar un benchmark multi-tópico para la factualidad de forma larga

2 LongFact: Usando LLMs para generar un benchmark multi-tópico para la factualidad de forma larga

3 Agentes de LLM seguros como autores de la factualidad

3 Safe:LLM agentes como factuality autoraters

4 agentes de LLM pueden ser mejores anotadores de factualidad que los humanos

4 agentes de LLM pueden ser mejores anotadores de la factualidad que los humanos

5 F1@k: Extendiendo F1 con llamado desde longitud humana preferida

5 F1@k: Extendiendo F1 con llamado desde longitud humana preferida

6 LLM más grandes son más factuales

6 LLM más grandes son más factuales

7 Trabajo relacionado

7 Trabajo relacionado

8 Limitaciones

8 Limitaciones

9 Conclusión, Reconocimientos, Contribución del autor y Referencias

9 Conclusión, Reconocimientos, Contribución del autor y Referencias

Apéndice

Apéndice

A. Preguntas frecuentes

A. Preguntas frecuentes

B. detalles LongFact

B. Detalles de LongFact

C. detalles de seguridad

C. detalles de seguridad

D. Detalles métricos

D. Detalles métricos

E. Más análisis

E. Más análisis

abstracto

Los grandes modelos de lenguaje (LLM) a menudo generan contenido que contiene errores factuales cuando responden a las promesas de búsqueda de hechos en temas abiertos. Para comparar la realidad de forma larga de un modelo en dominios abiertos, primero utilizamos el GPT-4 para generar LongFact, un conjunto de preguntas de forma rápida que abarca miles de preguntas que abarcan 38 temas. Luego proponemos que los agentes de LLM puedan ser utilizados como evaluadores automatizados de la realidad de forma larga a través de un método que llamamos Evaluador de la realidad aumentada de búsqueda (SAFE). Además, SAFE utiliza un LLM para descomponer una respuesta de forma larga en un conjunto de hechos individuales y evaluar la exactitud de cada hecho utilizando un proceso de razonamiento en múltiples pasos que consiste en enviar


Empiricamente, demostramos que los agentes de LLM pueden superar a los anotadores humanos crowdsourced —en un conjunto de ∼16k de hechos individuales, SAFE está de acuerdo con los anotadores humanos crowdsourced el 72% del tiempo, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% del tiempo. Al mismo tiempo, SAFE es más de 20 veces más barato que los anotadores humanos. También comparamos trece modelos de idiomas en LongFact en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), encontrando que los modelos de idiomas más grandes generalmente ofrecen una mejor realidad de forma larga. LongFact, SAFE, y todos los códigos experimentales están disponibles en https://github.com/google-deepmind/long


Figura 1: Nuestro evaluador automático de factualidad, SAFE, utiliza un modelo de lenguaje grande para evaluar la factualidad de una respuesta de forma larga a una solicitud dada utilizando Google Search. Demostramos empíricamente que SAFE supera a los anotadores humanos siendo más de 20 veces más barato (Sección 4).

Figura 1: Nuestro evaluador automático de factualidad, SAFE, utiliza un modelo de lenguaje grande para evaluar la factualidad de una respuesta de forma larga a una solicitud dada utilizando Google Search. Demostramos empíricamente que SAFE supera a los anotadores humanos siendo más de 20 veces más barato (Sección 4).

1 INTRODUCCIÓN

Los Grandes Modelos de Lenguaje (LLM) han mejorado significativamente en los últimos años (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre otros), pero todavía carecen de fiabilidad en responder a preguntas de realidad en profundidad. En particular, a menudo producen errores de hecho en los que una afirmación contradice el conocimiento de la verdad fundamental (Huang et al., 2023; Zhang et al., 2023, entre otros).[1] Por ejemplo, los modelos pueden responder con información incorrecta sobre hechos establecidos como fechas, estadísticas, o incluso la ocupación de una celebridad (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estos errores de hecho debilitan la realidad de un modelo de lenguaje,


En este artículo, proponemos un nuevo conjunto de promptos llamado LongFact, un método de evaluación llamado SAFE, y una métrica (F1@K) para cuantificar la factualidad de forma larga de una respuesta de forma larga.


• Utilizamos GPT-4[2] para generar un nuevo conjunto de promptes para el benchmarking de la factualidad de forma larga en modelos de idiomas grandes, que llamamos LongFact (Sección 2). LongFact consiste en 2,280 promptes de búsqueda de datos que solicitan respuestas de forma larga en 38 temas seleccionados manualmente. A nuestro conocimiento, LongFact es el primer conjunto de promptes para evaluar la factualidad de forma larga en una amplia variedad de dominios. Hemos hecho LongFact disponible públicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.


• Proponemos un método de utilizar un agente LLM para evaluar automáticamente la factualidad de forma larga en las respuestas de modelos. Utilizamos el modelo de lenguaje para primero descomponer una respuesta de forma larga en hechos individuales, luego para cada hecho, proponer consultas de verificación de hechos para enviar a una API de búsqueda de Google y razonar sobre si el hecho está respaldado por los resultados de búsqueda (Sección 3). Nombramos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera a los anotadores humanos crowdsourced, aceptando el 72% de las anotaciones humanas de Min et al. (2023) y ganando el 76% de los casos de desacuerdo de una muestra aleatoria de 100 casos de desacuer


• Proponemos que al cuantificar la factualidad de forma larga de una respuesta de modelo, F1 se pueda utilizar a través de un hiperparámetro que estima el número "ideal" preferido por el hombre de hechos en una respuesta.Por lo tanto, introducimos F1@K, que (además de medir la precisión factual de una respuesta como la proporción de hechos respaldados) medidas recuerdan como la proporción de hechos respaldados proporcionados a un número variable deseado de hechos respaldados K.


• Realizamos una extensa evaluación de treinta grandes modelos de idiomas en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2) en LongFact (Sección 6).Evaluamos las respuestas de los modelos utilizando SAFE y cuantificamos el rendimiento utilizando F1@K, encontrando que, en general, los modelos de idiomas más grandes logran una mejor factualidad de long-form.


Este documento es disponible en arxiv bajo CC by 4.0 Deed license.

Este artículo es disponible en arxiv bajo CC por 4.0 Deed license.

disponible en arxivdisponible en arxiv«RR»

[1] Nos enfocamos en la factualidad y los errores de hecho, no en la alucinación, ya que nuestro método de evaluación propuesto se centra en determinar si una respuesta es factual con respecto al conocimiento externo establecido (factualidad) en lugar de si la respuesta es consistente con el conocimiento interno del modelo (alucinación).


[2] Utilizamos gpt-4-0613 para GPT-4.


En nuestra implementación de SAFE, usamos gpt-3.5-turbo-0125 como el modelo de idioma y Serper (disponible en https://serper.dev/) como la API de búsqueda de Google.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks