La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA

Apéndice A. Preguntas frecuentes
A. Preguntas frecuentes
B. detalles LongFact
B. Detalles de LongFact
C. detalles de seguridad
C. detalles de seguridad
D. Detalles métricos
D. Detalles métricos
E. Más análisis
E. Más análisis
abstracto
Los grandes modelos de lenguaje (LLM) a menudo generan contenido que contiene errores factuales cuando responden a las promesas de búsqueda de hechos en temas abiertos. Para comparar la realidad de forma larga de un modelo en dominios abiertos, primero utilizamos el GPT-4 para generar LongFact, un conjunto de preguntas de forma rápida que abarca miles de preguntas que abarcan 38 temas. Luego proponemos que los agentes de LLM puedan ser utilizados como evaluadores automatizados de la realidad de forma larga a través de un método que llamamos Evaluador de la realidad aumentada de búsqueda (SAFE). Además, SAFE utiliza un LLM para descomponer una respuesta de forma larga en un conjunto de hechos individuales y evaluar la exactitud de cada hecho utilizando un proceso de razonamiento en múltiples pasos que consiste en enviar

Empiricamente, demostramos que los agentes de LLM pueden superar a los anotadores humanos crowdsourced —en un conjunto de ∼16k de hechos individuales, SAFE está de acuerdo con los anotadores humanos crowdsourced el 72% del tiempo, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% del tiempo. Al mismo tiempo, SAFE es más de 20 veces más barato que los anotadores humanos. También comparamos trece modelos de idiomas en LongFact en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), encontrando que los modelos de idiomas más grandes generalmente ofrecen una mejor realidad de forma larga. LongFact, SAFE, y todos los códigos experimentales están disponibles en https://github.com/google-deepmind/long

1 INTRODUCCIÓN
Los Grandes Modelos de Lenguaje (LLM) han mejorado significativamente en los últimos años (Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, entre otros), pero todavía carecen de fiabilidad en responder a preguntas de realidad en profundidad. En particular, a menudo producen errores de hecho en los que una afirmación contradice el conocimiento de la verdad fundamental (Huang et al., 2023; Zhang et al., 2023, entre otros).[1] Por ejemplo, los modelos pueden responder con información incorrecta sobre hechos establecidos como fechas, estadísticas, o incluso la ocupación de una celebridad (Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023). Estos errores de hecho debilitan la realidad de un modelo de lenguaje,

En este artículo, proponemos un nuevo conjunto de promptos llamado LongFact, un método de evaluación llamado SAFE, y una métrica (F1@K) para cuantificar la factualidad de forma larga de una respuesta de forma larga.

• Utilizamos GPT-4[2] para generar un nuevo conjunto de promptes para el benchmarking de la factualidad de forma larga en modelos de idiomas grandes, que llamamos LongFact (Sección 2). LongFact consiste en 2,280 promptes de búsqueda de datos que solicitan respuestas de forma larga en 38 temas seleccionados manualmente. A nuestro conocimiento, LongFact es el primer conjunto de promptes para evaluar la factualidad de forma larga en una amplia variedad de dominios. Hemos hecho LongFact disponible públicamente en https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.

• Proponemos un método de utilizar un agente LLM para evaluar automáticamente la factualidad de forma larga en las respuestas de modelos. Utilizamos el modelo de lenguaje para primero descomponer una respuesta de forma larga en hechos individuales, luego para cada hecho, proponer consultas de verificación de hechos para enviar a una API de búsqueda de Google y razonar sobre si el hecho está respaldado por los resultados de búsqueda (Sección 3). Nombramos este método SAFE (Search-Augmented Factuality Evaluator).[3] Empiricamente, SAFE supera a los anotadores humanos crowdsourced, aceptando el 72% de las anotaciones humanas de Min et al. (2023) y ganando el 76% de los casos de desacuerdo de una muestra aleatoria de 100 casos de desacuer

• Proponemos que al cuantificar la factualidad de forma larga de una respuesta de modelo, F1 se pueda utilizar a través de un hiperparámetro que estima el número "ideal" preferido por el hombre de hechos en una respuesta.Por lo tanto, introducimos F1@K, que (además de medir la precisión factual de una respuesta como la proporción de hechos respaldados) medidas recuerdan como la proporción de hechos respaldados proporcionados a un número variable deseado de hechos respaldados K.

• Realizamos una extensa evaluación de treinta grandes modelos de idiomas en cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2) en LongFact (Sección 6).Evaluamos las respuestas de los modelos utilizando SAFE y cuantificamos el rendimiento utilizando F1@K, encontrando que, en general, los modelos de idiomas más grandes logran una mejor factualidad de long-form.

Este documento es disponible en arxiv bajo CC by 4.0 Deed license.

Este artículo es disponible en arxiv bajo CC por 4.0 Deed license.
disponible en arxivdisponible en arxiv«RR»
[1] Nos enfocamos en la factualidad y los errores de hecho, no en la alucinación, ya que nuestro método de evaluación propuesto se centra en determinar si una respuesta es factual con respecto al conocimiento externo establecido (factualidad) en lugar de si la respuesta es consistente con el conocimiento interno del modelo (alucinación).

[2] Utilizamos gpt-4-0613 para GPT-4.

En nuestra implementación de SAFE, usamos gpt-3.5-turbo-0125 como el modelo de idioma y Serper (disponible en https://serper.dev/) como la API de búsqueda de Google.

La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA

Demasiado Largo; Para Leer

Tabla de enlaces

abstracto

1 INTRODUCCIÓN

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

La prueba de la verdad de la IA: Nuevo estudio prueba la precisión de 13 modelos principales de IA

Demasiado Largo; Para Leer

Tabla de enlaces

abstracto

1 INTRODUCCIÓN

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics