Cuando se etiquetan los chatbots de IA, el contexto es una espada de doble borde

Autores:

(1) Clemencia Siro, Universidad de Ámsterdam, Holanda;

(2) Mohammad Aliannejadi, Universidad de Ámsterdam, Holanda;

(3) Maarten de Rijke, Universidad de Ámsterdam, Holanda.

Los autores:

(1) Clemencia Siro, Universidad de Amsterdam, Ámsterdam, Países Bajos;

(2) Mohammad Aliannejadi, Universidad de Ámsterdam, Ámsterdam, Países Bajos;

(3) Maarten de Rijke, Universidad de Ámsterdam, Holanda.

Tabla de enlaces

Abstract y 1 Introducción

2 Metodología y 2.1 Datos experimentales y tareas

2.2 Generación automática de diversos contextos de diálogo

2.3 Crowdsource experimentos

2.3 Experimentos de Crowdsource

2.4 Condiciones experimentales

2.5 Participantes

3 Resultados y análisis y 3.1 Estadísticas de datos

3 Resultados y Análisis y 3.1 Estadísticas de Datos

3.2 RQ1: Efecto de variar la cantidad de contexto de diálogo

3.3 RQ2: Efecto del contexto de diálogo generado automáticamente

4 Discusión e Implicaciones

5 Trabajo relacionado

6 Conclusiones, Limitaciones y Consideraciones Éticas

6 Conclusiones, limitaciones y consideraciones éticas

7 Reconocimientos y Referencias

A. Apéndice

abstracción

Las etiquetas contextualizadas juegan un papel crucial en la evaluación de los sistemas de diálogo orientados a tareas (TDS). Obtener etiquetas de verdad fundamental de alta calidad y consistente de los anotadores presenta desafíos. Al evaluar un TDS, los anotadores deben comprender plenamente el diálogo antes de proporcionar juicios. Estudios previos sugieren utilizar solo una parte del contexto de diálogo en el proceso de anotación. Sin embargo, el impacto de esta limitación en la calidad de la etiqueta sigue siendo inexplorado. Este estudio investiga la influencia del contexto de diálogo en la calidad de la anotación, considerando el contexto truncado para la relevancia y la utilidad del etiquetado. Además, sugerimos utilizar modelos de idiomas grandes (MLLs) para resumir el contexto de diálogo para proporcionar

1 Introducción

Con los recientes avances en modelos de idiomas pre-entrenados y grandes modelos de idiomas (LLM), los sistemas de diálogo orientados a tareas (TDS) han redefinido la forma en que las personas buscan información, presentando un enfoque más natural para que los usuarios interactúen con fuentes de información (Budzianowski y Vulic ́, 2019; Wu et al., 2020). A medida que los TDS se vuelven cada vez más integrales a los procesos de búsqueda de información, la cuestión de cómo evaluar de forma precisa y efectiva su rendimiento se vuelve crítica. Debido a la mala correlación de las métricas automáticas con las etiquetas generadas por humanos (Deriu et al., 2021), la evaluación de los TDS ha cambiado hacia depender de las calificaciones de los usuarios o de las etiquetas de

Diversas técnicas de crowdsourcing se han empleado para recopilar etiquetas de verdad básica, como el etiquetado secuencial (Sun et al., 2021), donde los anotadores pasan por cada pronunciación y las anotan uno por uno. Este enfoque introduce ciertos riesgos en el proceso de anotación, como la fatiga de los anotadores y la alta carga cognitiva en diálogos extra-longos, lo que les obliga a recordar y rastrear el estado del diálogo a medida que anotan las declaraciones (Siro et al., 2022).

Para abordar este problema, otra línea de investigación propone que se muestren aleatoriamente solo unas pocas declaraciones en cada diálogo a anotar (Mehri y Eskenazi, 2020; Siro et al., 2022, 2023). Al abordar la alta carga cognitiva y la fatiga, limitar la comprensión de los anotadores del diálogo plantea riesgos evidentes, como etiquetas poco fiables y prejuiciosas (Schmitt y Ultes, 2015; Siro et al., 2022). En particular, la cantidad de contexto de diálogo puede conducir a prejuicios. Por ejemplo, los anotadores que carecen de un contexto rico pueden inclinarse involuntariamente hacia calificaciones positivas o negativas, negligenciando la calidad más amplia de la respuesta. Por lo tanto, ofrecer a los anotadores un contexto demasiado pequeño corre el riesgo de

Prior trabajo ha investigado factores que afectan a la calidad y la coherencia de las etiquetas de evaluación crowdsourced, incluidas las características de los anotadores, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 Diseño de tareas, carga cognitiva y protocolos de evaluación (véase, por ejemplo, Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020).

En este estudio, buscamos abordar esta brecha de investigación investigando cómo diferentes cantidades de información contextual afectan a la calidad y la coherencia de las etiquetas crowdsourced para TDSs, contribuyendo a comprender el impacto de tales opciones de diseño.

Para abordar el desafío del contexto insuficiente en el nivel de turno, proponemos utilizar métodos heurísticos y LLMs para generar la necesidad de información del usuario y el resumen del diálogo. Los LLMs pueden desempeñar el papel de asistentes de anotación (Faggioli et al., 2023) sumando el historial del diálogo, facilitando una comprensión más eficiente y efectiva del contexto del diálogo antes de anotar una pronunciación. Para este fin, utilizamos el GPT-4 para la sumisión del contexto del diálogo y comparar el rendimiento de los anotadores en diferentes condiciones, así como en diferentes tamaños de contexto. A través de estos experimentos, respondemos a dos preguntas principales: (RQ1) ¿Cómo afecta la cantidad variable de contexto del diálogo a la evaluación de la multitud de TDS? (RQ2)

Nuestros hallazgos revelan que la disponibilidad del contexto de diálogo anterior influye significativamente en las calificaciones de los anotadores, con un impacto notable en su calidad. Sin contexto previo, los anotadores tienden a asignar calificaciones más positivas a las respuestas del sistema, posiblemente debido a la insuficiente evidencia para la penalización, introduciendo un bias de positividad. En contraste, presentar todo el contexto de diálogo produce calificaciones de relevancia más altas. En cuanto a la utilidad, presentar todo el contexto de diálogo introduce ambigüedad y baja ligeramente el acuerdo del anotador. Esto destaca el delicado equilibrio en la información contextual proporcionada para las evaluaciones. La inclusión de un contexto de diálogo generado automáticamente mejora el acuerdo del anotador en la condición

Nuestros hallazgos se extienden a otras tareas de conversación orientadas a tareas como la búsqueda de conversación y la incitación de preferencias, ambos basándose en experimentos de crowdsourcing para evaluar el rendimiento del sistema.

Este documento es disponible en archiv bajo la licencia CC BY 4.0 DEED.

Este artículo es disponible en arxiv bajo la licencia CC BY 4.0 DEED.

disponible en archiv«RR»

[1] Para fomentar la investigación en esta área, publicamos nuestros datos en https://github.com/Clemenciah/ Effects-of-Dialogue-Context

Cuando se etiquetan los chatbots de IA, el contexto es una espada de doble borde

Demasiado Largo; Para Leer

Tabla de enlaces

abstracción

1 Introducción

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

Cuando se etiquetan los chatbots de IA, el contexto es una espada de doble borde

Demasiado Largo; Para Leer

Tabla de enlaces

abstracción

1 Introducción

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics