Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).
Para todos los experimentos, utilizamos GPT-3 [1] (text-davinci-003) como modelo de lenguaje principal. A menos que se indique lo contrario, utilizamos el límite del clip de verdad básica para segmentar los vídeos. Todas las variantes de LSS no utilizan ningún dato de entrenamiento y, por lo tanto, son métodos de disparo cero.
MovieQA [27] es un conjunto de datos de control de calidad a gran escala procedente de 408 películas. Hay múltiples fuentes de información en el conjunto de datos; subtítulos, guiones, DVS, videoclips y tramas. Presentamos cuatro líneas de base supervisadas de última generación; A2A [20], PAMN [11], UniversalQA [10] y DHTCN [21].
La Tabla 1 muestra mejoras en el LSS de tiro cero con respecto a enfoques supervisados anteriores. Además, Ours-search muestra un rendimiento sólido incluso sin la etiqueta de índice de segmento de verdad sobre el terreno. CLIPCheck mejora ligeramente la precisión en la división del vídeo. Sin embargo, la diferencia es marginal ya que MovieQA a menudo requiere una base basada en personajes en lugar de una coincidencia visual general. Finalmente, experimentamos con la hipótesis nula: No Context prueba si GPT-3 resuelve MovieQA simplemente memorizando cada hecho. No Context funciona peor que LSS, rechazando la hipótesis nula.
PororoQA [13] es un conjunto de datos de control de calidad de historias en video creado a partir de una serie de dibujos animados. La línea de base supervisada toma la trama generada por humanos y el índice de segmento de video real, mientras que LSS +Plot+Search no toma ninguno de los dos.
La Tabla 2 resume nuestro resultado en el conjunto de datos de PororoQA. Cuando se utilizan tanto el episodio como las tramas reales, GPT-3 funciona casi a la par con la línea de base supervisada. Sustituir un resumen generado por humanos por uno generado por un modelo da como resultado sólo una caída marginal del rendimiento. Quizás resulte intrigante que el proceso de búsqueda funcione mejor cuando se utilizan gráficos generados por modelos. Atribuimos este resultado al hecho de que las anotaciones humanas no están diseñadas para la discriminabilidad de episodios.
DramaQA [3] es un conjunto de datos de control de calidad de vídeo que se centra en la comprensión de la historia. El conjunto de datos está organizado con cuatro niveles de dificultad jerárquica, que siguen las etapas del desarrollo cognitivo humano. Evaluamos LSS en los dos niveles altos de DramaQA para probar la comprensión de la trama. Informamos dos líneas de base más recientes en DramaQA a nivel; CharacterAttention y Kim et al. [14].
Comparamos el efecto de CLIPCheck y Caption, un método basado en indicaciones para incorporar descripciones de cuadros de imágenes extraídas de BLIP [18] como entradas a GPT-3. La Tabla 3 muestra que CLIPCheck ofrece mayores mejoras que las descripciones de imágenes. Además, si bien agregar títulos de imágenes mejora el LSS, la ganancia desaparece cuando se usa junto con CLIPCheck. Sospechamos que esto se debe a que los títulos de los fotogramas proporcionan información similar a CLIPCheck pero son mucho más ruidosos. Tenga en cuenta que los subtítulos automáticos aquí no son un componente integral de LSS. Como DramaQA ya tiene anotaciones visualmente fundamentadas, agregar subtítulos de imágenes automáticos además de eso no necesariamente mejoraría el rendimiento del modelo. Más bien, utilizamos los subtítulos para comparar explícitamente los métodos de alineación visual tempranos y tardíos.
Finalmente, verificamos si CLIPCheck explota el sesgo del conjunto de datos en lugar de comprender el contexto visual. Para ello, ideamos una variante de CLIPCheck con contexto visual aleatorio (CLIPCheck-Shuffle). CLIPCheck-Shuffle no mejora con respecto a LSS sin CLIPCheck, lo que niega la hipótesis del sesgo.
¿Son importantes tanto el resumen como la búsqueda para la comprensión narrativa? Aquí, evaluamos variantes de LSS con contexto completo sin la búsqueda narrativa (LSS-Full) o con el resumen de la trama y el segmento aleatorio como entradas (LSS-Random). La Tabla 4 muestra que tanto LSS-Full como LSS-Random quedan detrás de LSS-Search, lo que indica la importancia de la recuperación. Tenga en cuenta que no pudimos emplear el contexto completo en LSS-Full debido a la limitación de la longitud del token. En su lugar, utilizamos el prefijo más largo del contexto completo que acepta GPT3 (4000 tokens menos la longitud de la instrucción).
La Figura 3 muestra el resumen automático de la trama generado como un contexto intermedio del control de calidad del video largo utilizando el modelo de lenguaje en el marco LSS. Como se muestra en la muestra cualitativa, los argumentos generados se alinean bien con los argumentos escritos por humanos en Wikipedia. Por ejemplo, en la primera escena de la película "Harry Potter y las Reliquias de la Muerte", el resumen de LSS escribe correctamente que Harry Potter tiene actualmente 17 años y es el evento principal en el que los mortífagos atacan al protagonista.
La Figura 4 muestra la conexión entre la trama buscada y la probabilidad de respuesta. En el ejemplo de la izquierda, el resumen recuperado dice que Trench cometió un crimen y por lo tanto está huyendo, lo que sugiere que otro personaje interesado en él lo estaría persiguiendo. El modelo de lenguaje comprende este contexto para modificar la probabilidad de respuesta de la manera correcta. En el ejemplo de la derecha, la trama de LSS sugiere que Edward tiene confianza en su decisión. Si bien este contexto no ofrece una pista directa a la pregunta, el modelo de lenguaje lo ve como información lo suficientemente fuerte como para alterar la respuesta.