Autores:
(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.
Los enfoques anteriores para la comprensión de películas se han centrado principalmente en clips de vídeo aislados y en tareas como la alineación entre escenas de películas y capítulos de libros [49], respuesta a preguntas [50], subtítulos de vídeo para tomas de películas [44] y conversión de texto a vídeo. recuperación [5]. Trabajos recientes [40–42] intentan identificar una estructura narrativa de alto nivel y resumir episodios de televisión y películas completos centrándose exclusivamente en la modalidad textual (es decir, guiones).
Los enfoques existentes para la generación de avances explotan características audiovisuales superficiales, como música de fondo o cambios visuales entre tomas secuenciales [24, 46]. Otros trabajos crean avances “atractivos” con un modelo basado en gráficos para la selección de tomas [57] o utilizan un ser humano en el bucle junto con un modelo entrenado en películas de terror mediante análisis de sentimientos audiovisuales [47]. El conjunto de datos de detección de momentos del tráiler [53] consta de películas completas combinadas con avances oficiales y anotaciones de momentos clave, pero no está disponible públicamente y no incluye guiones.
La destilación del conocimiento [3, 23] se propuso originalmente para destilar información de un modelo de maestro más grande a uno más pequeño de estudiante. La destilación generalizada [30] proporciona un marco para utilizar información privilegiada, es decir, información que está disponible sólo en el momento del entrenamiento. Lo más relacionado con nuestro trabajo es el uso de diferentes modalidades o vistas del mismo contenido [33, 34], por ejemplo, narraciones transcritas para aprender representaciones visuales en videos instructivos. Aprovechamos los guiones como fuente de información privilegiada y destilamos conocimientos sobre eventos, personajes y escenas de una película, que posteriormente explotamos para identificar tomas en video dignas de un avance.
Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.