Autores:
(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.
En esta sección proporcionamos detalles sobre los diversos componentes de modelado de nuestro enfoque. Comenzamos brindando detalles de la arquitectura GRAPHTRAILER (Sección A.1), luego pasamos a discutir cómo se entrena la red de identificación de TP (Sección A.2) y finalmente brindamos detalles técnicos sobre la capacitación previa en guiones (A.3). y el flujo de sentimiento utilizado para el recorrido del gráfico (A.4).
Abordamos las discontinuidades en nuestro modelo (es decir, muestreo top-k, selección del tamaño del vecindario) utilizando el Estimador Directo [7]. Durante el paso hacia atrás calculamos los gradientes con el truco de reparametrización de Gumbel-softmax [25, 32]. Se sigue el mismo procedimiento para construir y dispersar gráficos a nivel de escena en la red auxiliar basada en guiones.
La Sección 3 presenta nuestro régimen de entrenamiento para el modelo basado en video y guión asumiendo que hay etiquetas TP para escenas disponibles (es decir, etiquetas binarias que indican si una escena actúa como TP en una película). Dadas tales etiquetas, nuestro modelo se entrena con un objetivo de pérdida binaria de entropía cruzada (BCE) entre las pocas etiquetas doradas calientes y las predicciones de TP de la red.
Sin embargo, en la práctica, nuestro conjunto de entrenamiento contiene etiquetas estándar plateadas para escenas. Estos últimos se publican junto con el conjunto de datos TRIPOD [41] y se crearon automáticamente. Específicamente, TRIPOD proporciona anotaciones de TP estándar para sinopsis (no guiones), bajo el supuesto de que las oraciones de sinopsis son representativas de los TP. Y las anotaciones a nivel de oración se proyectan en escenas con un modelo de coincidencia entrenado con la fuerza del maestro [41] para crear etiquetas estándar.
Uno de los criterios para seleccionar la siguiente toma en nuestro algoritmo de recorrido de gráficos (Sección 3.1) es el flujo de sentimiento del avance generado hasta el momento. Específicamente, adoptamos la hipótesis[9] de que los trailers se segmentan en tres secciones según la intensidad del sentimiento. La primera sección tiene una intensidad media para atraer espectadores, la segunda sección tiene una intensidad baja para brindar información clave sobre la película y, finalmente, la tercera sección muestra una intensidad progresivamente mayor para crear suspenso y entusiasmo por la película.
En consecuencia, dado un presupuesto de tomas de avance L, esperamos que las primeras tomas L/3 tengan una intensidad media sin grandes variaciones dentro de la sección (por ejemplo, queremos tomas con una intensidad absoluta promedio cercana a 0,7, donde todas las puntuaciones están normalizadas a un rango de -1 a 1). En la segunda parte del tráiler (es decir, los siguientes L/3 tomas) esperamos una fuerte caída en la intensidad y las tomas dentro de esta sección mantendrán un sentimiento más o menos neutral (es decir, 0 intensidad). Finalmente, para la tercera sección (es decir, los últimos L/3 disparos) esperamos que la intensidad aumente constantemente. En la práctica, esperamos que la intensidad del primer disparo sea 0,7 (es decir, intensidad media), aumentando en 0,1 con cada disparo posterior hasta alcanzar un pico en el disparo final.
Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.
[9] https://www. Derek-lugar. com / blog / 2017 / 9 / 10 / la - matriz - es - un - tráiler - editores-sueño