Autores:
(1) Dinesh Kumar Vishwakarma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India;
(2) Mayank Jindal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(3) Ayush Mittal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(4) Aditya Sharma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India.
Esta sección analiza las metodologías anteriores para la clasificación de géneros cinematográficos y las motivaciones detrás de nuestro estudio. El contenido de video se divide principalmente en (1) fotogramas de video (imágenes) y (2) audio (voz {diálogos} + no habla {voces}). Para analizar el contenido del vídeo, se han realizado varios estudios en el pasado, centrándose principalmente en los niveles cognitivos [3]–[7] o afectivos [8] individualmente. Para un estudio más eficaz, es necesario tener en cuenta ambos niveles para desempeñarse mejor en una tarea de clasificación de género.
En estudios anteriores, se han propuesto muchos enfoques basados en la cognición basándose en características de bajo nivel, incluidas alteraciones visuales, duración promedio de la toma, cambio gradual en la intensidad de la luz en los cuadros de video y picos en la forma de onda de audio [3], para capturar componentes de la escena. [4]. Otras características utilizadas para la clasificación cognitiva incluyen colores RGB en fotogramas [6], tomas de películas [7], duración de la toma [9], tipo de fondo en las escenas (oscuro/no oscuro) [6], etc. De manera similar, algunos enfoques son propuesto sólo para análisis afectivo [8].
Una película puede tener varios géneros que representan mucha información para los espectadores, por lo que también sirve como tarea para recomendar una película al espectador. Jain et al. [5] utilizaron 4 funciones de vídeo (duración de la toma, movimiento, dominio del color, clave de iluminación) y 5 funciones de audio para clasificar clips de película utilizando solo 200 muestras de entrenamiento. Usaron fragmentos de películas completos para predecir géneros. Sin embargo, el estudio utiliza sólo 200 muestras de entrenamiento para entrenar su modelo. En consecuencia, la precisión reportada por ellos podría deberse a un ajuste excesivo. Además, el estudio se centró únicamente en la clasificación de etiqueta única. Huang et al. [4] propusieron el algoritmo de búsqueda de armonía autoadaptable con 7 SVM apiladas que utilizaban funciones de audio y visuales (alrededor de 277 funciones en total) en un conjunto de datos de 223 tamaños. Ertugrul et al. [10] utilizaron características de bajo nivel, incluida la trama de las películas, dividiendo la trama en oraciones y clasificando las oraciones en géneros y tomando el género final como uno con máxima ocurrencia. País et al. [11] propusieron fusionar características de imagen y texto basándose en algunas palabras importantes de la sinopsis general y realizaron una clasificación de géneros de películas basada en esas características. El modelo fue probado en un conjunto de 107 avances de películas. Shahin et al. [12] utilizaron tramas y citas de películas y propusieron redes de atención jerárquicas para clasificar los géneros. De manera similar, Kumar et al. [13] propusieron utilizar tramas de películas para clasificar el género mediante la vectorización hash centrándose en reducir la complejidad general del tiempo. Los estudios mencionados anteriormente se basan en características de bajo nivel y no capturan ninguna característica de alto nivel de los avances de películas, por lo que no se puede confiar en ellos como un buen sistema de reconocimiento de nivel.
Según estudios más recientes, muchos investigadores utilizaron redes profundas para tareas de clasificación de géneros cinematográficos. Shambharkar et al. [14] propusieron una arquitectura basada en CNN 3D de etiqueta única para aprovechar las características espaciales y temporales. Aunque en esto se capturan características espaciales y temporales, el modelo no es sólido debido a la clasificación de etiqueta única. Algunos investigadores han trabajado en carteles de películas para clasificar los géneros cinematográficos. Chu et al. [15] formuló una red neuronal profunda para facilitar la detección de objetos y las apariencias visuales. Aunque el trabajo capturó mucha información de los carteles, el cartel en sí no es suficiente para describir completamente una película. Simoes et al. [16] propusieron un CNN-Motion que incluía histogramas de escena proporcionados por el algoritmo de agrupamiento no supervisado, predicciones de género ponderadas para cada avance, junto con algunas características de video de bajo nivel. Esto proporcionó un grupo importante de características de un video, pero carecía de algunas características afectivas y cognitivas para clasificar el género.
Por lo tanto, de la literatura anterior, es evidente que se debe extraer información importante de los avances de los videos para el estudio cognitivo y afectivo. Entonces, nuestra motivación detrás de este trabajo es diseñar un enfoque que se base en ambos niveles de análisis de contenido de video como en [1]. Creemos que la arquitectura y el modelo propuestos son novedosos y robustos y pueden usarse en el futuro para diversas perspectivas de investigación.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.