Autores:
(1) Dinesh Kumar Vishwakarma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India;
(2) Mayank Jindal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(3) Ayush Mittal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(4) Aditya Sharma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India.
La clasificación automatizada de géneros cinematográficos se ha convertido en un área activa y esencial de investigación y exploración. Los avances de películas de corta duración brindan información útil sobre la película, ya que el contenido del video consta de características de nivel cognitivo y afectivo. Los enfoques anteriores se centraban en el análisis de contenido cognitivo o afectivo. En este artículo, proponemos un novedoso marco de clasificación de géneros cinematográficos basado en situaciones, diálogos y metadatos que tiene en cuenta tanto la cognición como las características basadas en el afecto. Un marco basado en fusión de características previas que tiene en cuenta: características basadas en situaciones de una instantánea normal de un tráiler que incluye sustantivos y verbos que proporcionan un mapeo útil basado en afectos con los géneros correspondientes, características basadas en diálogos (habla) a partir de audio, Metadatos que en conjunto proporcionan información relevante para el análisis de vídeo cognitivo y afectivo. También desarrollamos el conjunto de datos de avances de películas en inglés (EMTD), que contiene 2000 avances de películas de Hollywood pertenecientes a cinco géneros populares: acción, romance, comedia, terror y ciencia ficción, y realizamos una validación cruzada en el conjunto de datos estándar LMTD-9 para validar el marco propuesto. Los resultados demuestran que la metodología propuesta para la clasificación de géneros cinematográficos ha funcionado de manera excelente, como lo muestran las puntuaciones, precisión, recuperación y área bajo las curvas de recuperación de precisión de F1.
Palabras clave: clasificación de géneros de películas, red neuronal convolucional, conjunto de datos de avances de películas en inglés, análisis de datos multimodales.
Las películas son una gran fuente de diversión para la audiencia y tienen un impacto en la sociedad de muchas maneras. La identificación manual del género de una película puede variar según el gusto de cada persona. Por lo tanto, la predicción automatizada del género cinematográfico es un área activa de investigación y exploración. Los avances de películas se están convirtiendo en una fuente útil para predecir los géneros de la película. Proporcionan información útil sobre la película en muy poco tiempo. Los avances de películas constan de dos tipos de contenido: contenido cognitivo y contenido afectivo.
El contenido cognitivo describe la composición de los eventos, objetos y personas en un fotograma particular del avance de una película, mientras que el contenido afectivo describe los tipos de características psicológicas, como sentimientos o emociones, en el avance de una película [1]. Ejemplos de contenido cognitivo incluyen un patio de juegos, un edificio, un hombre, un perro, etc. Ejemplos de contenido afectivo son sentimientos/emociones como felicidad, tristeza, ira, etc. Tanto el contenido cognitivo como el basado en el afecto proporcionan características destacadas para predecir Los géneros de la película.
En este artículo, proponemos un novedoso marco de clasificación de géneros cinematográficos basado en situaciones, diálogos y metadatos multimodal, cuyo objetivo es predecir géneros cinematográficos utilizando contenido de vídeo, audio y metadatos (trama/descripción) de avances de películas. Nuestro novedoso marco se centra en extraer las características cognitivas y afectivas del avance de la película. Para lograr esto, se extrae del cuadro de video una oración (generada a partir de situaciones) compuesta de sustantivos y verbos relevantes. Los sustantivos brindan información relevante sobre el contenido cognitivo de los avances, y los verbos brindan un mapeo útil basado en los afectos con los géneros correspondientes. Por ejemplo, verbos como reír, reír, hacer cosquillas, etc. proporcionan un mapeo basado en el afecto con el género de "comedia". Los verbos como atacar, golpear, etc. proporcionan un mapeo basado en el afecto con el género de "acción". Junto con las situaciones, el diálogo y las características basadas en metadatos contribuyen adicionalmente al contenido cognitivo y afectivo, ya que incluyen descripciones de eventos (contenido cognitivo) y características psicológicas (contenido afectivo).
Al igual que el proceso estándar de aprendizaje automático, el trabajo se lleva a cabo en varias fases. La primera fase es la fase de generación del conjunto de datos, donde generamos el EMTD, que contiene 2000 avances de películas de Hollywood pertenecientes a 5 géneros populares: acción, romance, comedia, terror y ciencia ficción. La segunda fase implica el preprocesamiento de avances de vídeo donde todos los fotogramas repetidos se eliminan y cambian de tamaño. Las oraciones que contienen sustantivos y verbos importantes se extraen de los marcos útiles. También preparamos las transcripciones de audio de avances de películas para obtener diálogos de los avances. En la tercera fase, diseñamos y entrenamos la arquitectura propuesta, que extrae y aprende las características importantes de los remolques. Finalmente, en la cuarta fase, el rendimiento de nuestra arquitectura propuesta se evalúa utilizando la métrica Área bajo la curva PrecisionRecall (AU (PRC)). Las siguientes son las contribuciones significativas de nuestro trabajo:
Proponemos un novedoso EMTD (Conjunto de datos de avances de películas en inglés) que contiene avances de películas de Hollywood en idioma inglés pertenecientes a cinco géneros populares y distintos: acción, romance, comedia, terror y ciencia ficción.
Este trabajo propone un enfoque novedoso para predecir géneros cinematográficos utilizando características cognitivas y basadas en el afecto. Ninguna literatura anterior se ha centrado en una combinación de diálogo, situación y características basadas en metadatos extraídas de los avances de las películas, hasta donde sabemos. Por lo tanto, realizamos: análisis basado en situaciones utilizando sustantivos y verbos, análisis basado en diálogos utilizando reconocimiento de voz y análisis basado en metadatos con metadatos disponibles con avances.
La arquitectura propuesta también se evalúa realizando pruebas de conjuntos de datos cruzados en el conjunto de datos estándar LMTD-9 [2]. Los resultados muestran que la arquitectura propuesta ha funcionado de manera excelente y demuestra el rendimiento superior del marco.
La parte restante del artículo está organizada de la siguiente manera: En la Sección 2, se revisa la literatura anterior sobre clasificación de géneros cinematográficos y se destaca la motivación detrás del trabajo propuesto. En la Sección 3, analizamos la EMTD propuesta. En la Sección 4, proporcionamos una descripción detallada de la arquitectura propuesta. En la Sección 5, evaluamos el desempeño del marco propuesto y lo validamos con dos conjuntos de datos diferentes. El artículo concluye en la Sección 6.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.