Autores:
(1) Dinesh Kumar Vishwakarma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India;
(2) Mayank Jindal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(3) Ayush Mittal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India
(4) Aditya Sharma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India.
La trama/descripciones de la película son una característica importante para describir una película. En la mayoría de los casos, la trama mencionada para el estreno de una película es demasiado corta o no se menciona en algunos casos. Teniendo esto en cuenta, elegimos utilizar las descripciones concatenadas con los diálogos extraídos de los avances de las películas para finalmente predecir el género de la película, como se analiza en detalle en la Sección 4.2. Las descripciones se obtienen del sitio web de IMDB como metadatos, como ya se mencionó en la Sección 3.
En esta sección, proponemos una arquitectura para procesar una lista de diálogos del audio del avance (descripción/trama concatenada en diálogos) para predecir géneros de películas. Los pasos importantes para esta corriente incluyen: (1) Extraer el discurso (diálogo) del avance de la película y (2) Diseñar un modelo para predecir géneros sobre la base del discurso y los metadatos.
Los archivos de audio en formato (.wav) se extraen de los avances de vídeo (.mp4). A continuación, el archivo de audio se divide en pequeños clips de audio y se convierte en diálogos como se propone en [17]. Todo el texto se recopila para formar un corpus de entrada. La descripción/trama (si está disponible en los metadatos) también se fusiona en este corpus. Nuestro estudio está dirigido únicamente a los avances en inglés. Al igual que las tramas de las películas, el discurso extraído de los avances puede funcionar como complemento de nuestro corpus de texto, lo que puede ayudar a comprender mejor la relación entre el contexto del texto y el género de la película. Después de generar el corpus compuesto por un único registro para cada tráiler en nuestra fase de entrenamiento/prueba, se llevaron a cabo los siguientes pasos de preprocesamiento: convertir todo el texto a minúsculas, eliminar dígitos, puntuaciones, palabras vacías y enlaces web. El texto obtenido anteriormente se utiliza como entrada para el modelo/modelo previamente entrenado para entrenamiento/prueba.
Para construir una arquitectura de detección de género basada en la cognitiva, un modelo debe aprender las características cruciales del avance en forma de corpus de texto. Esto se puede lograr mediante el uso de una combinación de capas de incrustación y CNN (red neuronal convolucional). Las capas de la red de clasificación de etiquetas múltiples se muestran en la Tabla 3. La incrustación es una de las técnicas populares utilizadas en los problemas de PNL para convertir palabras en representaciones matemáticas en forma de vectores numéricos.
Antes de enviar información a la arquitectura, es necesario diseñar el vocabulario y fijar el tamaño de un corpus para cada punto de datos. Se diseña un vocabulario de tamaño 10.395 palabras y la longitud máxima del número de palabras de cada corpus se establece como la longitud de la frase más larga de nuestro corpus de entrenamiento, que en nuestro caso es 330. Si el número de palabras en un corpus es menor que la longitud máxima, el corpus se rellena con ceros. Para un avance de película de 2 a 3 minutos, 330 palabras son suficientes, ya que en algunas partes del avance puede que no haya voz (es posible que solo haya voces).
Ahora, para cada corpus en los datos de entrada, tenemos una entrada de forma (330,) (330 es el número de palabras en cada punto de datos), que se envía a la primera capa de nuestra arquitectura como en la Fig. 2, es decir , capa de incrustación. La capa de incrustación proporciona una salida de dimensión (330, 64), ya que la longitud de incrustación para cada palabra se considera 64 en nuestra arquitectura propuesta.
Después de la capa de incrustación, se alimenta una capa de convolución 1-D con la salida de la capa de incrustación. Nuevamente, la capa de convolución da una forma de salida de (330, 64,). Para obtener el mismo resultado, aplicamos el relleno uniformemente a la entrada de la capa convolucional. A continuación, se utiliza una capa de agrupación máxima para reducir la dimensión de los datos de (330, 64,) a (165, 64,). A la arquitectura le sigue una capa aplanada para transformar los datos bidimensionales en datos unidimensionales, para luego enviar la salida a una capa densa.
Como se muestra en la Tabla 3, la capa aplanada da una salida de forma (10560,) que se alimenta a una capa densa como entrada y da una forma de salida de (32,). Finalmente, la capa densa final se aplica a la arquitectura y devuelve la forma de salida de (5,) que denota nuestros cinco géneros. En la capa densa final de nuestra arquitectura, utilizamos "sigmoide" como la función de activación más adecuada para nuestro problema de clasificación de etiquetas múltiples.
Esta sección incluye el trabajo que propusimos sobre características visuales de trailers de películas. Los pasos principales de esta transmisión incluyen: (1) recuperar fotogramas de vídeo del avance, (2) extraer situaciones de los fotogramas y (3) crear arquitectura para finalmente clasificar los avances en géneros.
Se propone un novedoso modelo de análisis de video basado en situaciones extrayendo las situaciones y eventos basados en cada cuadro extraído del video para características visuales. Por lo tanto, se crea un corpus para entrenar/probar el modelo reuniéndolos.
Hasta donde sabemos, estamos proponiendo un marco novedoso al fusionar el análisis de situación, evento y diálogo para la clasificación de géneros. En las secciones siguientes se describen más detalles sobre el marco.
Después de varios experimentos utilizando algún subconjunto de avances de películas, se descubre que tomar cada 10𝑡ℎ fotogramas es beneficioso para evitar la redundancia en los fotogramas (los fotogramas consecutivos de un vídeo parecen ser similares). Por lo tanto, después de descartar los fotogramas redundantes, los fotogramas de vídeo finales considerados se pueden expresar como la ecuación. (9):
En las secciones siguientes, consideramos estos marcos para cada remolque.
Y la probabilidad de que la situación S pertenezca a una imagen I se puede denotar como en la ecuación. (11).
𝛼 denota el parámetro de nuestro neural; red. Ahora podemos definir los roles semánticos de una imagen en un orden particular. Así, además, la ecuación. (12) reducirse a la ecuación. (13).
Ec. (13) se puede simplificar aún más como la ecuación. (14).
Para una imagen/cuadro particular dado, la situación que tiene la probabilidad de valor máximo definida en la ecuación. (14) serán considerados para esa imagen.
Ahora la tarea se convierte en una tarea de clasificación de texto para la cual proponemos la arquitectura del modelo como se analiza en las siguientes secciones. Antes de pasar al siguiente paso, se realiza un preprocesamiento del texto: convertir todo el texto a minúsculas, eliminando dígitos, puntuaciones y palabras vacías, como se menciona en la Sección 4.2.1. Estos mismos pasos se realizan en el procedimiento de prueba para predecir el género del avance de la película.
Después de extraer las características visuales, se requiere una arquitectura sólida para clasificar los géneros finales de los avances. Este modelo es diferente del modelo que propusimos en el flujo de diálogo. Aquí, se propone TFAnet (Red neuronal artificial de frecuencia de término), que consta de una red profunda de capas densas y abandonadas, como se muestra en la Fig. 4.
Antes de pasar a la arquitectura propuesta, discutiremos la representación de texto usando TF-IDF en [19]. Para esta arquitectura, se propone utilizar en el recuento de palabras en el corpus de cada punto de datos. Por lo tanto, utilizamos el recuento de palabras del corpus como características para clasificar los géneros de avances de películas. Para incluir una gran cantidad de palabras como características en nuestro conjunto de vocabulario, en nuestro EMTD se utilizan avances de una amplia gama de fechas de lanzamiento para tener un corpus enorme disponible mientras entrenamos el modelo. Se utiliza una combinación de unigramas, bigramas y trigramas de nuestro corpus como características y el algoritmo TF-IDF (término frecuencia-frecuencia de documento inversa) representa nuestro texto en forma numérica. El total de características de n-gramas tomadas es de alrededor de 34.684. Ahora nuestras características basadas en texto se transforman en forma matemática, por lo que se entrena la siguiente (red neuronal artificial) para clasificar los géneros del avance.
La arquitectura de TFAnet (Red neuronal artificial de frecuencia de términos) se muestra en la Tabla 4. La forma de entrada, como se analizó anteriormente, es (34684,). Esta entrada se da a una capa densa, lo que da una salida de forma (64,). Luego se aplica una capa de eliminación para reducir el sobreajuste con una tasa de 0,4. Nuevamente, se aplica una capa densa y obtenemos una salida de forma (32,), seguida de una capa eliminada con una tasa de 0,2. Finalmente, se aplica una capa densa, lo que da como resultado la forma (5,) para finalmente predecir cinco géneros, con sigmoide como función de activación.
El algoritmo de la fase de entrenamiento del modelo MSD se escribe como Algoritmo 1.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.