paint-brush
Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: experimentospor@kinetograph
106 lecturas

Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: experimentos

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un marco multimodal para la clasificación de géneros cinematográficos, utilizando características de situación, diálogo y metadatos.
featured image - Elaboración de perfiles multinivel de redes profundas basadas en situaciones y diálogos: experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India;

(2) Mayank Jindal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India

(3) Ayush Mittal, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India

(4) Aditya Sharma, Laboratorio de Investigación Biométrica, Departamento de Tecnología de la Información, Universidad Tecnológica de Delhi, Delhi, India.

Tabla de enlaces

5. Experimentos

En esta parte, examinaremos varias arquitecturas de modelos en diferentes modalidades y presentaremos modelos fusionados. Posteriormente, verificamos nuestro trabajo validándolo en el conjunto de datos estándar LMTD-9, así como en nuestro conjunto de datos propuesto. Finalmente, se analiza un estudio comparativo para explorar la robustez de nuestro modelo. Todos los experimentos se realizan en estaciones de trabajo con GPU con 128 GB de RAM DDR4 y configuración de GPU Nvidia Titan RTX (24 GB).

5.1. Conjuntos de datos

Para verificar nuestro marco, utilizamos nuestro conjunto de datos propuesto y el conjunto de datos estándar LMTD-9 [2]. Los detalles completos se mencionan a continuación:

5.1.1. Conjunto de datos de avances de películas en inglés (EMTD)

EMTD: nuestro conjunto de datos propuesto contiene un conjunto de entrenamiento separado de 1700 avances únicos y un conjunto de validación de 300 avances únicos, todos tomados de IMDB, como se menciona en la Sección 3.

5.1.2. Conjunto de datos de avances de películas etiquetados (LMTD-9)

LMTD [16], [20] es un conjunto de datos de avances de películas a gran escala con múltiples etiquetas que incluye enlace del avance, metadatos del avance, trama/resumen, identificación única del avance que consta de alrededor de 9.000 avances de películas pertenecientes a 22 etiquetas/géneros distintos. Para fines de verificación, se utiliza un conjunto de validación (subparte) de LMTD-9 [2] que solo incluye los avances de Hollywood lanzados después de 1980 y los avances específicos de nuestra lista de géneros. El conjunto de datos contiene avances de diferente duración con diferentes calidades de vídeo y relaciones de aspecto.

5.2. Resultados de clasificación en diferentes modelos.

En esta sección, discutiremos nuestros experimentos con diferentes variaciones del marco. Experimentamos con 3 marcos diferentes basados en modalidades separadas y características prefusionadas.


  • MS (Análisis de cuadros de video): Modelo que considera las únicas características basadas en situaciones de los cuadros de video.


  • MD (Análisis de diálogos-metadatos): Modelo que considera diálogos a partir de audio y descripciones a partir de metadatos como características.


  • MSD (Análisis multimodal): Modelo que considera características basadas en situaciones de cuadros de video, diálogos de audio y descripciones de metadatos como características.





La arquitectura propuesta en la Sección 4.2.3 con características preintegradas se utiliza para MSD. Sin embargo, el corpus de entrada se modifica ligeramente. El corpus definido en la Sección 4.4 se utiliza para MSD. La precisión, la recuperación y la puntuación F1 para MSD en LMTD-9 y EMTD se muestran en la Tabla 5. Sin embargo, la comparación de AU (PRC) de MSD con MS y MD se analiza en la siguiente sección.


Se puede observar cierta variación entre la interpretación de diferentes géneros. La mayoría de los trailers pertenecientes a los géneros principales están clasificados con precisión (con una puntuación F1 de 0,84 o superior), lo que demuestra que el modelo propuesto está funcionando bien. El género de acción fue el género con mejor desempeño entre los cinco con una puntuación F1 de 0,88 y 0,89 en EMTD y LMTD-9 respectivamente. Se consideró que el género romántico era el de menor rendimiento entre todos los géneros en términos de puntuación F1. Se observa que muchos avances de géneros románticos se clasifican erróneamente en comedia, ya que ambos géneros están dominados por palabras similares como feliz, sonreír, reír, etc.


Fig. 5: Curva de recuperación de precisión para MD A) EMTD B) LMTD-9


Fig. 6: Curva de recuperación de precisión para MS A) EMTD B) LMTD-9


Fig. 7: Curvas de recuperación de precisión MSD A) EMTD B) LMTD-9

5.3. Comparación de UA (RPC)

La AU (PRC), es decir, el área bajo la curva de recuperación de precisión, se calcula para comparar nuestros resultados de clasificación, ya que estamos tratando con el problema de clasificación de etiquetas múltiples. La medida AU (PRC) ayuda a comparar el rendimiento real de nuestro modelo, compensando el efecto de ruido debido al desequilibrio de clases en el conjunto de datos de etiquetas múltiples. Las curvas AU (PRC) se crean para los 3 modelos en ambos conjuntos de datos, como se muestra en las figuras 5, 6 y 7. En el conjunto de validación de EMTD, encontramos valores AU (PRC) casi similares, 92 %. 91%, 88% en MSD, MD y MS, respectivamente. Sin embargo, encontramos que nuestro MSD proporciona valores de 82% AU (PRC) en el conjunto de datos LMTD9, que es mayor que los otros dos modelos, es decir, 72% y 80% AU (PRC) de MD y MS respectivamente, como en la Tabla 6.


Tabla 6: AU (PRC) en diferentes modelos


Sin embargo, para una comparación general con algunos otros modelos con los que experimentamos en nuestro estudio, mencionamos sus resultados en la Tabla 6. Para elegir la mejor arquitectura, los modelos se comparan en términos de AU (PRC) en ambos conjuntos de datos de validación. La implementación del conjunto de datos del modelo de características EMTD LMTD-9 Diálogo (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Situación (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Funciones fusionadas (MSD) ECnet 0,92 0,82 todos los modelos mencionados nos ayudan a decidir el El mejor modelo para las características fusionadas. Aunque MD tiene valores de AU (PRC) comparables con MSD en EMTD pero en LMTD-9, MSD superó a MD. El caso similar ocurre con la EM en LMTD-9. Si bien MSD tuvo un buen desempeño simultáneamente en ambos conjuntos de datos, lo que no es cierto en el caso de MS y MD individualmente. Entonces, mediante la validación cruzada de conjuntos de datos, MSD demuestra ser más sólido. Concluimos que el MSD propuesto es el modelo de mejor rendimiento.

5.4. Comparación de referencia

En esta sección, validamos el rendimiento de nuestro modelo propuesto realizando la comparación más avanzada con los enfoques anteriores para la clasificación de géneros de películas utilizando la métrica AU (PRC) para cada género por separado, como se muestra en la Tabla 7. Todos los resultados mencionados en la Tabla 7 se muestran con hasta dos decimales y se basan en el conjunto de datos estándar LMTD-9, excepto Fish et. Alabama. [22], cuyos resultados se basan en el conjunto de datos MMX trailer-20. No considera el género romántico en su estudio. Sin embargo, para los otros géneros, la diferencia en los valores de AU (PRC) de Fish et. Vale la pena destacar al [22] y MSD. MSD lo supera en un 20% de media. La clasificación basada en características visuales de bajo nivel [23] se basa en 24 características visuales de bajo nivel, SAS-MC-v2 [24] usa solo la sinopsis para la clasificación del remolque, Fish et. Alabama. [22] y CTT-MMC-TN [25] se basan en características de alto nivel. En comparación con los enfoques de funciones de bajo nivel [23], [24], MSD supera en promedio un 10%, y al comparar los enfoques que utilizan funciones de alto nivel [22], [25], supera en promedio un 8%. para cada género. También se observa que el género de comedia tuvo un buen desempeño en la mayoría de las obras en comparación con los otros cuatro géneros, mientras que la ciencia ficción tiene valores AU (PRC) relativamente más bajos. Esto podría deberse a la falta de una distinción adecuada en el género de ciencia ficción, ya que sus características se superponen con las de otros géneros similares (como la acción).


Tabla 7: Comparación del modelo propuesto con estado del arte similar utilizando AU (PRC)


El estudio comparativo demuestra que el modelo propuesto es sólido ya que supera los enfoques existentes y ofrece excelentes resultados. El mejor rendimiento se debe a que la arquitectura propuesta incluye características tanto cognitivas como afectivas, lo que ayuda al modelo a aprender características sustanciales de cada género y, por lo tanto, a predecir los géneros con mayor precisión.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.