paint-brush
Multilevel-Profiling situations- und dialogbasierter Deep Networks: Fazit und Referenzenvon@kinetograph

Multilevel-Profiling situations- und dialogbasierter Deep Networks: Fazit und Referenzen

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein multimodales Framework zur Klassifizierung von Filmgenres vor, das Situations-, Dialog- und Metadatenfunktionen nutzt.
featured image - Multilevel-Profiling situations- und dialogbasierter Deep Networks: Fazit und Referenzen
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;

(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien

(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien

(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.

Linktabelle

6. Fazit

Diese Arbeit erweitert die Idee eines neuartigen ganzheitlichen Ansatzes für das Problem der Klassifizierung von Filmgenres, der affektive und kognitive Ebenen einbezieht, indem mehrere Modalitäten berücksichtigt werden, darunter die Situation aus dem Bild, Dialoge aus der Sprache und Metadaten (Handlung und Beschreibung des Films). Um diese Studie durchzuführen, haben wir auch einen EMTD-Datensatz mit Trailern englischsprachiger Hollywood-Filme erstellt, der rund 2000 Trailer aus 5 Genres umfasst, nämlich Action, Komödie, Horror, Romantik und Science-Fiction. Wir haben mit verschiedenen Modellarchitekturen experimentiert, wie in Abschnitt 5.2 erläutert, und auch unser endgültiges Framework auf EMTD und auf Standard-LMTD-9 [2] validiert, das AU-Werte (PRC) von 0,92 bzw. 0,82 erreicht. Das Hauptziel unserer Studie besteht darin, ein robustes Framework zu erstellen, um ein Filmgenre anhand seines kurzen Clips, d. h. seines Trailers, zu klassifizieren. Obwohl unsere Studie englische Sprache als Merkmal umfasst, kann sie auch auf einige nicht-englische Trailer angewendet werden. Für nicht-englische Trailer kann unser Modell nur die Videomerkmale einbeziehen, sodass auf dieser Grundlage Vorhersagen von unserer Architektur getroffen werden können.


Zur Erweiterung unseres vorgeschlagenen Modells können auch Hintergrundaudiostudien auf der Grundlage von Gesang einbezogen werden. Daher planen wir, in Zukunft zusätzlich zu unserem aktuellen Framework ein Framework zu erstellen, das Hintergrundgesang in Audio berücksichtigt, um die meisten Merkmale aus Filmtrailern besser extrahieren und nutzen zu können. Wir planen außerdem, unserer Studie einige weitere Genres für die Multi-Label-Klassifizierung hinzuzufügen.

7. Referenzen

[1] A. Hanjalic und LQ Xu, „Affective video content representation and modeling“, IEEE Trans. Multimed., Bd. 7, Nr. 1, 2005.


[2] J. Wehrmann und RC Barros, „Convolutions through time for multi-label movie genre classification“, in Proceedings of the ACM Symposium on Applied Computing, 2017, Bd. Teil F1280, S. 114–119.


[3] Z. Rasheed, Y. Sheikh und M. Shah, „On the use of computable features for film classification“, IEEE Trans. Circuits Syst. Video Technol., Bd. 15, Nr. 1, S. 52–64, Januar 2005.


[4] LH Chen, YC Lai und HY Mark Liao, „Filmszenensegmentierung mithilfe von Hintergrundinformationen“, Pattern Recognit., Bd. 41, Nr. 3, 2008.


[5] SK Jain und RS Jadon, „Klassifikator für Filmgenres mithilfe eines neuronalen Netzwerks“, 2009.


[6] L. Canini, S. Benini und R. Leonardi, „Affektive Empfehlung von Filmen basierend auf ausgewählten konnotativen Merkmalen“, IEEE Trans. Circuits Syst. Video Technol., Bd. 23, Nr. 4, 2013.


[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo und Y. Rui, „Hierarchische affektive Inhaltsanalyse in Erregungs- und Valenzdimensionen“, Signal Processing, Bd. 93, Nr. 8, 2013.


[8] A. Yadav und DK Vishwakarma, „Ein einheitliches Framework aus tiefen Netzwerken zur Genreklassifizierung anhand von Filmtrailern“, Appl. Soft Comput. J., Bd. 96, 2020.


[9] K. Choroś, „Videogenreklassifizierung basierend auf der Längenanalyse zeitlich aggregierter Videoaufnahmen“, in Lecture Notes in Computer Science (einschließlich der Unterreihen Lecture Notes in Artificial Intelligence und Lecture Notes in Bioinformatics), 2018, Bd. 11056 LNAI, S. 509–518.


[10] AM Ertugrul und P. Karagoz, „Filmgenre-Klassifizierung anhand von Handlungszusammenfassungen mithilfe von bidirektionalem LSTM“, in Proceedings – 12. IEEE International Conference on Semantic Computing, ICSC 2018, 2018, Bd. 2018-Januar.


[11] G. Païs, P. Lambert, D. Beauchêne, F. Deloule und B. Ionescu, „Erkennung von Animationsfilmgenres durch symbolische Fusion von Text- und Bilddeskriptoren“, 2012.


[12] A. Shahin und A. Krzyżak, „Genre-ous: The Movie Genre Detector“, in Communications in Computer and Information Science, 2020, Bd. 1178 CCIS.


[13] N. Kumar, A. Harikrishnan und R. Sridhar, „Hash Vectorizer Based Movie Genre Identification“, in Lecture Notes in Electrical Engineering, 2020, Bd. 605.


[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan und MN Doja, „Genreklassifizierung von Filmtrailern mithilfe von 3D-Convolutional Neural Networks“, 2020.


[15] WT Chu und HJ Guo, „Filmgenreklassifizierung basierend auf Posterbildern mit tiefen neuronalen Netzwerken“, 2017.


[16] GS Simões, J. Wehrmann, RC Barros und DD Ruiz, „Filmgenreklassifizierung mit Convolutional Neural Networks“, in Proceedings der International Joint Conference on Neural Networks, 2016, Bd. 2016-Oktober.


[17] J. Li, L. Deng, R. Haeb-Umbach und Y. Gong, „Kapitel 2 – Grundlagen der Spracherkennung“, in Robuste automatische Spracherkennung, J. Li, L. Deng, R. Haeb-Umbach und Y. Gong, Hrsg. Oxford: Academic Press, 2016, S. 9–40.


[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi und A. Kembhavi, „Grounded Situation Recognition“, in Computer Vision – ECCV 2020, 2020, S. 314–332.


[19] B. Beel, Joeran und Langer, Stefan und Gipp, „TF-IDuF: Ein neuartiges Term-Weighting-Schema für die Benutzermodellierung basierend auf den persönlichen Dokumentsammlungen der Benutzer“, Proc. iConference 2017, 2017.


[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula und DD Ruiz, „(Deep) Learning from Frames“, 2017.


[21] DP Kingma und JL Ba, „Adam: Eine Methode zur stochastischen Optimierung“, 2015.


[22] E. Fish, A. Gilbert und J. Weinbren, „Neuüberlegungen zur Klassifizierung von Filmgenres durch feinkörniges semantisches Clustering“, arXiv Prepr. arXiv2012.02639, 2020.


[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez und G. Cisneros, „Über den Einfluss visueller Merkmale auf niedriger Ebene bei der Filmklassifizierung“, PLoS One, Bd. 14, Nr. 2, 2019.


[24] J. Wehrmann, MA Lopes und RC Barros, „Selbstaufmerksamkeit für die auf Synopsis basierende Multilabel-Filmgenreklassifizierung“, 2018.


[25] J. Wehrmann und RC Barros, „Klassifizierung von Filmgenres: Ein Multi-Label-Ansatz basierend auf Faltungen im Laufe der Zeit“, Appl. Soft Comput. J., Bd. 61, 2017.