Autoren:
(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;
(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien
(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien
(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.
In diesem Teil werden wir verschiedene Modellarchitekturen anhand unterschiedlicher Modalitäten und vorab fusionierter Modelle untersuchen. Später verifizieren wir unsere Arbeit, indem wir sie sowohl am Standard-LMTD-9-Datensatz als auch an unserem vorgeschlagenen Datensatz validieren. Abschließend wird eine Vergleichsstudie zur Untersuchung der Robustheit unseres Modells diskutiert. Alle Experimente werden auf GPU-Workstations mit 128 GB DDR4-RAM und Nvidia Titan RTX (24 GB) GPU-Konfiguration durchgeführt.
Zur Verifizierung unseres Frameworks verwenden wir unseren vorgeschlagenen Datensatz und den Standard-LMTD-9-Datensatz [2]. Ausführliche Details sind wie folgt aufgeführt:
EMTD: Unser vorgeschlagener Datensatz enthält einen separaten Trainingssatz mit 1700 einzigartigen Trailern und einen Validierungssatz mit 300 einzigartigen Trailern, die alle von IMDB stammen, wie in Abschnitt 3 erwähnt.
LMTD [16], [20] ist ein groß angelegter Filmtrailer-Datensatz mit mehreren Labels, einschließlich Trailer-Link, Trailer-Metadaten, Handlung/Zusammenfassung, eindeutiger Trailer-ID, der aus rund 9.000 Filmtrailern besteht, die zu 22 verschiedenen Labels/Genres gehören. Zu Verifizierungszwecken wird ein Validierungssatz (Unterteil) von LMTD-9 [2] verwendet, der nur die nach 1980 veröffentlichten Hollywood-Trailer und Trailer enthält, die spezifisch für unsere Genreliste sind. Der Datensatz enthält Trailer unterschiedlicher Länge mit unterschiedlicher Videoqualität und unterschiedlichen Seitenverhältnissen.
In diesem Abschnitt werden wir unsere Experimente mit verschiedenen Framework-Varianten besprechen. Wir haben mit 3 verschiedenen Frameworks experimentiert, die auf unterschiedlichen Modalitäten und vorab fusionierten Funktionen basieren.
MS (Videobildanalyse): Modell, das nur situationsbezogene Merkmale aus Videobildern berücksichtigt.
MD (Dialog-Metadaten-Analyse): Modell, das Dialoge aus Audio und Beschreibungen aus Metadaten als Merkmale berücksichtigt.
MSD (Multimodalitätsanalyse): Modell, das situationsbezogene Merkmale aus Videobildern, Dialoge aus Audio und Beschreibungen aus Metadaten als Merkmale berücksichtigt.
Für MSD wird die in Abschnitt 4.2.3 vorgeschlagene Architektur mit vorab fusionierten Merkmalen verwendet. Das Eingabekorpus wird jedoch leicht modifiziert. Für MSD wird das in Abschnitt 4.4 definierte Korpus verwendet. Präzision, Rückruf und F1-Score für MSD auf LMTD-9 und EMTD sind in Tabelle 5 dargestellt. Der AU (PRC)-Vergleich von MSD mit MS und MD wird jedoch im nächsten Abschnitt erörtert.
Es sind gewisse Unterschiede zwischen den Leistungen der verschiedenen Genres zu erkennen. Die meisten Trailer der Hauptgenres werden genau klassifiziert (mit einem F1-Score von 0,84 und höher), was zeigt, dass das vorgeschlagene Modell gut funktioniert. Das Action-Genre war das Genre mit der besten Leistung unter den fünf mit einem F1-Score von 0,88 bzw. 0,89 bei EMTD und LMTD-9. Das Romantik-Genre erwies sich als das Genre mit der schlechtesten Leistung unter allen Genres in Bezug auf den F1-Score. Es wird beobachtet, dass viele Trailer des Romantik-Genres fälschlicherweise als Komödie klassifiziert werden, da beide Genres von ähnlichen Wörtern wie glücklich, lächeln, lachen usw. dominiert werden.
Die AU (PRC), d. h. die Fläche unterhalb der Präzisions-Recall-Kurve, wird berechnet, um unsere Klassifizierungsergebnisse zu vergleichen, da wir es mit dem Problem der Multi-Label-Klassifizierung zu tun haben. Das AU (PRC)-Maß hilft dabei, die tatsächliche Leistung unseres Modells zu vergleichen und den Rauscheffekt aufgrund des Klassenungleichgewichts im Multi-Label-Datensatz auszugleichen. Die AU (PRC)-Kurven werden für alle 3 Modelle auf beiden Datensätzen erstellt, wie in Abb. 5, Abb. 6 und Abb. 7 dargestellt. Im Validierungssatz von EMTD fanden wir fast ähnliche AU (PRC)-Werte von 92 %, 91 %, 88 % bei MSD, MD und MS. Wir stellten jedoch fest, dass unser MSD im LMTD9-Datensatz 82 % AU (PRC)-Werte liefert, was höher ist als bei den anderen beiden Modellen, d. h. 72 % und 80 % AU (PRC) von MD und MS, wie in Tabelle 6.
Für einen Gesamtvergleich mit einigen anderen Modellen, mit denen wir im Rahmen unserer Studie experimentiert haben, führen wir jedoch ihre Ergebnisse in Tabelle 6 auf. Um die beste Architektur auszuwählen, werden die Modelle in Bezug auf AU (PRC) auf beiden Validierungsdatensätzen verglichen. Die Implementierung aller genannten Modelle hilft uns bei der Entscheidung über das beste Modell für die fusionierten Features. Obwohl MD auf EMTD vergleichbare AU (PRC)-Werte wie MSD aufweist, hat MSD auf LMTD-9 MD übertroffen. Ähnliches gilt für MS auf LMTD-9. Während MSD auf beiden Datensätzen gleichzeitig gut abgeschnitten hat, trifft dies nicht auf MS und MD einzeln zu. Durch die Validierung über mehrere Datensätze hinweg erweist sich MSD als robuster. Wir kommen zu dem Schluss, dass das vorgeschlagene MSD das leistungsstärkste Modell ist.
In diesem Abschnitt validieren wir die Leistungsfähigkeit unseres vorgeschlagenen Modells, indem wir einen Vergleich des aktuellen Stands der Technik mit früheren Ansätzen zur Klassifizierung von Filmgenres durchführen und dabei die AU (PRC)-Metrik für jedes Genre separat verwenden, wie in Tabelle 7 dargestellt. Alle in Tabelle 7 genannten Ergebnisse werden mit bis zu zwei Dezimalstellen angegeben und basieren auf dem Standarddatensatz LMTD-9 mit Ausnahme von Fish et. al. [22], dessen Ergebnisse auf dem MMX-Trailer-20-Datensatz basieren. Das Romantik-Genre wird in seiner Untersuchung nicht berücksichtigt. Bei den anderen Genres ist jedoch der Unterschied zwischen den AU (PRC)-Werten von Fish et. al. [22] und MSD bemerkenswert. MSD übertrifft es im Durchschnitt um 20 %. Die Klassifizierung auf Grundlage visueller Merkmale auf niedriger Ebene [23] basiert auf 24 visuellen Merkmalen auf niedriger Ebene, SAS-MC-v2 [24] verwendet nur die Synopsis zur Trailerklassifizierung, Fish et. al. [22] und CTT-MMC-TN [25] basieren auf Merkmalen auf hoher Ebene. Im Vergleich zu Ansätzen mit Merkmalen auf niedriger Ebene [23], [24] ist MSD im Durchschnitt um 10 % besser, und im Vergleich zu Ansätzen mit Merkmalen auf hoher Ebene [22], [25] ist es für jedes Genre im Durchschnitt um 8 % besser. Es wurde auch beobachtet, dass das Comedy-Genre in den meisten Werken im Vergleich zu den anderen vier Genres gut abschneidet, während Science-Fiction relativ niedrigere AU-Werte (PRC) aufweist. Dies könnte daran liegen, dass im Science-Fiction-Genre keine angemessene Unterscheidung möglich ist, da sich seine Merkmale mit einigen anderen ähnlichen Genres (wie Action) überschneiden.
Die vergleichende Studie zeigt, dass das vorgeschlagene Modell robust ist, da es bestehende Ansätze übertrifft und hervorragende Ergebnisse liefert. Die bessere Leistung ist darauf zurückzuführen, dass die vorgeschlagene Architektur sowohl kognitive als auch affektive Merkmale umfasst, was dem Modell hilft, wesentliche Merkmale jedes Genres zu erlernen und Genres somit präziser vorherzusagen.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .