paint-brush
Multilevel-Profiling situations- und dialogbasierter Deep Networks: Experimentevon@kinetograph
108 Lesungen

Multilevel-Profiling situations- und dialogbasierter Deep Networks: Experimente

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein multimodales Framework zur Klassifizierung von Filmgenres vor, das Situations-, Dialog- und Metadatenfunktionen nutzt.
featured image - Multilevel-Profiling situations- und dialogbasierter Deep Networks: Experimente
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;

(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien

(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien

(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.

Linktabelle

5. Experimente

In diesem Teil werden wir verschiedene Modellarchitekturen anhand unterschiedlicher Modalitäten und vorab fusionierter Modelle untersuchen. Später verifizieren wir unsere Arbeit, indem wir sie sowohl am Standard-LMTD-9-Datensatz als auch an unserem vorgeschlagenen Datensatz validieren. Abschließend wird eine Vergleichsstudie zur Untersuchung der Robustheit unseres Modells diskutiert. Alle Experimente werden auf GPU-Workstations mit 128 GB DDR4-RAM und Nvidia Titan RTX (24 GB) GPU-Konfiguration durchgeführt.

5.1. Datensätze

Zur Verifizierung unseres Frameworks verwenden wir unseren vorgeschlagenen Datensatz und den Standard-LMTD-9-Datensatz [2]. Ausführliche Details sind wie folgt aufgeführt:

5.1.1. Englischer Filmtrailer-Datensatz (EMTD)

EMTD: Unser vorgeschlagener Datensatz enthält einen separaten Trainingssatz mit 1700 einzigartigen Trailern und einen Validierungssatz mit 300 einzigartigen Trailern, die alle von IMDB stammen, wie in Abschnitt 3 erwähnt.

5.1.2. Beschrifteter Filmtrailer-Datensatz (LMTD-9)

LMTD [16], [20] ist ein groß angelegter Filmtrailer-Datensatz mit mehreren Labels, einschließlich Trailer-Link, Trailer-Metadaten, Handlung/Zusammenfassung, eindeutiger Trailer-ID, der aus rund 9.000 Filmtrailern besteht, die zu 22 verschiedenen Labels/Genres gehören. Zu Verifizierungszwecken wird ein Validierungssatz (Unterteil) von LMTD-9 [2] verwendet, der nur die nach 1980 veröffentlichten Hollywood-Trailer und Trailer enthält, die spezifisch für unsere Genreliste sind. Der Datensatz enthält Trailer unterschiedlicher Länge mit unterschiedlicher Videoqualität und unterschiedlichen Seitenverhältnissen.

5.2. Klassifizierungsergebnisse für verschiedene Modelle

In diesem Abschnitt werden wir unsere Experimente mit verschiedenen Framework-Varianten besprechen. Wir haben mit 3 verschiedenen Frameworks experimentiert, die auf unterschiedlichen Modalitäten und vorab fusionierten Funktionen basieren.


  • MS (Videobildanalyse): Modell, das nur situationsbezogene Merkmale aus Videobildern berücksichtigt.


  • MD (Dialog-Metadaten-Analyse): Modell, das Dialoge aus Audio und Beschreibungen aus Metadaten als Merkmale berücksichtigt.


  • MSD (Multimodalitätsanalyse): Modell, das situationsbezogene Merkmale aus Videobildern, Dialoge aus Audio und Beschreibungen aus Metadaten als Merkmale berücksichtigt.





Für MSD wird die in Abschnitt 4.2.3 vorgeschlagene Architektur mit vorab fusionierten Merkmalen verwendet. Das Eingabekorpus wird jedoch leicht modifiziert. Für MSD wird das in Abschnitt 4.4 definierte Korpus verwendet. Präzision, Rückruf und F1-Score für MSD auf LMTD-9 und EMTD sind in Tabelle 5 dargestellt. Der AU (PRC)-Vergleich von MSD mit MS und MD wird jedoch im nächsten Abschnitt erörtert.


Es sind gewisse Unterschiede zwischen den Leistungen der verschiedenen Genres zu erkennen. Die meisten Trailer der Hauptgenres werden genau klassifiziert (mit einem F1-Score von 0,84 und höher), was zeigt, dass das vorgeschlagene Modell gut funktioniert. Das Action-Genre war das Genre mit der besten Leistung unter den fünf mit einem F1-Score von 0,88 bzw. 0,89 bei EMTD und LMTD-9. Das Romantik-Genre erwies sich als das Genre mit der schlechtesten Leistung unter allen Genres in Bezug auf den F1-Score. Es wird beobachtet, dass viele Trailer des Romantik-Genres fälschlicherweise als Komödie klassifiziert werden, da beide Genres von ähnlichen Wörtern wie glücklich, lächeln, lachen usw. dominiert werden.


Abb. 5: Präzisions-Recall-Kurve für MD A) EMTD B) LMTD-9


Abb. 6: Präzisions-Recall-Kurve für MS A) EMTD B) LMTD-9


Abb. 7: Präzisions-Recall-Kurven MSD A) EMTD B) LMTD-9

5.3. Vergleich zwischen Australien und der Volksrepublik China

Die AU (PRC), d. h. die Fläche unterhalb der Präzisions-Recall-Kurve, wird berechnet, um unsere Klassifizierungsergebnisse zu vergleichen, da wir es mit dem Problem der Multi-Label-Klassifizierung zu tun haben. Das AU (PRC)-Maß hilft dabei, die tatsächliche Leistung unseres Modells zu vergleichen und den Rauscheffekt aufgrund des Klassenungleichgewichts im Multi-Label-Datensatz auszugleichen. Die AU (PRC)-Kurven werden für alle 3 Modelle auf beiden Datensätzen erstellt, wie in Abb. 5, Abb. 6 und Abb. 7 dargestellt. Im Validierungssatz von EMTD fanden wir fast ähnliche AU (PRC)-Werte von 92 %, 91 %, 88 % bei MSD, MD und MS. Wir stellten jedoch fest, dass unser MSD im LMTD9-Datensatz 82 % AU (PRC)-Werte liefert, was höher ist als bei den anderen beiden Modellen, d. h. 72 % und 80 % AU (PRC) von MD und MS, wie in Tabelle 6.


Tabelle 6: AU (PRC) bei verschiedenen Modellen


Für einen Gesamtvergleich mit einigen anderen Modellen, mit denen wir im Rahmen unserer Studie experimentiert haben, führen wir jedoch ihre Ergebnisse in Tabelle 6 auf. Um die beste Architektur auszuwählen, werden die Modelle in Bezug auf AU (PRC) auf beiden Validierungsdatensätzen verglichen. Die Implementierung aller genannten Modelle hilft uns bei der Entscheidung über das beste Modell für die fusionierten Features. Obwohl MD auf EMTD vergleichbare AU (PRC)-Werte wie MSD aufweist, hat MSD auf LMTD-9 MD übertroffen. Ähnliches gilt für MS auf LMTD-9. Während MSD auf beiden Datensätzen gleichzeitig gut abgeschnitten hat, trifft dies nicht auf MS und MD einzeln zu. Durch die Validierung über mehrere Datensätze hinweg erweist sich MSD als robuster. Wir kommen zu dem Schluss, dass das vorgeschlagene MSD das leistungsstärkste Modell ist.

5.4. Vergleich der Ausgangssituation

In diesem Abschnitt validieren wir die Leistungsfähigkeit unseres vorgeschlagenen Modells, indem wir einen Vergleich des aktuellen Stands der Technik mit früheren Ansätzen zur Klassifizierung von Filmgenres durchführen und dabei die AU (PRC)-Metrik für jedes Genre separat verwenden, wie in Tabelle 7 dargestellt. Alle in Tabelle 7 genannten Ergebnisse werden mit bis zu zwei Dezimalstellen angegeben und basieren auf dem Standarddatensatz LMTD-9 mit Ausnahme von Fish et. al. [22], dessen Ergebnisse auf dem MMX-Trailer-20-Datensatz basieren. Das Romantik-Genre wird in seiner Untersuchung nicht berücksichtigt. Bei den anderen Genres ist jedoch der Unterschied zwischen den AU (PRC)-Werten von Fish et. al. [22] und MSD bemerkenswert. MSD übertrifft es im Durchschnitt um 20 %. Die Klassifizierung auf Grundlage visueller Merkmale auf niedriger Ebene [23] basiert auf 24 visuellen Merkmalen auf niedriger Ebene, SAS-MC-v2 [24] verwendet nur die Synopsis zur Trailerklassifizierung, Fish et. al. [22] und CTT-MMC-TN [25] basieren auf Merkmalen auf hoher Ebene. Im Vergleich zu Ansätzen mit Merkmalen auf niedriger Ebene [23], [24] ist MSD im Durchschnitt um 10 % besser, und im Vergleich zu Ansätzen mit Merkmalen auf hoher Ebene [22], [25] ist es für jedes Genre im Durchschnitt um 8 % besser. Es wurde auch beobachtet, dass das Comedy-Genre in den meisten Werken im Vergleich zu den anderen vier Genres gut abschneidet, während Science-Fiction relativ niedrigere AU-Werte (PRC) aufweist. Dies könnte daran liegen, dass im Science-Fiction-Genre keine angemessene Unterscheidung möglich ist, da sich seine Merkmale mit einigen anderen ähnlichen Genres (wie Action) überschneiden.


Tabelle 7: Vergleich des vorgeschlagenen Modells mit ähnlichen aktuellen Verfahren unter Verwendung von AU (PRC)


Die vergleichende Studie zeigt, dass das vorgeschlagene Modell robust ist, da es bestehende Ansätze übertrifft und hervorragende Ergebnisse liefert. Die bessere Leistung ist darauf zurückzuführen, dass die vorgeschlagene Architektur sowohl kognitive als auch affektive Merkmale umfasst, was dem Modell hilft, wesentliche Merkmale jedes Genres zu erlernen und Genres somit präziser vorherzusagen.