paint-brush
Multilevel-Profiling situations- und dialogbasierter Deep Networks: EMTD-Datensatzvon@kinetograph

Multilevel-Profiling situations- und dialogbasierter Deep Networks: EMTD-Datensatz

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein multimodales Framework zur Klassifizierung von Filmgenres vor, das Situations-, Dialog- und Metadatenfunktionen nutzt.
featured image - Multilevel-Profiling situations- und dialogbasierter Deep Networks: EMTD-Datensatz
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;

(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien

(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien

(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.

Linktabelle

3. EMTD-Datensatz

Den Datensätzen in der bisherigen Literatur fehlt die einheitliche Zusammensetzung der Filmgenres. Daher schlagen wir einen EMTD (English Movie Trailer Dataset) vor, der aus rund 2000 einzigartigen Hollywood-Trailern besteht, die von IMDB1 heruntergeladen wurden. EMTD enthält 2000 einzigartige Trailer aus 5 Genres, nämlich Action, Komödie, Horror, Romantik, Science-Fiction. Der Datensatz wird wie folgt durch ein Web-Scraping-Verfahren aus IMDB extrahiert: (1) Liste der auf IMDB verfügbaren Filmtitel abrufen (mit mindestens 1 Genre, das mit einem der oben genannten gemeinsam ist), (2) zu jedem Filmtitel gehörende Metadaten scrapen, einschließlich des Trailer-Links zum Herunterladen, und (3) die dem Link entsprechenden Trailer (.mp4) in einen Ordner herunterladen und alle Informationen/Metadaten zum Film auflisten, einschließlich Trailername, Beschreibungen, Handlung, Stichworte und Genres in Form einer CSV-Datei. In dieser Arbeit wird der Datensatz wie in Tabelle 1 dargestellt in ein Train-Set (1700 Trailer) und ein Validierungs-Set (300 Trailer) aufgeteilt.


Die Studie wird nur mit den oben genannten Genres durchgeführt, da diese Genres hauptsächlich in Filmen vorkommen. Wir möchten auch die Leistung unserer Architektur zunächst anhand einer kleinen Gruppe von Genres untersuchen, daher wählen wir nur 5 Genres aus, anstatt uns auf eine breite Gruppe von Genres zu konzentrieren.


Tabelle 1: Zusammensetzung des Datensatzes