paint-brush
Filmtrailer-Generierung durch Aufgabenzerlegung: Modelldetailsvon@kinetograph

Filmtrailer-Generierung durch Aufgabenzerlegung: Modelldetails

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen, und übertreffen dabei überwachte Methoden.
featured image - Filmtrailer-Generierung durch Aufgabenzerlegung: Modelldetails
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

A. Modelldetails

In diesem Abschnitt geben wir Einzelheiten zu den verschiedenen Modellierungskomponenten unseres Ansatzes an. Wir beginnen mit der Beschreibung der GRAPHTRAILER-Architektur (Abschnitt A.1), diskutieren dann, wie das TP-Identifikationsnetzwerk trainiert wird (Abschnitt A.2) und geben abschließend technische Einzelheiten zum Vortraining anhand von Drehbüchern (A.3) und dem für die Graphendurchquerung verwendeten Stimmungsfluss (A.4).

GRAPHTRAILER


Wir adressieren Diskontinuitäten in unserem Modell (z. B. Top-k-Sampling, Nachbarschaftsgrößenauswahl) durch Verwendung des StraightThrough Estimator [7]. Während des Rückwärtsdurchlaufs berechnen wir die Gradienten mit dem Gumbel-Softmax-Reparametrisierungstrick [25, 32]. Dasselbe Verfahren wird für die Konstruktion und Verdünnung von Szenengraphen im zusätzlichen drehbuchbasierten Netzwerk angewendet.

A.2. Schulung zur TP-Identifizierung

Abschnitt 3 stellt unser Trainingsprogramm für das video- und drehbuchbasierte Modell vor, wobei angenommen wird, dass TP-Labels für Szenen verfügbar sind (d. h. binäre Labels, die angeben, ob eine Szene als TP in einem Film fungiert). Bei solchen Labels wird unser Modell mit einem binären Cross-Entropy-Loss-Ziel (BCE) zwischen den wenigen Hot-Gold-Labels und den TP-Vorhersagen des Netzwerks trainiert.


In der Praxis enthält unser Trainingsset jedoch Silberstandard-Beschriftungen für Szenen. Letztere werden zusammen mit dem TRIPOD-Datensatz [41] veröffentlicht und automatisch erstellt. Insbesondere bietet TRIPOD Goldstandard-TP-Annotationen für Synopsen (keine Drehbücher), unter der Annahme, dass Synopsensätze repräsentativ für TPs sind. Und Annotationen auf Satzebene werden mit einem Matching-Modell, das mit Lehrerzwang [41] trainiert wurde, auf Szenen projiziert, um Silberstandard-Beschriftungen zu erstellen.


A.3. Selbstüberwachtes Vortraining

A.4. Stimmungsfluss im GRAPHTRAILER

Eines der Kriterien für die Auswahl der nächsten Einstellung in unserem Graph-Traversal-Algorithmus (Abschnitt 3.1) ist der Sentiment-Flow des bisher generierten Trailers. Konkret gehen wir von der Hypothese[9] aus, dass Trailer basierend auf der Sentiment-Intensität in drei Abschnitte unterteilt werden. Der erste Abschnitt hat eine mittlere Intensität, um Zuschauer anzuziehen, der zweite Abschnitt hat eine niedrige Intensität, um wichtige Informationen über den Film zu liefern, und schließlich zeigt der dritte Abschnitt eine zunehmend höhere Intensität, um Cliffhanger und Spannung für den Film zu erzeugen.


Dementsprechend erwarten wir bei einem Budget von L Traileraufnahmen, dass die ersten L/3 Aufnahmen eine mittlere Intensität ohne große Schwankungen innerhalb des Abschnitts aufweisen (z. B. möchten wir Aufnahmen mit einer durchschnittlichen absoluten Intensität nahe 0,7, wobei alle Werte auf einen Bereich von -1 bis 1 normalisiert werden). Im zweiten Teil des Trailers (d. h. den nächsten L/3 Aufnahmen) erwarten wir einen starken Abfall der Intensität und dass die Aufnahmen in diesem Abschnitt eine mehr oder weniger neutrale Stimmung beibehalten (d. h. 0 Intensität). Schließlich erwarten wir für den dritten Abschnitt (d. h. die letzten L/3 Aufnahmen), dass die Intensität stetig zunimmt. In der Praxis erwarten wir, dass die Intensität der ersten Aufnahme 0,7 beträgt (d. h. mittlere Intensität) und mit jeder weiteren Aufnahme um 0,1 zunimmt, bis wir bei der letzten Aufnahme einen Höhepunkt erreichen.



[9] https : / / www . derek - lieu . com / blog / 2017 / 9 / 10 / the - matrix - is - a - trailer - editors-dream