Autoren:
(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.
Nützlichkeit der Wissensdestillation Wir untersuchen zunächst, ob wir die TP-Identifizierung verbessern, da dies für die Aufgabe der Trailer-Generierung von entscheidender Bedeutung ist. Wir teilen die Menge der Filme mit Ground-Truth-TP-Labels auf Szenenebene in Entwicklungs- und Test-Set auf und wählen die besten 5 (@5) und besten 10 (@10) Aufnahmen pro TP in einem Film aus. Als Bewertungsmaß betrachten wir die partielle Übereinstimmung (PA; [41]), die den Prozentsatz der TPs misst, für die ein Modell mindestens eine Ground-Truth-Aufnahme aus den 5 oder 10 aus dem Film ausgewählten Aufnahmen korrekt identifiziert (Einzelheiten finden Sie im Anhang).
Tabelle 2 fasst unsere Ergebnisse zum Testset zusammen. Wir betrachten die folgenden Vergleichssysteme: Der Zufall wählt Aufnahmen aus gleichmäßig verteilten Abschnitten aus (Durchschnitt von 10 Durchläufen); die Theorie weist den Aufnahmen TP gemäß der Drehbuchtheorie zu (z. B. „Gelegenheit“ tritt bei 10 % des Films auf, „Planänderung“ bei 25 % usw.); die Verteilung wählt Aufnahmen basierend auf ihrer erwarteten Position in den Trainingsdaten aus; GRAPHTP ist das ursprüngliche Modell von [42], das an Drehbüchern trainiert wurde (wir projizieren TP-Vorhersagen auf Szenenebene auf Aufnahmen); Transformer ist ein Basismodell ohne graphenbezogene Informationen. Wir verwenden unser eigenes Modell, GRAPHTRAILER, in mehreren Varianten zur TP-Identifizierung: ohne und mit Zugriff auf Drehbücher, trainiert nur mit dem Vorhersagekonsistenzverlust (P), sowohl Vorhersage- als auch Darstellungsverlusten (P + R) und unserem kontrastiven gemeinsamen Trainingsregime.
Wir beobachten, dass GRAPHTRAILER alle Baselines sowie das Transformer-Modell übertrifft. Obwohl letzteres Fernabhängigkeiten zwischen Aufnahmen kodiert, profitiert GRAPHTRAILER zusätzlich von der direkten Kodierung spärlicher Verbindungen, die im Graphen gelernt wurden. Darüber hinaus verbessert die asynchrone Wissensdestillation über den Vorhersagekonsistenzverlust (P) die Leistung weiter, was darauf hindeutet, dass das in Drehbüchern enthaltene Wissen das ergänzt, was aus Videos extrahiert werden kann. Beachten Sie, dass sich die Leistung erheblich verschlechtert, wenn wir den Darstellungskonsistenzverlust (P + R) hinzufügen, während der vorgeschlagene Trainingsansatz (kontrastive Verbindung) die beste Leistung erbringt. Schließlich bietet das Vortraining weitere, wenn auch kleine, Vorteile, die die Vorteile des drehbuchbasierten Netzwerks unterstreichen.
Trailerqualität Wir bewerten nun den Trailergenerierungsalgorithmus von GRAPHTRAILER anhand der zurückgehaltenen Menge von 41 Filmen (siehe Tabelle 1). Als Bewertungsmaß verwenden wir die Genauigkeit, d. h. den Prozentsatz der korrekt identifizierten Traileraufnahmen, und wir berücksichtigen ein Gesamtbudget von 10 Aufnahmen für die Trailer, um die gewünschte Länge (∼2 Minuten) zu erreichen.
Wir vergleichen GRAPHTRAILER mit mehreren unüberwachten Ansätzen (erster Block in Tabelle 3), darunter: Zufallsauswahl unter allen Aufnahmen und unter den von GRAPHTRAILER identifizierten TPs; wir implementieren auch zwei graphenbasierte Systeme auf der Grundlage eines vollständig verbundenen Graphen, in dem Knoten Aufnahmen sind und Kanten den Grad der Ähnlichkeit zwischen ihnen bezeichnen. Dieser Graph kennt keine TPs, er wird durch Berechnung der Ähnlichkeit zwischen generischen multimodalen Darstellungen erstellt. TEXTRANK [35] bearbeitet diesen Graphen, um Aufnahmen basierend auf ihrer Zentralität auszuwählen, während GRAPHTRAILER ohne TPs den Graphen durchläuft, wobei TP- und Stimmungskriterien entfernt werden (Gleichung 2). Für die unüberwachten Systeme, die Stochastik einschließen und Vorschläge erstellen (Zufall, GRAPHTRAILER), betrachten wir den besten Vorschlagstrailer. Der zweite Block in Tabelle 3 stellt überwachte Ansätze vor, die verrauschte Trailerlabels zum Training verwenden. Dazu gehören CCANet [53], das nur visuelle Informationen berücksichtigt und die gegenseitige Aufmerksamkeit zwischen Film- und Traileraufnahmen berechnet, sowie ein Vanilla Transformer, der für die binäre Aufgabe trainiert wurde, zu erkennen, ob eine Aufnahme in den Trailer gehört, ohne Drehbücher, Stimmungen oder TPs zu berücksichtigen. Supervised GRAPHTRAILER besteht aus unserem videobasierten Netzwerk, das mit denselben Daten wie der Transformer trainiert wurde.
GRAPHTRAILER schneidet unter den unüberwachten Methoden am besten ab. Interessanterweise ist TEXTRANK schlechter als zufällig, was zeigt, dass Aufgaben wie die Trailer-Generierung nicht als Standard-Zusammenfassungsprobleme betrachtet werden können. GRAPHTRAILER ohne TPs ist immer noch leistungsfähiger als TEXTRANK und zufällige TP-Auswahl.[7] In Bezug auf überwachte Ansätze stellen wir fest, dass die Verwendung aller Modalitäten mit einer Standardarchitektur (Transformer) zu einer besseren Leistung führt als anspruchsvolle Modelle mit visueller Ähnlichkeit (CCANet). Durch das Hinzufügen von graphenbezogenen Informationen (überwachter GRAPHTRAILER) erzielen wir weitere Verbesserungen.
Wir führen zwei Ablationsstudien am Entwicklungsset für GRAPHTRAILER durch. Die erste Studie zielt darauf ab, zu beurteilen, wie die unterschiedlichen Trainingsregime des dualen Netzwerks die Leistung der nachfolgenden Trailergenerierung beeinflussen. Wir beobachten in Tabelle 4, dass asynchrones Training keine erkennbare Verbesserung gegenüber dem Basismodell bietet. Wenn wir jedoch die beiden Netzwerke (video- und drehbuchbasiert) gemeinsam trainieren und dabei Vorhersage- und Darstellungskonsistenzverluste verwenden, steigt die Leistung um fast 3 %. Eine weitere kleine Steigerung wird beobachtet, wenn das drehbuchbasierte Netzwerk mit mehr Daten vorab trainiert wird.
Die zweite Ablationsstudie betrifft die Kriterien, die für die Durchführung von Zufallswanderungen auf dem Graphen G verwendet werden. Wie in Tabelle 5 gezeigt, verbessert sich die Leistung, wenn wir die Knoten im ausgewählten Pfad so anordnen, dass sie in der Nähe von Schlüsselereignissen liegen (Ähnlichkeit + TPs). Wenn wir uns ausschließlich auf die Stimmung verlassen (Ähnlichkeit + Stimmung), sinkt die Leistung leicht. Dies deutet darauf hin, dass im Gegensatz zu früheren Ansätzen, die sich hauptsächlich auf oberflächliche visuelle Attraktivität [53, 57] oder audiovisuelle Stimmungsanalyse [47] konzentrieren, Stimmungsinformationen allein nicht ausreichen und Ausreißer fördern können, die nicht gut in einen Trailer passen. Andererseits beobachten wir die höchste Genauigkeit, wenn Stimmungsinformationen mit Wissen über die narrative Struktur (Ähnlichkeit + TPs + Stimmung) kombiniert werden. Dies bestätigt weiter unsere Hypothese, dass die beiden Theorien zur Erstellung von Trailern (d. h. basierend auf narrativer Struktur und Emotionen) sich ergänzen und kombiniert werden können.
Da wir mehrere Trailer pro Film haben (für das Entwicklerset), können wir schließlich die Überlappung zwischen ihren Aufnahmen messen (Obergrenze). Die durchschnittliche Überlappung beträgt 86,14 %, was eine gute Übereinstimmung zwischen den Trailer-Machern und eine große Lücke zwischen menschlicher Leistung und automatischen Modellen zeigt.
Da wir mehrere Trailer pro Film haben (für das Entwicklerset), können wir schließlich die Überlappung zwischen ihren Aufnahmen messen (Obergrenze). Die durchschnittliche Überlappung beträgt 86,14 %, was eine gute Übereinstimmung zwischen den Trailer-Machern und eine große Lücke zwischen menschlicher Leistung und automatischen Modellen zeigt.
Menschliche Bewertung Wir haben auch eine Studie zur menschlichen Bewertung durchgeführt, um die Qualität der generierten Trailer einzuschätzen. Für die menschliche Bewertung berücksichtigen wir die Zufallsauswahl ohne TPs als Untergrenze, die beiden leistungsstärksten unüberwachten Modelle (d. h. GRAPHTRAILER mit und ohne TPs) und zwei überwachte Modelle: CCANet, das den bisherigen Stand der Technik für die Trailergenerierung darstellt, und die überwachte Version unseres Modells, das laut automatischen Messwerten das leistungsstärkste Modell ist.[8] Wir haben Trailer für alle Filme im zurückgehaltenen Set generiert. Anschließend haben wir die Crowdworker von Amazon Mechanical Turk (AMT) gebeten, sich alle Trailer für einen Film anzusehen, Fragen zu den bereitgestellten Informationen (Q1) und der Attraktivität (Q2) des Trailers zu beantworten und den besten und den schlechtesten Trailer auszuwählen. Wir haben pro Film Einschätzungen von fünf verschiedenen Juroren eingeholt.
Tabelle 6 zeigt, dass GRAPHTRAILER mit TPs im Durchschnitt informativere (Q1) und attraktivere (Q2) Trailer liefert als alle anderen Systeme. Obwohl GRAPHTRAILER ohne TPs und Supervised GRAPHTRAILER häufiger als bestes System ausgewählt werden, werden sie auch gleich oft als schlechtestes System ausgewählt. Wenn wir standardisierte Werte (z-Scores) unter Verwendung der Best-Worst-Skalierung [31] berechnen, erzielt GRAPHTRAILER mit TPs die beste Leistung (beachten Sie, dass es auch selten als schlechtestes System ausgewählt wird), gefolgt von Supervised GRAPHTRAILER. Interessanterweise wird GRAPHTRAILER ohne TPs am häufigsten als bestes System ausgewählt (24,40 %), was darauf hindeutet, dass der allgemeine Ansatz, Filme als Graphen zu modellieren und Zufallspfade durchzuführen, anstatt Aufnahmen einzeln auszuwählen, dabei hilft, kohärente Trailer zu erstellen. Dasselbe Modell wird jedoch auch am häufigsten als schlechtestes System ausgewählt, was zeigt, dass dieser naive Ansatz allein keine Trailer von guter Qualität garantieren kann.
Wir haben Videobeispiele von Trailern, die auf Grundlage unseres Ansatzes erstellt wurden, im Zusatzmaterial beigefügt. Darüber hinaus bieten wir im Anhang ein schrittweises grafisches Beispiel unseres Graph-Traversal-Algorithmus.
Achtung Spoiler! Unser Modell vermeidet Spoiler in den generierten Trailern nicht explizit. Wir haben beim Durchlaufen des Filmgraphen in Algorithmus 1 mit einem spoilerbezogenen Kriterium experimentiert. Konkret haben wir eine Strafe hinzugefügt, wenn Aufnahmen ausgewählt wurden, die sich in „spoilerempfindlichen“ Graphenumgebungen befinden. Wir haben solche Umgebungen identifiziert, indem wir den kürzesten Weg von den letzten beiden TPs gemessen haben, die per Definition die größten Spoiler in einem Film sind. Diese Variante unseres Algorithmus führte jedoch zu einer schlechteren Leistung und wir haben sie daher nicht weiter verfolgt. Wir glauben, dass ein solches Kriterium für die Erstellung von Trailersequenzen nicht von Vorteil ist, da es das Modell davon abhält, spannende Aufnahmen aus den letzten Teilen des Films auszuwählen. Diese spannungsgeladenen Aufnahmen sind wichtig für die Erstellung interessanter Trailer und sind tatsächlich in echten Trailern enthalten. Mehr als ein Drittel der professionellen Trailer in unserem Datensatz enthalten Aufnahmen aus den letzten beiden TPs („Großer Rückschlag“, „Höhepunkt“). Wir diskutieren dies im Anhang weiter.
Wir haben die generierten Trailer auch manuell überprüft und festgestellt, dass Spoiler nicht sehr häufig sind (d. h. wir haben in einer zufälligen Stichprobe von 12 Trailern aus dem Testset eine große Spoiler-Aufnahme identifiziert), möglicherweise weil die Wahrscheinlichkeit, einen großen Spoiler auszuwählen, im Allgemeinen gering ist. Und selbst wenn eine spoilerempfindliche Aufnahme enthalten ist, reicht sie aus dem Kontext gerissen möglicherweise nicht aus, um das Ende eines Films zu enthüllen. Wir überlassen es jedoch zukünftigen Arbeiten, ausgefeiltere Techniken zur Spoiler-Erkennung zu untersuchen, die leicht als zusätzliche Kriterien in unseren Algorithmus integriert werden können.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-SA 4.0 DEED verfügbar .
[7] Die Performance des Test-Sets ist geringer, da wir nur die Trailer-Labels des offiziellen Trailers berücksichtigen, während das Dev-Set mehrere Trailer enthält.
[8] Ground-Truth-Trailer werden von uns nicht in die menschliche Auswertung einbezogen, da diese nachbearbeitet werden (z. B. Montage, Voice-Over, Musik) und daher nicht direkt mit automatischen Trailern vergleichbar sind.