paint-brush
Génération de bandes-annonces de film via la décomposition de tâches : détails du modèlepar@kinetograph

Génération de bandes-annonces de film via la décomposition de tâches : détails du modèle

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de film via la décomposition de tâches : détails du modèle
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

A. Détails du modèle

Dans cette section, nous fournissons des détails sur les différents composants de modélisation de notre approche. Nous commençons par fournir des détails sur l'architecture de GRAPHTRAILER (Section A.1), puis nous passons à la façon dont le réseau d'identification TP est formé (Section A.2), et enfin donnons des détails techniques sur la pré-formation sur les scénarios (A.3). , et le flux de sentiments utilisé pour le parcours graphique (A.4).

A.1. GRAPHTRAILER


Nous abordons les discontinuités dans notre modèle (c'est-à-dire l'échantillonnage top-k, la sélection de la taille du quartier) en utilisant l'estimateur StraightThrough [7]. Lors du passage arrière, nous calculons les gradients avec l'astuce de reparamétrisation Gumbel-softmax [25, 32]. La même procédure est suivie pour construire et fragmenter des graphiques au niveau de la scène dans le réseau auxiliaire basé sur un scénario.

A.2. Formation sur l'identification des TP

La section 3 présente notre régime de formation pour le modèle basé sur la vidéo et le scénario en supposant que des étiquettes TP pour les scènes sont disponibles (c'est-à-dire des étiquettes binaires indiquant si une scène agit comme un TP dans un film). Compte tenu de ces étiquettes, notre modèle est formé avec un objectif de perte d'entropie croisée binaire (BCE) entre les quelques étiquettes d'or les plus chaudes et les prédictions TP du réseau.


Cependant, en pratique, notre kit de formation contient des étiquettes silverstandard pour les scènes. Ces derniers sont publiés avec l'ensemble de données TRIPOD [41] et ont été créés automatiquement. Plus précisément, TRIPOD fournit des annotations TP de référence pour les synopsis (et non pour les scénarios), en supposant que les phrases du synopsis sont représentatives des TP. Et les annotations au niveau des phrases sont projetées sur des scènes avec un modèle correspondant formé avec la contrainte de l'enseignant [41] pour créer des étiquettes de qualité argent.


A.3. Pré-formation auto-supervisée

A.4. Flux de sentiments dans GRAPHTRAILER

L'un des critères de sélection du prochain plan dans notre algorithme de traversée de graphiques (Section 3.1) est le flux de sentiments de la bande-annonce générée jusqu'à présent. Plus précisément, nous adoptons l'hypothèse[9] selon laquelle les bandes-annonces sont segmentées en trois sections en fonction de l'intensité du sentiment. La première section a une intensité moyenne pour attirer les spectateurs, la deuxième section a une intensité faible pour fournir des informations clés sur le film et enfin la troisième section affiche une intensité progressivement plus élevée pour créer des cliffhangers et de l'excitation pour le film.


En conséquence, étant donné un budget de plans de bande-annonce L, nous nous attendons à ce que les premiers plans L/3 aient une intensité moyenne sans grandes variations au sein de la section (par exemple, nous voulons des plans avec une intensité absolue moyenne proche de 0,7, où tous les scores sont normalisés sur une plage de -1 à 1). Dans la deuxième partie de la bande-annonce (c'est-à-dire les prochains plans L/3), nous nous attendons à une forte baisse d'intensité et aux plans dans cette section pour maintenir un sentiment plus ou moins neutre (c'est-à-dire 0 intensité). Enfin, pour la troisième section (c'est-à-dire les derniers plans L/3), nous nous attendons à ce que l'intensité augmente régulièrement. En pratique, nous nous attendons à ce que l'intensité du premier tir soit de 0,7 (c'est-à-dire une intensité moyenne), augmentant de 0,1 à chaque tir suivant jusqu'à atteindre un pic au tir final.


Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.


[9] https : // www . Derek-lieu. com / blog / 2017 / 9 / 10 / la - matrice - est - une - bande-annonce - le rêve des éditeurs