paint-brush
Geração de trailer de filme por meio de decomposição de tarefas: detalhes do modelopor@kinetograph

Geração de trailer de filme por meio de decomposição de tarefas: detalhes do modelo

Muito longo; Para ler

Neste artigo, os pesquisadores modelam filmes como gráficos para gerar trailers, identificando a estrutura narrativa e prevendo o sentimento, superando os métodos supervisionados.
featured image - Geração de trailer de filme por meio de decomposição de tarefas: detalhes do modelo
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.

Tabela de links

A. Detalhes do modelo

Nesta seção fornecemos detalhes sobre os vários componentes de modelagem de nossa abordagem. Começamos fornecendo detalhes da arquitetura GRAPHTRAILER (Seção A.1), depois discutimos como a rede de identificação TP é treinada (Seção A.2) e, finalmente, fornecemos detalhes técnicos sobre o pré-treinamento em roteiros (A.3). , e o fluxo de sentimento usado para travessia do gráfico (A.4).

A.1. GRAPHTRAILER


Abordamos as descontinuidades em nosso modelo (ou seja, amostragem top-k, seleção do tamanho da vizinhança) utilizando o StraightThrough Estimator [7]. Durante a passagem para trás, calculamos os gradientes com o truque de reparametrização Gumbel-softmax [25, 32]. O mesmo procedimento é seguido para construir e dispersar gráficos em nível de cena na rede auxiliar baseada em roteiro.

A.2. Treinamento sobre identificação de TP

A Seção 3 apresenta nosso regime de treinamento para o modelo baseado em vídeo e roteiro, assumindo que rótulos TP para cenas estão disponíveis (ou seja, rótulos binários indicando se uma cena atua como TP em um filme). Dados esses rótulos, nosso modelo é treinado com um objetivo binário de perda de entropia cruzada (BCE) entre os rótulos de ouro pouco quente e as previsões de TP da rede.


Entretanto, na prática, nosso conjunto de treinamento contém rótulos padrão prata para cenas. Estes últimos são lançados junto com o conjunto de dados TRIPOD [41] e foram criados automaticamente. Especificamente, o TRIPOD fornece anotações TP padrão-ouro para sinopses (não roteiros), sob a suposição de que as sentenças da sinopse são representativas dos TPs. E as anotações em nível de frase são projetadas para cenas com um modelo correspondente treinado com o professor, forçando [41] a criar rótulos padrão prata.


A.3. Pré-treinamento auto-supervisionado

A.4. Fluxo de sentimento no GRAPHTRAILER

Um dos critérios para selecionar a próxima cena em nosso algoritmo de travessia de gráfico (Seção 3.1) é o fluxo de sentimento do trailer gerado até o momento. Especificamente, adotamos a hipótese[9] de que os trailers são segmentados em três seções com base na intensidade do sentimento. A primeira seção tem intensidade média para atrair espectadores, a segunda seção tem intensidade baixa para fornecer informações importantes sobre o filme e, finalmente, a terceira seção exibe intensidade progressivamente maior para criar suspense e emoção para o filme.


Assim, dado um orçamento de L tomadas de trailer, esperamos que as primeiras L/3 tenham intensidade média sem grandes variações dentro da seção (por exemplo, queremos tomadas com intensidade média absoluta próxima de 0,7, onde todas as pontuações são normalizadas para uma faixa de -1 a 1). Na segunda parte do trailer (ou seja, nas próximas cenas L/3), esperamos uma queda acentuada na intensidade e nas cenas nesta seção para manter um sentimento mais ou menos neutro (ou seja, intensidade 0). Finalmente, para a terceira seção (ou seja, as doses finais L/3), esperamos que a intensidade aumente de forma constante. Na prática, esperamos que a intensidade do primeiro disparo seja de 0,7 (ou seja, intensidade média), aumentando 0,1 a cada disparo subsequente até atingirmos um pico no disparo final.


Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.


[9] https://www. Derek - lugar. com/blog/2017/9/10/a - matriz - é - um - trailer - sonho dos editores