Autores:
(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.
Nesta seção fornecemos detalhes sobre os vários componentes de modelagem de nossa abordagem. Começamos fornecendo detalhes da arquitetura GRAPHTRAILER (Seção A.1), depois discutimos como a rede de identificação TP é treinada (Seção A.2) e, finalmente, fornecemos detalhes técnicos sobre o pré-treinamento em roteiros (A.3). , e o fluxo de sentimento usado para travessia do gráfico (A.4).
Abordamos as descontinuidades em nosso modelo (ou seja, amostragem top-k, seleção do tamanho da vizinhança) utilizando o StraightThrough Estimator [7]. Durante a passagem para trás, calculamos os gradientes com o truque de reparametrização Gumbel-softmax [25, 32]. O mesmo procedimento é seguido para construir e dispersar gráficos em nível de cena na rede auxiliar baseada em roteiro.
A Seção 3 apresenta nosso regime de treinamento para o modelo baseado em vídeo e roteiro, assumindo que rótulos TP para cenas estão disponíveis (ou seja, rótulos binários indicando se uma cena atua como TP em um filme). Dados esses rótulos, nosso modelo é treinado com um objetivo binário de perda de entropia cruzada (BCE) entre os rótulos de ouro pouco quente e as previsões de TP da rede.
Entretanto, na prática, nosso conjunto de treinamento contém rótulos padrão prata para cenas. Estes últimos são lançados junto com o conjunto de dados TRIPOD [41] e foram criados automaticamente. Especificamente, o TRIPOD fornece anotações TP padrão-ouro para sinopses (não roteiros), sob a suposição de que as sentenças da sinopse são representativas dos TPs. E as anotações em nível de frase são projetadas para cenas com um modelo correspondente treinado com o professor, forçando [41] a criar rótulos padrão prata.
Um dos critérios para selecionar a próxima cena em nosso algoritmo de travessia de gráfico (Seção 3.1) é o fluxo de sentimento do trailer gerado até o momento. Especificamente, adotamos a hipótese[9] de que os trailers são segmentados em três seções com base na intensidade do sentimento. A primeira seção tem intensidade média para atrair espectadores, a segunda seção tem intensidade baixa para fornecer informações importantes sobre o filme e, finalmente, a terceira seção exibe intensidade progressivamente maior para criar suspense e emoção para o filme.
Assim, dado um orçamento de L tomadas de trailer, esperamos que as primeiras L/3 tenham intensidade média sem grandes variações dentro da seção (por exemplo, queremos tomadas com intensidade média absoluta próxima de 0,7, onde todas as pontuações são normalizadas para uma faixa de -1 a 1). Na segunda parte do trailer (ou seja, nas próximas cenas L/3), esperamos uma queda acentuada na intensidade e nas cenas nesta seção para manter um sentimento mais ou menos neutro (ou seja, intensidade 0). Finalmente, para a terceira seção (ou seja, as doses finais L/3), esperamos que a intensidade aumente de forma constante. Na prática, esperamos que a intensidade do primeiro disparo seja de 0,7 (ou seja, intensidade média), aumentando 0,1 a cada disparo subsequente até atingirmos um pico no disparo final.
Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.
[9] https://www. Derek - lugar. com/blog/2017/9/10/a - matriz - é - um - trailer - sonho dos editores