Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Tabela de links
- Resumo e introdução
- Método
- Experimentos
- Trabalho relatado
- Conclusão
- Limitações e Referências
- A. Detalhes do experimento
- B. Amostras de prompt
2. Método
2.1. Geração de plotagem
2.2. Pesquisa narrativa
Dada a narrativa resumida e a questão, desejamos recuperar o clipe relativamente curto relevante para a questão do vídeo longo. Os modelos de linguagem geram texto aberto, irregular e frequentemente barulhento. Para recuperar a parte exata do vídeo, direcionamos o modelo para gerar índices do gráfico em vez da forma de texto.
Os índices gerados ainda podem apresentar ruído devido à natureza aberta dos modelos de linguagem. Quando o modelo gera uma resposta em forma de texto, usamos a pontuação rouge-l [19] para encontrar candidatos a peças de enredo cuja similaridade com a sentença gerada esteja acima do limite especificado α ≥ 0,5.