Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
В этом разделе мы подробно рассказываем о различных компонентах моделирования нашего подхода. Мы начинаем с подробного описания архитектуры GRAPHTRAILER (раздел A.1), затем переходим к обсуждению того, как обучается сеть идентификации TP (раздел A.2), и, наконец, приводим технические подробности предварительного обучения сценариям (A.3). и поток настроений, используемый для обхода графика (A.4).
Мы устраняем разрывы в нашей модели (т. е. выборку по топ-k, выбор размера окрестности) с помощью метода прямой оценки [7]. Во время обратного прохода мы вычисляем градиенты с помощью трюка репараметризации Gumbel-softmax [25, 32]. Та же процедура используется для построения и разрежения графов уровня сцены во вспомогательной сети на основе сценария.
В разделе 3 представлен наш режим обучения для модели, основанной на видео и сценарии, при условии, что для сцен доступны метки TP (т. е. двоичные метки, указывающие, действует ли сцена как TP в фильме). Учитывая такие метки, наша модель обучается с целью бинарной перекрестной энтропии (BCE) между метками с несколькими горячими золотыми и прогнозами TP сети.
Однако на практике наш обучающий набор содержит метки сцен серебряного стандарта. Последние выпускаются вместе с набором данных TRIPOD [41] и создаются автоматически. В частности, TRIPOD предоставляет стандартные аннотации TP для синопсисов (а не сценариев) при условии, что предложения синопсиса являются репрезентативными для TP. А аннотации на уровне предложений проецируются на сцены с соответствующей моделью, обученной учителем [41] и заставляющей создавать ярлыки серебряного стандарта.
Одним из критериев выбора следующего кадра в нашем алгоритме обхода графа (раздел 3.1) является поток настроений сгенерированного на данный момент трейлера. В частности, мы принимаем гипотезу[9] о том, что трейлеры разделены на три части в зависимости от интенсивности настроений. Первый раздел имеет среднюю интенсивность для привлечения зрителей, второй раздел имеет низкую интенсивность для предоставления ключевой информации о фильме и, наконец, третий раздел демонстрирует постепенно возрастающую интенсивность для создания захватывающих моментов и волнения перед фильмом.
Соответственно, учитывая бюджет из L кадров трейлера, мы ожидаем, что первые кадры L/3 будут иметь среднюю интенсивность без больших изменений внутри раздела (например, нам нужны кадры со средней абсолютной интенсивностью, близкой к 0,7, где все оценки нормализованы к диапазону от -1 до 1). Во второй части трейлера (т. е. следующих кадрах L/3) мы ожидаем резкого падения интенсивности, а кадры в этом разделе сохранят более или менее нейтральное настроение (т. е. 0 интенсивности). Наконец, в третьем разделе (т. е. последних кадрах L/3) мы ожидаем, что интенсивность будет постепенно возрастать. На практике мы ожидаем, что интенсивность первого кадра будет равна 0,7 (т. е. средняя интенсивность), увеличиваясь на 0,1 с каждым последующим кадром, пока мы не достигнем пика на последнем кадре.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.
[9] https://www. Дерек - Лью. com / блог / 2017 / 9 / 10 / - матрица - это - трейлер - мечта редакторов