Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Таблица ссылок
- Аннотация и введение
- Метод
- Эксперименты
- Связанных с работой
- Заключение
- Ограничения и ссылки
- А. Детали эксперимента
- Б. Образцы подсказки
2. Метод
2.1. Создание графика
2.2. Повествовательный поиск
Учитывая краткое повествование и вопрос, мы хотим извлечь из длинного видео относительно короткий отрывок, относящийся к вопросу. Языковые модели генерируют открытый текст, который нерегулярен и часто зашумлен. Чтобы получить точную часть видео, мы заставляем модель выводить индексы сюжета, а не текстовую форму.
Сгенерированные индексы могут по-прежнему быть зашумленными из-за открытого характера языковых моделей. Когда модель выводит ответ в текстовой форме, мы используем показатель rouge-l [19] для поиска кандидатов на фрагменты сюжета, сходство которых с сгенерированным предложением превышает указанный порог α ≥ 0,5.