264 чтения

Метод суммирования, а затем поиска для ответа на длинные видео-вопросы: заключение

к Kinetograph: The Video Editing Technology Publication1m2024/05/26

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, превосходящего контролируемые модели, используя повествовательные резюме и визуальное сопоставление.

featured image - Метод суммирования, а затем поиска для ответа на длинные видео-вопросы: заключение

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );

(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).

Таблица ссылок

5. Вывод

Мы представили Long Story Short — метод суммирования и поиска, позволяющий понять как глобальное повествование, так и соответствующие детали для контроля качества видеоповествования. Наш подход эффективен, когда контекст контроля качества обширен и для решения указанного контроля качества необходимо высокоуровневое взаимодействие с таким контекстом, что имеет место при длительном тестировании видео. Кроме того, мы предлагаем дополнительно улучшить визуальное обоснование ответа, сгенерированного моделью, путем последующей проверки визуального выравнивания с помощью CLIPCeck. Наш метод нулевого выстрела улучшает современные контролируемые подходы в тестах MovieQA и DramaQA. Мы планируем опубликовать код и сгенерированные данные графика.

Помимо этой работы есть два возможных направления исследований: во-первых, предоставление визуальных описаний, лучше соответствующих истории, с повторной идентификацией персонажей и разрешением соссылок, улучшающими качество ввода в GPT-3. Во-вторых, можно разработать более динамичный многошаговый поиск, который иерархически объединяет глобальную и локальную информацию.

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

БИРКИ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas