paint-brush
긴 비디오 질문 답변을 위한 요약 후 검색 방법: 결론~에 의해@kinetograph
262 판독값

긴 비디오 질문 답변을 위한 요약 후 검색 방법: 결론

너무 오래; 읽다

이 논문에서 연구자들은 GPT-3을 사용하여 감독 모델보다 뛰어난 성능을 발휘하고 내러티브 요약 및 시각적 일치를 활용하는 제로 샷 비디오 QA를 탐구합니다.
featured image - 긴 비디오 질문 답변을 위한 요약 후 검색 방법: 결론
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );

(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).

링크 표

5. 결론

비디오 내러티브 QA를 위한 글로벌 내러티브와 관련 세부 사항을 모두 이해하기 위해 요약 후 검색 방법인 Long Story Short를 도입했습니다. 우리의 접근 방식은 QA의 맥락이 광범위하고 해당 QA를 해결하기 위해 그러한 맥락과의 높은 수준의 상호 작용이 필요할 때 효과적입니다. 이는 긴 비디오 QA의 경우입니다. 또한 CLIPCheck로 시각적 정렬을 사후 확인하여 모델 생성 답변의 시각적 기반을 더욱 강화할 것을 제안합니다. 우리의 제로샷 방법은 MovieQA 및 DramaQA 벤치마크에서 지도되는 최첨단 접근 방식을 개선합니다. 우리는 코드와 생성된 플롯 데이터를 대중에게 공개할 계획입니다.


이 작업 외에 두 가지 가능한 연구 방향이 있습니다. 첫째, 캐릭터 재식별 및 공동 참조 해결을 통해 스토리에 더 잘 맞는 시각적 설명을 제공하면 GPT-3에 대한 입력 품질이 향상됩니다. 둘째, 전역 정보와 지역 정보를 계층적 방식으로 결합하는 보다 동적인 다중 홉 검색을 고안할 수 있습니다.