paint-brush
Eine „Zusammenfassen-dann-Suchen“-Methode zum Beantworten langer Videofragen: Fazitvon@kinetograph
262 Lesungen

Eine „Zusammenfassen-dann-Suchen“-Methode zum Beantworten langer Videofragen: Fazit

Zu lang; Lesen

In diesem Artikel untersuchen Forscher die Qualitätssicherung von Zero-Shot-Videos mithilfe von GPT-3 und übertreffen dabei überwachte Modelle, indem sie narrative Zusammenfassungen und visuelles Matching nutzen.
featured image - Eine „Zusammenfassen-dann-Suchen“-Methode zum Beantworten langer Videofragen: Fazit
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Linktabelle

5. Schlussfolgerung

Wir haben Long Story Short eingeführt, eine Methode, bei der zunächst zusammengefasst und dann gesucht wird, um sowohl die globale Erzählung als auch die relevanten Details für die Qualitätssicherung von Videoerzählungen zu verstehen. Unser Ansatz ist effektiv, wenn der Kontext der Qualitätssicherung umfangreich ist und eine hochrangige Interaktion mit diesem Kontext erforderlich ist, um die besagte Qualitätssicherung zu lösen, was bei langen Video-Qualitätssicherungen der Fall ist. Außerdem schlagen wir vor, die visuelle Verankerung der vom Modell generierten Antwort weiter zu verbessern, indem wir die visuelle Ausrichtung nachträglich mit CLIPCheck überprüfen. Unsere Zero-Shot-Methode verbessert überwachte State-of-Art-Ansätze in MovieQA- und DramaQA-Benchmarks. Wir planen, den Code und die generierten Handlungsdaten öffentlich zugänglich zu machen.


Über diese Arbeit hinaus gibt es zwei mögliche Forschungsrichtungen: Erstens kann die Bereitstellung visueller Beschreibungen, die besser auf die Geschichte abgestimmt sind, mit Charakter-Neuidentifizierung und Koreferenzauflösung die Eingabequalität für GPT-3 verbessern. Zweitens kann man eine dynamischere Multi-Hop-Suche entwickeln, die globale und lokale Informationen auf hierarchische Weise kombiniert.