लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग

द्वारा Kinetograph: The Video Editing Technology Publication4m2024/05/26

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।

featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

3. प्रयोग

सभी प्रयोगों के लिए, हम GPT-3 [1] (text-davinci-003) को बैकबोन भाषा मॉडल के रूप में उपयोग करते हैं। जब तक अन्यथा न कहा जाए, हम वीडियो को विभाजित करने के लिए ग्राउंड ट्रुथ क्लिप सीमा का उपयोग करते हैं। सभी LSS वेरिएंट किसी भी प्रशिक्षण डेटा का उपयोग नहीं करते हैं और इस प्रकार शून्य-शॉट विधियाँ हैं।

3.1. लंबी कहानी का संक्षेप में मूल्यांकन

मूवीक्यूए [27] 408 फिल्मों से प्राप्त एक बड़े पैमाने का क्यूए डेटासेट है। डेटासेट में सूचना के कई स्रोत हैं; उपशीर्षक, स्क्रिप्ट, डीवीएस, वीडियो क्लिप और प्लॉट। हम चार अत्याधुनिक पर्यवेक्षित बेसलाइन की रिपोर्ट करते हैं; A2A [20], PAMN [11], यूनिवर्सलक्यूए [10], और DHTCN [21]।

तालिका 1 दिखाती है कि पिछले पर्यवेक्षित दृष्टिकोणों की तुलना में जीरो-शॉट LSS में सुधार हुआ है। साथ ही, ग्राउंड-ट्रुथ सेगमेंट इंडेक्स लेबल के बिना भी ऑवर-सर्च मजबूत प्रदर्शन दिखाता है। CLIPCheck वीडियो स्प्लिट में सटीकता को थोड़ा बेहतर बनाता है। हालाँकि, अंतर मामूली है क्योंकि MovieQA को अक्सर सामान्य दृश्य मिलान के बजाय चरित्र-आधारित ग्राउंडिंग की आवश्यकता होती है। अंत में, हम शून्य परिकल्पना के साथ प्रयोग करते हैं: कोई संदर्भ नहीं परीक्षण करता है कि क्या GPT-3 हर तथ्य को याद करके MovieQA को हल करता है। कोई संदर्भ नहीं LSS से भी खराब प्रदर्शन करता है, शून्य परिकल्पना को खारिज करता है।

पोरोरोक्यूए [13] एक कार्टून श्रृंखला से निर्मित एक वीडियो स्टोरी क्यूए डेटासेट है। पर्यवेक्षित बेसलाइन मानव-जनित प्लॉट और ग्राउंड ट्रुथ वीडियो सेगमेंट इंडेक्स लेती है, जबकि एलएसएस + प्लॉट + सर्च दोनों में से कोई भी नहीं लेता है।

तालिका 2 पोरोरोक्यूए डेटासेट पर हमारे परिणाम का सारांश प्रस्तुत करती है। ग्राउंड-ट्रुथ एपिसोड और प्लॉट दोनों का उपयोग करते समय, GPT-3 सुपरवाइज्ड बेसलाइन के लगभग बराबर प्रदर्शन करता है। मानव-जनित सारांश को मॉडल-जनित सारांश से प्रतिस्थापित करने पर केवल मामूली प्रदर्शन में गिरावट आती है। शायद दिलचस्प बात यह है कि मॉडल-जनित प्लॉट का उपयोग करते समय खोज प्रक्रिया बेहतर काम करती है। हम इस परिणाम का श्रेय इस तथ्य को देते हैं कि मानव एनोटेशन एपिसोड भेदभाव के लिए डिज़ाइन नहीं किए गए हैं।

3.2. CLIPCheck का मूल्यांकन

ड्रामाक्यूए [3] वीडियो क्यूए डेटासेट है जो कहानी की समझ पर केंद्रित है। डेटासेट को पदानुक्रमित कठिनाई के चार स्तरों के साथ व्यवस्थित किया गया है, जो मानव संज्ञानात्मक विकासात्मक चरणों का पालन करते हैं। हम प्लॉट समझ का परीक्षण करने के लिए ड्रामाक्यूए के दो उच्च स्तरों पर एलएसएस का मूल्यांकन करते हैं। हम स्तर-वार ड्रामाक्यूए में दो नवीनतम बेसलाइन की रिपोर्ट करते हैं; कैरेक्टरअटेंशन और किम एट अल। [14]।

हम CLIPCheck और Caption के प्रभाव की तुलना करते हैं, जो BLIP [18] से निकाले गए इमेज फ्रेम विवरणों को GPT-3 में इनपुट के रूप में शामिल करने की एक प्रॉम्प्ट-आधारित विधि है। तालिका 3 से पता चलता है कि CLIPCheck इमेज विवरणों की तुलना में अधिक सुधार प्रदान करता है। साथ ही, इमेज कैप्शन जोड़ने से LSS में सुधार होता है, लेकिन CLIPCheck के साथ संयुक्त रूप से उपयोग करने पर लाभ गायब हो जाता है। हमें संदेह है कि ऐसा इसलिए है क्योंकि फ्रेम कैप्शन CLIPCheck के समान जानकारी प्रदान करते हैं, जबकि बहुत अधिक शोर करते हैं। ध्यान दें कि यहां स्वचालित कैप्शन LSS का अभिन्न अंग नहीं हैं। चूंकि DramaQA में पहले से ही दृश्यमान रूप से आधारित एनोटेशन हैं, इसलिए उसके शीर्ष पर स्वचालित इमेज कैप्शन जोड़ने से मॉडल का प्रदर्शन बेहतर नहीं होगा।

अंत में, हम जाँचते हैं कि क्या CLIPCheck दृश्य संदर्भ को समझने के बजाय डेटासेट पूर्वाग्रह का फायदा उठाता है। इस उद्देश्य के लिए, हम यादृच्छिक दृश्य संदर्भ (CLIPCheck-Shuffle) के साथ CLIPCheck का एक प्रकार तैयार करते हैं। CLIPCheck-Shuffle बिना CLIPCheck के LSS पर बेहतर नहीं होता है, जो पूर्वाग्रह की परिकल्पना को नकारता है।

3.3. एब्लेशन अध्ययन

क्या कथात्मक समझ के लिए सारांश और खोज दोनों ही महत्वपूर्ण हैं? यहाँ, हम कथात्मक खोज के बिना पूर्ण संदर्भ के साथ LSS वेरिएंट का मूल्यांकन करते हैं (LSS-Ful) या इनपुट के रूप में प्लॉट सारांश और यादृच्छिक खंड के साथ (LSS-Random)। तालिका 4 से पता चलता है कि LSS-Ful और LSS-Random दोनों ही LSS-Search से पीछे हैं, जो पुनर्प्राप्ति के महत्व को दर्शाता है। ध्यान दें कि टोकन लंबाई सीमा के कारण हम LSS-Ful में पूर्ण संदर्भ का उपयोग नहीं कर सके। इसके बजाय, हम पूर्ण संदर्भ के सबसे लंबे उपसर्ग का उपयोग करते हैं जिसे GPT3 स्वीकार करता है (निर्देश की लंबाई घटाकर 4000 टोकन)।

3.4. गुणात्मक परिणाम

चित्र 3 में LSS फ्रेमवर्क में भाषा मॉडल का उपयोग करके लंबे वीडियो QA के मध्यवर्ती संदर्भ के रूप में उत्पन्न स्वचालित प्लॉट सारांश दिखाया गया है। जैसा कि गुणात्मक नमूने में दिखाया गया है, उत्पन्न प्लॉट विकिपीडिया से मानव-लिखित प्लॉट के साथ अच्छी तरह से संरेखित होते हैं। उदाहरण के लिए, फिल्म "हैरी पॉटर एंड द डेथली हैलोज़" के पहले दृश्य में, LSS सारांश सही ढंग से लिखता है कि हैरी पॉटर वर्तमान में 17 वर्ष का है और मुख्य घटना जिसमें डेथ ईटर नायक पर हमला करते हैं।

चित्र 4 खोजे गए प्लॉट पीस और उत्तर संभावना के बीच संबंध को दर्शाता है। बाईं ओर के उदाहरण में, प्राप्त सारांश बताता है कि ट्रेंच ने एक अपराध किया है और इसलिए भाग रहा है, यह सुझाव देता है कि उसमें रुचि रखने वाला कोई अन्य चरित्र उसका पीछा कर रहा होगा। भाषा मॉडल उत्तर संभावना को सही तरीके से संशोधित करने के लिए इस संदर्भ को समझता है। सही उदाहरण में, LSS प्लॉट पीस बताता है कि एडवर्ड अपने निर्णय में आश्वस्त है। जबकि यह संदर्भ प्रश्न के लिए कोई सीधा संकेत नहीं देता है, भाषा मॉडल इसे उत्तर को बदलने के लिए पर्याप्त मजबूत जानकारी के रूप में देखता है।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

लेबल

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas