paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोगद्वारा@kinetograph

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

3. प्रयोग

सभी प्रयोगों के लिए, हम GPT-3 [1] (text-davinci-003) को बैकबोन भाषा मॉडल के रूप में उपयोग करते हैं। जब तक अन्यथा न कहा जाए, हम वीडियो को विभाजित करने के लिए ग्राउंड ट्रुथ क्लिप सीमा का उपयोग करते हैं। सभी LSS वेरिएंट किसी भी प्रशिक्षण डेटा का उपयोग नहीं करते हैं और इस प्रकार शून्य-शॉट विधियाँ हैं।


तालिका 1: मूवीक्यूए सत्यापन विभाजन पर मूल्यांकन। डेटासेट औसतन 3 मिनट की वीडियो क्लिप के साथ जीटी संरेखण प्रदान करता है: हम ऑर्स-सर्च की भी रिपोर्ट करते हैं जो जीटी संरेखण के बिना पूरे मूवी संदर्भ की खोज करता है। (V) वीडियो को इंगित करता है और (S) उपशीर्षक को इंगित करता है।


तालिका 2: पोरोरोक्यूए सत्यापन विभाजन पर मूल्यांकन। मशीन द्वारा निर्मित प्लॉट (+प्लॉट) मानव एनोटेशन (बेस) के करीब प्रदर्शन करता है।


तालिका 3: ड्रामाक्यूए सत्यापन विभाजन के स्तर तीन और चार पर मूल्यांकन। CLIPCheck बेसलाइन और छवि विवरण इनपुट करने के प्रॉम्प्ट-आधारित दृष्टिकोण [35] पर अत्याधुनिक हासिल करता है।


तालिका 4: मूवीक्यूए सत्यापन विभाजन पर पृथक्करण अध्ययन।

3.1. लंबी कहानी का संक्षेप में मूल्यांकन

मूवीक्यूए [27] 408 फिल्मों से प्राप्त एक बड़े पैमाने का क्यूए डेटासेट है। डेटासेट में सूचना के कई स्रोत हैं; उपशीर्षक, स्क्रिप्ट, डीवीएस, वीडियो क्लिप और प्लॉट। हम चार अत्याधुनिक पर्यवेक्षित बेसलाइन की रिपोर्ट करते हैं; A2A [20], PAMN [11], यूनिवर्सलक्यूए [10], और DHTCN [21]।


तालिका 1 दिखाती है कि पिछले पर्यवेक्षित दृष्टिकोणों की तुलना में जीरो-शॉट LSS में सुधार हुआ है। साथ ही, ग्राउंड-ट्रुथ सेगमेंट इंडेक्स लेबल के बिना भी ऑवर-सर्च मजबूत प्रदर्शन दिखाता है। CLIPCheck वीडियो स्प्लिट में सटीकता को थोड़ा बेहतर बनाता है। हालाँकि, अंतर मामूली है क्योंकि MovieQA को अक्सर सामान्य दृश्य मिलान के बजाय चरित्र-आधारित ग्राउंडिंग की आवश्यकता होती है। अंत में, हम शून्य परिकल्पना के साथ प्रयोग करते हैं: कोई संदर्भ नहीं परीक्षण करता है कि क्या GPT-3 हर तथ्य को याद करके MovieQA को हल करता है। कोई संदर्भ नहीं LSS से भी खराब प्रदर्शन करता है, शून्य परिकल्पना को खारिज करता है।


पोरोरोक्यूए [13] एक कार्टून श्रृंखला से निर्मित एक वीडियो स्टोरी क्यूए डेटासेट है। पर्यवेक्षित बेसलाइन मानव-जनित प्लॉट और ग्राउंड ट्रुथ वीडियो सेगमेंट इंडेक्स लेती है, जबकि एलएसएस + प्लॉट + सर्च दोनों में से कोई भी नहीं लेता है।


तालिका 2 पोरोरोक्यूए डेटासेट पर हमारे परिणाम का सारांश प्रस्तुत करती है। ग्राउंड-ट्रुथ एपिसोड और प्लॉट दोनों का उपयोग करते समय, GPT-3 सुपरवाइज्ड बेसलाइन के लगभग बराबर प्रदर्शन करता है। मानव-जनित सारांश को मॉडल-जनित सारांश से प्रतिस्थापित करने पर केवल मामूली प्रदर्शन में गिरावट आती है। शायद दिलचस्प बात यह है कि मॉडल-जनित प्लॉट का उपयोग करते समय खोज प्रक्रिया बेहतर काम करती है। हम इस परिणाम का श्रेय इस तथ्य को देते हैं कि मानव एनोटेशन एपिसोड भेदभाव के लिए डिज़ाइन नहीं किए गए हैं।

3.2. CLIPCheck का मूल्यांकन

ड्रामाक्यूए [3] वीडियो क्यूए डेटासेट है जो कहानी की समझ पर केंद्रित है। डेटासेट को पदानुक्रमित कठिनाई के चार स्तरों के साथ व्यवस्थित किया गया है, जो मानव संज्ञानात्मक विकासात्मक चरणों का पालन करते हैं। हम प्लॉट समझ का परीक्षण करने के लिए ड्रामाक्यूए के दो उच्च स्तरों पर एलएसएस का मूल्यांकन करते हैं। हम स्तर-वार ड्रामाक्यूए में दो नवीनतम बेसलाइन की रिपोर्ट करते हैं; कैरेक्टरअटेंशन और किम एट अल। [14]।


हम CLIPCheck और Caption के प्रभाव की तुलना करते हैं, जो BLIP [18] से निकाले गए इमेज फ्रेम विवरणों को GPT-3 में इनपुट के रूप में शामिल करने की एक प्रॉम्प्ट-आधारित विधि है। तालिका 3 से पता चलता है कि CLIPCheck इमेज विवरणों की तुलना में अधिक सुधार प्रदान करता है। साथ ही, इमेज कैप्शन जोड़ने से LSS में सुधार होता है, लेकिन CLIPCheck के साथ संयुक्त रूप से उपयोग करने पर लाभ गायब हो जाता है। हमें संदेह है कि ऐसा इसलिए है क्योंकि फ्रेम कैप्शन CLIPCheck के समान जानकारी प्रदान करते हैं, जबकि बहुत अधिक शोर करते हैं। ध्यान दें कि यहां स्वचालित कैप्शन LSS का अभिन्न अंग नहीं हैं। चूंकि DramaQA में पहले से ही दृश्यमान रूप से आधारित एनोटेशन हैं, इसलिए उसके शीर्ष पर स्वचालित इमेज कैप्शन जोड़ने से मॉडल का प्रदर्शन बेहतर नहीं होगा।


चित्र 3: LSS द्वारा तैयार किए गए प्लॉट सारांश और विकिपीडिया से प्राप्त ग्राउंड-ट्रुथ सारांश के बीच तुलना। यहाँ, हम स्थान की सीमा के कारण पूरे प्लॉट के केवल पहले दो पैराग्राफ ही दिखाते हैं।


अंत में, हम जाँचते हैं कि क्या CLIPCheck दृश्य संदर्भ को समझने के बजाय डेटासेट पूर्वाग्रह का फायदा उठाता है। इस उद्देश्य के लिए, हम यादृच्छिक दृश्य संदर्भ (CLIPCheck-Shuffle) के साथ CLIPCheck का एक प्रकार तैयार करते हैं। CLIPCheck-Shuffle बिना CLIPCheck के LSS पर बेहतर नहीं होता है, जो पूर्वाग्रह की परिकल्पना को नकारता है।

3.3. एब्लेशन अध्ययन

क्या कथात्मक समझ के लिए सारांश और खोज दोनों ही महत्वपूर्ण हैं? यहाँ, हम कथात्मक खोज के बिना पूर्ण संदर्भ के साथ LSS वेरिएंट का मूल्यांकन करते हैं (LSS-Ful) या इनपुट के रूप में प्लॉट सारांश और यादृच्छिक खंड के साथ (LSS-Random)। तालिका 4 से पता चलता है कि LSS-Ful और LSS-Random दोनों ही LSS-Search से पीछे हैं, जो पुनर्प्राप्ति के महत्व को दर्शाता है। ध्यान दें कि टोकन लंबाई सीमा के कारण हम LSS-Ful में पूर्ण संदर्भ का उपयोग नहीं कर सके। इसके बजाय, हम पूर्ण संदर्भ के सबसे लंबे उपसर्ग का उपयोग करते हैं जिसे GPT3 स्वीकार करता है (निर्देश की लंबाई घटाकर 4000 टोकन)।


चित्र 4: LSS में QA प्रक्रिया नमूने। खोजे गए प्लॉट टुकड़े पर कंडीशनिंग का भाषा मॉडल के उत्तर संभावना वितरण पर पर्याप्त प्रभाव पड़ता है।

3.4. गुणात्मक परिणाम

चित्र 3 में LSS फ्रेमवर्क में भाषा मॉडल का उपयोग करके लंबे वीडियो QA के मध्यवर्ती संदर्भ के रूप में उत्पन्न स्वचालित प्लॉट सारांश दिखाया गया है। जैसा कि गुणात्मक नमूने में दिखाया गया है, उत्पन्न प्लॉट विकिपीडिया से मानव-लिखित प्लॉट के साथ अच्छी तरह से संरेखित होते हैं। उदाहरण के लिए, फिल्म "हैरी पॉटर एंड द डेथली हैलोज़" के पहले दृश्य में, LSS सारांश सही ढंग से लिखता है कि हैरी पॉटर वर्तमान में 17 वर्ष का है और मुख्य घटना जिसमें डेथ ईटर नायक पर हमला करते हैं।


चित्र 4 खोजे गए प्लॉट पीस और उत्तर संभावना के बीच संबंध को दर्शाता है। बाईं ओर के उदाहरण में, प्राप्त सारांश बताता है कि ट्रेंच ने एक अपराध किया है और इसलिए भाग रहा है, यह सुझाव देता है कि उसमें रुचि रखने वाला कोई अन्य चरित्र उसका पीछा कर रहा होगा। भाषा मॉडल उत्तर संभावना को सही तरीके से संशोधित करने के लिए इस संदर्भ को समझता है। सही उदाहरण में, LSS प्लॉट पीस बताता है कि एडवर्ड अपने निर्णय में आश्वस्त है। जबकि यह संदर्भ प्रश्न के लिए कोई सीधा संकेत नहीं देता है, भाषा मॉडल इसे उत्तर को बदलने के लिए पर्याप्त मजबूत जानकारी के रूप में देखता है।