paint-brush
VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: VEATIC डेटासेटद्वारा@kinetograph
164 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: VEATIC डेटासेट

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: VEATIC डेटासेट
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).

लिंक की तालिका

3. VEATIC डेटासेट

इस खंड में, हम संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग ( VEATIC ) का परिचय देते हैं। सबसे पहले, हम वर्णन करते हैं कि हमने सभी वीडियो क्लिप कैसे प्राप्त किए। इसके बाद, हम डेटा एनोटेशन प्रक्रियाओं और प्री-प्रोसेसिंग प्रक्रिया का वर्णन करते हैं। अंत में, हम महत्वपूर्ण डेटासेट सांख्यिकी की रिपोर्ट करते हैं और डेटा विश्लेषण परिणामों को विज़ुअलाइज़ करते हैं।

3.1. वीडियो क्लिप अधिग्रहण

डेटासेट में इस्तेमाल किए गए सभी वीडियो क्लिप एक ऑनलाइन वीडियो-शेयरिंग वेबसाइट (यूट्यूब) से लिए गए थे और वीडियो क्लिप का चयन इस आधार पर किया गया था कि क्लिप में पात्रों की भावनाएँ/प्रभाव समय के साथ बदलते रहें। कुल मिलाकर, VEATIC डेटासेट में 124 वीडियो क्लिप, हॉलीवुड फिल्मों की 104 क्लिप, होम वीडियो की 15 क्लिप और डॉक्यूमेंट्री या रियलिटी टीवी शो की 5 क्लिप शामिल हैं। VEATIC डेटासेट से सैंपल फ़्रेम (चित्र 2) में दिखाए गए हैं। इन वीडियो में शून्य से लेकर कई इंटरैक्टिंग कैरेक्टर हैं। वीडियो से सभी ध्वनि हटा दी गई थी ताकि लक्ष्य चरित्र की भावना को ट्रैक करते समय पर्यवेक्षकों को केवल दृश्य जानकारी तक पहुँच मिल सके।


चित्र 2. VEATIC में वीडियो फ़्रेम का अवलोकन। हमने अपने डेटासेट में 5 वीडियो से 4 मुख्य फ़्रेम का नमूना लिया। अन्य डेटासेट के विपरीत जहाँ वीडियो क्लिप का स्रोत अद्वितीय होता है, VEATIC के वीडियो क्लिप विभिन्न स्रोतों से आते हैं। इनमें हॉलीवुड फ़िल्में, वृत्तचित्र और घर के बने वीडियो शामिल हैं। इस प्रकार, यह हमारे डेटासेट पर प्रशिक्षित मॉडल को अधिक सामान्यीकरण क्षमता प्रदान करेगा। दृश्य इनपुट के लिए, VEATIC में विभिन्न संदर्भ जानकारी शामिल है, जिसमें विभिन्न पृष्ठभूमि, प्रकाश की स्थिति, चरित्र की बातचीत आदि शामिल हैं। यह डेटासेट को हमारे दैनिक जीवन का अधिक प्रतिनिधि बनाता है। अंत में, चयनित चरित्र की भावना/प्रभाव प्रत्येक वीडियो क्लिप में बहुत भिन्न होता है, जिससे VEATIC में चरित्र के प्रभाव को मॉडलिंग करना अधिक चुनौतीपूर्ण हो जाता है।

3.2. डेटा एनोटेशन और प्री-प्रोसेसिंग

कुल मिलाकर, हमारे पास 192 पर्यवेक्षक थे जिन्होंने डेटासेट में वीडियो के एनोटेशन में भाग लिया। सभी प्रतिभागियों ने यूसी बर्कले इंस्टीट्यूशनल रिव्यू बोर्ड के दिशा-निर्देशों और विनियमों के अनुसार हस्ताक्षरित सहमति प्रदान की और सभी प्रयोगात्मक प्रक्रियाओं को मंजूरी दी गई।


प्रतिभागियों ने डेटासेट में कुल 124 वीडियो देखे और उनकी रेटिंग की। पर्यवेक्षकों को थकान से बचाने के लिए, हमने एनोटेशन प्रक्रिया को दो 1 घंटे और 30 मिनट के एनोटेशन सत्रों में विभाजित किया। प्रतिभागियों द्वारा किसी भी वीडियो को एनोटेट करने से पहले, उन्हें ब्रैडले और लैंग (1999) [6] द्वारा प्रदान की गई रेटिंग के अनुसार ग्रिड के विभिन्न स्थानों पर लेबल किए गए उदाहरण भावनाओं के साथ वैलेंस-उत्तेजना प्रभाव रेटिंग ग्रिड का एक मुद्रित संस्करण दिखाया गया था। एनोटेटर्स को निर्देश दिया गया था कि वे आयामों और नमूना शब्द स्थानों से खुद को परिचित करें, जिसका उपयोग वे बाद में एनोटेशन प्रक्रिया में करेंगे। प्रतिभागियों द्वारा प्रभाव रेटिंग ग्रिड से परिचित होने के बाद, उन्होंने दो मिनट का अभ्यास एनोटेशन पूरा किया, जहां उन्होंने एक वीडियो में एक लक्ष्य चरित्र की वैलेंस और उत्तेजना को लगातार ट्रैक किया (चित्र 3बी ग्रिड उनकी वैलेंस और उत्तेजना रेटिंग को [−1, 1] की सीमा में मैप करेगा। संभावित मोटर पूर्वाग्रहों को नियंत्रित करने के लिए, हमने प्रतिभागियों के बीच वैलेंस-उत्तेजना आयामों को संतुलित किया, जहाँ आधे एनोटेटर्स में वैलेंस x-अक्ष पर और उत्तेजना y-अक्ष पर थी और दूसरे आधे में आयाम उलटे थे ताकि उत्तेजना x-अक्ष पर हो और वैलेंस y-अक्ष पर हो। एक बार जब पर्यवेक्षकों ने अभ्यास एनोटेशन सत्र समाप्त कर लिया, तो उन्होंने डेटासेट में वीडियो को एनोटेट करना शुरू कर दिया।


चित्र 3. वीडियो एनोटेशन के लिए उपयोग किया जाने वाला उपयोगकर्ता इंटरफ़ेस। a) प्रतिभागियों को पहले लक्ष्य चरित्र दिखाया गया और प्रत्येक वीडियो की शुरुआत से पहले उन्हें कार्य निर्देशों की याद दिलाई गई। b) ओवरले वैलेंस और उत्तेजना ग्रिड जो पर्यवेक्षकों द्वारा वीडियो एनोटेट करते समय मौजूद था। पर्यवेक्षकों को वास्तविक समय में वीडियो में लक्ष्य चरित्र की भावना को लगातार रेट करने का निर्देश दिया गया था। यदि पर्यवेक्षक 10 सेकंड से अधिक समय तक अपना माउस नहीं हिलाते हैं, तो प्रतिक्रिया रेटिंग ग्रिड पर्यवेक्षक को भावना को लगातार रेट करने के लिए याद दिलाने के लिए फ्लैश करेगा।


प्रतिभागियों द्वारा एनोटेशन शुरू करने से पहले, उन्हें लक्षित चरित्र के घेरे वाली एक छवि दिखाई गई (चित्र 3ए) जो प्रतिभागियों को सूचित करती है कि वीडियो शुरू होने पर वे किस चरित्र को ट्रैक करेंगे। फिर, उन्होंने वास्तविक समय में वीडियो क्लिप को एनोटेट किया। प्रत्येक वीडियो एनोटेशन के अंत में, प्रतिभागियों ने 1-5 असतत लिकर्ट स्केल का उपयोग करके वीडियो क्लिप के साथ अपनी परिचितता की रिपोर्ट की, जो "परिचित नहीं", "थोड़ा परिचित", "कुछ हद तक परिचित", "मध्यम रूप से परिचित" और "बेहद परिचित" के बीच थी। प्रतिभागियों से क्लिप देखते समय उनके आनंद के स्तर के बारे में भी पूछा गया, जिसे 1-9 असतत लिकर्ट स्केल का उपयोग करके रेट किया गया था, जो 1 (आनंददायक नहीं) से लेकर 9 (बेहद आनंददायक) तक था। इसके अतिरिक्त, प्रतिभागियों को ऊब महसूस न कराने के लिए, सभी 124 वीडियो क्लिप को दो सत्रों में विभाजित किया गया


प्रत्येक परीक्षण के दौरान, हमने यह आकलन किया कि क्या प्रतिभागी किसी एक स्थान पर माउस पॉइंटर को रखने की अवधि को ट्रैक करके ध्यान नहीं दे रहे थे। यदि अवधि 10 सेकंड से अधिक थी, तो प्रभाव रेटिंग ग्रिड में उतार-चढ़ाव शुरू हो जाएगा, जो प्रतिभागियों को लक्ष्य चरित्र की भावना को ट्रैक करना जारी रखने की याद दिलाता है। यह आकलन करने के लिए कि क्या हमारे डेटासेट में कोई शोर करने वाले एनोटेटर थे, हमने प्रत्येक वीडियो के लिए प्रत्येक एनोटेटर और लीव-वन-आउट सर्वसम्मति (वर्तमान एनोटेटर को छोड़कर प्रतिक्रियाओं का समुच्चय) के बीच पियर्सन सहसंबंध की गणना करके प्रत्येक व्यक्तिगत एनोटेटर की सहमति की गणना की। हमने पाया कि केवल एक एनोटेटर का सभी वीडियो में लीव-वन-आउट सर्वसम्मति के साथ .2 से कम सहसंबंध था। चूंकि केवल एक एनोटेटर हमारी सीमा से नीचे था, इसलिए हमने वीडियो के किसी भी महत्वपूर्ण वैकल्पिक एनोटेशन को न हटाने के लिए एनोटेटर को डेटासेट में रखने का फैसला किया।


चित्र 4. चयनित चरित्र के ज़ूम-इन दृश्य के साथ विशिष्ट वीडियो क्लिप के लिए वैलेंस और उत्तेजना की नमूना औसत रेटिंग का विज़ुअलाइज़ेशन। हम वैलेंस और उत्तेजना की विशिष्ट औसत रेटिंग से संबंधित मुख्य फ़्रेम दिखाते हैं। संगत फ़्रेम और रेटिंग को एक ही रंग से चिह्नित किया गया है।

3.3. विज़ुअलाइज़ेशन और डेटा विश्लेषण

चित्र 4 में 2 अलग-अलग वीडियो क्लिप में नमूना औसत रेटिंग और मुख्य फ़्रेम दिखाए गए हैं। स्पष्ट रूप से, यहाँ वैलेंस और उत्तेजना दोनों की रेटिंग की एक विस्तृत श्रृंखला है। इसके अलावा, यह दर्शाता है कि संदर्भ जानकारी, चाहे स्थानिक हो या लौकिक, भावना पहचान कार्यों में एक महत्वपूर्ण भूमिका निभाती है। वैलेंस उदाहरण (ऊपरी आकृति) में, लड़ाई की लौकिक और/या स्थानिक संदर्भ जानकारी के बिना, यह पहचानना मुश्किल होगा कि आखिरी फ़्रेम (पीला) में चरित्र (महिला) आश्चर्यजनक रूप से खुश है या हैरान है। उत्तेजना उदाहरण (निचली आकृति) में, चयनित चरित्र के चेहरे के बिना भी, पर्यवेक्षक गहन संदर्भ के माध्यम से चरित्र की उत्तेजना का आसानी से और लगातार अनुमान लगा सकते हैं।


चित्र 5. एक वीडियो (वीडियो 47) के लिए उदाहरण वैलेंस और उत्तेजना रेटिंग। पारदर्शी ग्रे लाइन व्यक्तिगत विषय रेटिंग को दर्शाती है और हरी रेखा प्रतिभागियों में औसत रेटिंग है।


चित्र 5 हमारे डेटासेट में एक ही वीडियो के लिए सभी प्रतिभागियों की सैंपल वैलेंस और उत्तेजना रेटिंग्स को दर्शाता है। वैलेंस और उत्तेजना दोनों रेटिंग्स के लिए व्यक्तिगत विषय की रेटिंग्स (ग्रे लाइन) प्रतिभागियों (ग्रीन लाइन) में आम सहमति रेटिंग्स का पालन करती हैं। हरे रंग की आम सहमति रेखा के चारों ओर ओवरलैप करने वाली घनी ग्रे लाइन पर्यवेक्षकों की एक विस्तृत श्रृंखला के बीच समझौतों को इंगित करती है। इसके अतिरिक्त, हमने जांच की कि प्रत्येक वीडियो के लिए पर्यवेक्षकों के बीच मानक विचलन की गणना करके वीडियो में पर्यवेक्षकों की प्रतिक्रियाएं कैसे भिन्न थीं। हमने पाया कि वैलेंस और उत्तेजना दोनों आयामों के लिए पर्यवेक्षकों के बीच विचरण छोटा था, जिसमें वैलेंस का औसत मानक विचलन µ = 0.248 और 0.222 का माध्य था और उत्तेजना का औसत मानक विचलन µ = 0.248 और 0.244 का माध्य था,


हमारे सभी वीडियो में वैलेंस और उत्तेजना रेटिंग का वितरण चित्र 6 में दिखाया गया है। हमने पाया कि व्यक्तिगत प्रतिभागी रेटिंग वैलेंस और उत्तेजना दोनों आयामों में पूरी तरह से वितरित की गई थी जो VEATIC डेटासेट की विविधता को उजागर करती है। हमने प्रतिभागियों में से प्रत्येक वीडियो के लिए परिचितता और आनंद रेटिंग भी एकत्र की (चित्र 7 में दिखाया गया है)। हमने पाया कि पर्यवेक्षक डेटासेट में उपयोग किए गए वीडियो से अपरिचित थे क्योंकि वीडियो आईडी 0-97 के लिए औसत परिचितता रेटिंग 1.61 थी। इसके अतिरिक्त, पर्यवेक्षकों ने वीडियो देखते समय अपने आनंद को वीडियो आईडी 0-97 के लिए औसतन 4.98 के रूप में रेट किया, जो दर्शाता है कि पर्यवेक्षकों ने वीडियो क्लिप देखने और एनोटेट करने का मध्यम रूप से आनंद लिया। वीडियो आईडी 98-123 के लिए परिचितता और आनंद रेटिंग एकत्र नहीं की गई क्योंकि इन वीडियो के लिए एनोटेशन डेटा संग्रह के दौरान पहले के समय बिंदु पर एकत्र किए गए थे जिसमें ये रेटिंग शामिल नहीं थीं।


चित्र 6. प्रतिभागियों में वैलेंस और उत्तेजना रेटिंग का वितरण। अलग-अलग सफ़ेद बिंदु हॉलीवुड फ़िल्मों के लिए प्रत्येक वीडियो क्लिप के लिए निरंतर रेटिंग की औसत वैलेंस और उत्तेजना को दर्शाते हैं। नीले वर्ग और हरे त्रिकोण क्रमशः वृत्तचित्रों और घरेलू वीडियो के लिए औसत वैलेंस और उत्तेजना को दर्शाते हैं। रेटिंग को 0.02 अंतराल में बाँटा गया और प्रत्येक बिन में डेटा बिंदुओं की कुल संख्या की गणना की गई।


चित्र 7. वीडियो आईडी 0-97 के लिए वीडियो में परिचितता और आनंद रेटिंग। ऊर्ध्वाधर काली रेखाएँ 1 SD दर्शाती हैं।


नीचे दी गई तालिका 2 VEATIC डेटासेट के बुनियादी आँकड़ों का सारांश प्रस्तुत करती है। संक्षेप में, VEATIC में एक लंबी कुल वीडियो क्लिप अवधि और विभिन्न प्रकार के वीडियो स्रोत हैं जो संदर्भों और भावनात्मक स्थितियों की एक विस्तृत श्रृंखला को कवर करते हैं। इसके अलावा, पिछले डेटासेट की तुलना में, हमने रेटिंग को एनोटेट करने के लिए बहुत अधिक प्रतिभागियों को भर्ती किया।


तालिका 2. VEATIC डेटासेट के आंकड़े।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।