204 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).

लिंक की तालिका

2। संबंधित कार्य

हाल ही में, ऐसे कई डेटासेट आए हैं जो चेहरे और संदर्भ दोनों की जानकारी के साथ फ़्रेम प्रदान करते हैं, जैसे CAER [33] और EMOTIC [32]। CAER [33] एक वीडियो आधारित डेटासेट है जिसमें प्रत्येक वीडियो फ़्रेम के श्रेणीबद्ध लेबल होते हैं, और EMOTIC [32] एक छवि-आधारित डेटासेट है जिसमें श्रेणीबद्ध अभिव्यक्ति लेबल और निरंतर वैलेंस-उत्तेजना-प्रभुत्व रेटिंग दोनों शामिल हैं। इन डेटासेट के विपरीत, हमारा डेटासेट वीडियो-आधारित है और इसमें निरंतर वैलेंस और उत्तेजना रेटिंग शामिल हैं। पिछले डेटासेट के साथ हमारे डेटासेट के बीच विस्तृत तुलना तालिका 1 में पाई जा सकती है।


विभिन्न भावना डेटासेट के आधार पर, अध्ययनों ने इस बात पर ध्यान केंद्रित करना शुरू कर दिया है कि भावनाओं का स्वचालित रूप से अनुमान कैसे लगाया जाए। मानवीय प्रभाव का अनुमान कई तरीकों से लगाया जा सकता है, जैसे ऑडियो [70, 68, 65], दृश्य [40, 54, 55, 37], और पाठ [68, 22]। विशेष रूप से दृश्य इनपुट के लिए, तीन प्रमुख कार्य हैं।


तालिका 1. मौजूदा भावना पहचान डेटासेट के साथ VEATIC डेटासेट की तुलना। VEATIC में बड़ी मात्रा में वीडियो क्लिप और एक लंबी कुल अवधि वाला वीडियो शामिल है। यह निरंतर वैलेंस और उत्तेजना एनोटेशन वाला पहला बड़ा संदर्भ-जागरूक भावना पहचान वीडियो डेटासेट है। अन्य संदर्भ-जागरूक भावना पहचान वीडियो डेटासेट की तुलना में VEATIC में बहुत अधिक एनोटेटर भी हैं। (*: मिश्रित साधन जिसमें निरंतर और श्रेणीबद्ध दोनों एनोटेशन शामिल हैं।)


वैलेंस-उत्तेजना अनुमान कार्य का लक्ष्य प्रत्येक छवि/फ्रेम की वैलेंस और उत्तेजना की भविष्यवाणी करना है [71, 69, 29, 30]; अभिव्यक्ति पहचान कार्य प्रत्येक छवि/फ्रेम की भावनात्मक श्रेणियों को वर्गीकृत करने पर केंद्रित है [66, 57, 67]; और एक्शन यूनिट (एयू) पहचान कार्य का उद्देश्य प्रत्येक छवि/फ्रेम के चेहरों से चेहरे की मांसपेशियों की क्रियाओं का पता लगाना है [25, 56, 35, 64]। वर्तमान में, अधिकांश प्रस्तावित विधियां भावनात्मक स्थिति का अनुमान लगाने के लिए चेहरे के क्षेत्र पर अत्यधिक निर्भर करती हैं। वास्तव में, चेहरे के क्षेत्र में मानव भावनात्मक स्थिति के बारे में समृद्ध जानकारी होती है। हालांकि, संदर्भ कारक आवश्यक जानकारी भी प्रदान करते हैं जो मनुष्यों के लिए दूसरों की भावनात्मक स्थिति का सही ढंग से अनुमान लगाने और समझने के लिए आवश्यक है [8, 9, 10]। इस अध्ययन में, हमने नए कार्य को पूरा करने के लिए चेहरे और संदर्भ दोनों की जानकारी को अपनाया, अर्थात, प्रत्येक वीडियो फ्रेम के लिए वैलेंस और उत्तेजना का अनुमान लगाना।


किसी व्यक्ति के प्रभाव का अनुमान लगाने के लिए, हमें आमतौर पर ऑडियो सेगमेंट, वीडियो फ़्रेम या शब्दों की अस्थायी जानकारी से निपटना पड़ता है। कई अध्ययनों [68, 69, 29, 30] ने अस्थायी जानकारी को संसाधित करने के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) [23], गेटेड रिकरेंट यूनिट (GRU) [11], या रिकरेंट न्यूरल नेटवर्क (RNN) [24, 50] का उपयोग करना शुरू कर दिया। विज़ुअल ट्रांसफ़ॉर्मर (ViT) [14] के उद्भव के साथ, ध्यान स्थानांतरित हो गया है। कई वीडियो समझ कार्यों [19, 1, 36] ने अस्थायी जानकारी को समझने और अत्याधुनिक प्रदर्शन प्राप्त करने के लिए ViT का उपयोग किया है। हमारी बेसलाइन विधि ने वीडियो क्लिप में अस्थायी जानकारी को संसाधित करने के लिए एक उपकरण के रूप में ViT को भी अपनाया।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks