यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);
(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);
(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);
(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).
इस अध्ययन में, हम संदर्भ कार्य में एक नई भावना पहचान का प्रस्ताव करते हैं, अर्थात प्रत्येक वीडियो फ्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र की वैलेंस और उत्तेजना का अनुमान लगाना। यहां, हम संदर्भ कार्य में नई भावना पहचान को बेंचमार्क करने के लिए एक सरल बेसलाइन मॉडल का प्रस्ताव करते हैं। मॉडल की पाइपलाइन चित्र 8 में दिखाई गई है। हमने दो सरल सबमॉड्यूल अपनाए: फीचर निष्कर्षण के लिए एक कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) मॉड्यूल और अस्थायी सूचना प्रसंस्करण के लिए एक विज़ुअल ट्रांसफॉर्मर मॉड्यूल। CNN मॉड्यूल संरचना Resnet50 [21] से अपनाई गई है। CAER [33] और EMOTIC [32] के विपरीत, जहां चेहरे/चरित्र और संदर्भ सुविधाओं को अलग-अलग निकाला जाता है और बाद में विलय कर दिया जाता है, हम सीधे पूरी तरह से सूचित फ्रेम को एन्कोड करते हैं।
हमारे बेसलाइन मॉडल का लॉस फंक्शन दो अलग-अलग लॉस का भारित संयोजन है। MSE लॉस रेटिंग्स और मॉडल भविष्यवाणियों की जमीनी सच्चाई के स्थानीय संरेखण को नियमित करता है। बड़े पैमाने पर रेटिंग्स और भविष्यवाणियों के संरेखण की गारंटी देने के लिए, जैसे कि भावनात्मक रेटिंग्स के अस्थायी सांख्यिकी सीखना, हम नियमितीकरण के रूप में कॉनकॉर्डेंस सहसंबंध गुणांक (CCC) का भी उपयोग करते हैं। इस गुणांक को इस प्रकार परिभाषित किया गया है,
SAGR मापता है कि दो सदिशों X और Y के अलग-अलग मानों के चिह्न कितने मेल खाते हैं। यह [0, 1] में मान लेता है, जहाँ 1 पूर्ण सहमति को दर्शाता है और 0 पूर्ण विरोधाभास को दर्शाता है। SAGR मीट्रिक दूसरों की तुलना में अतिरिक्त प्रदर्शन जानकारी प्राप्त कर सकता है। उदाहरण के लिए, 0.2 की वैलेंस ग्राउंड ट्रुथ को देखते हुए, 0.7 और -0.3 की भविष्यवाणियाँ समान RMSE मान की ओर ले जाएँगी। लेकिन स्पष्ट रूप से, 0.7 बेहतर अनुकूल है क्योंकि यह एक सकारात्मक वैलेंस है।
हमने ऊपर बताए गए 4 मेट्रिक्स, CCC, PCC, RMSE और SAGR का उपयोग करके संदर्भ कार्य में नई भावना पहचान को बेंचमार्क किया है। परिणाम तालिका 3 में दिखाए गए हैं। अन्य डेटासेट की तुलना में, हमारा प्रस्तावित सरल तरीका उनके डेटासेट पर अत्याधुनिक तरीकों के बराबर है।
हम पूरी तरह से सूचित फ़्रेम पर प्रीट्रेन्ड मॉडल में केवल संदर्भ और केवल चरित्र फ़्रेम को फीड करके भावना पहचान कार्यों में संदर्भ और चरित्र जानकारी के महत्व की भी जांच करते हैं। निष्पक्ष तुलना प्राप्त करने और फ़्रेम पिक्सेल वितरण अंतर के प्रभाव को बाहर करने के लिए, हम केवल संदर्भ और केवल चरित्र फ़्रेम पर प्रीट्रेन्ड मॉडल को भी ठीक करते हैं। संबंधित परिणाम तालिका 3 में भी दिखाए गए हैं। पूरी जानकारी के बिना, मॉडल का प्रदर्शन केवल संदर्भ और केवल चरित्र दोनों स्थितियों के लिए गिर जाता है।
VEATIC डेटासेट की प्रभावशीलता दिखाने के लिए, हमने VEATIC पर अपने प्रीट्रेन्ड मॉडल का उपयोग किया, इसे अन्य डेटासेट पर फाइनट्यून किया और इसके प्रदर्शन का परीक्षण किया। हमने अपने मॉडल की सरलता और अन्य डेटासेट पेपर में प्रस्तावित मॉडल से हमारे मॉडल की समानता को देखते हुए केवल EMOTIC [32] और CAER-S [33] के लिए परीक्षण किया। परिणाम तालिका 4 में दिखाए गए हैं। हमारा प्रीट्रेन्ड मॉडल EMOTIC [32] और CAERS [33] में प्रस्तावित विधियों के बराबर प्रदर्शन करता है। इस प्रकार, यह हमारे प्रस्तावित VEATIC डेटासेट की प्रभावशीलता को दर्शाता है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।