paint-brush
स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय रूपरेखा: पृष्ठभूमि और संबंधित कार्यद्वारा@kinetograph

स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय रूपरेखा: पृष्ठभूमि और संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

इस पत्र में, शोधकर्ताओं ने स्थिति, संवाद और मेटाडेटा विशेषताओं का उपयोग करते हुए फिल्म शैली वर्गीकरण के लिए एक बहु-रूपता ढांचे का प्रस्ताव दिया है।
featured image - स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय रूपरेखा: पृष्ठभूमि और संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;

(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।

लिंक की तालिका

2. पृष्ठभूमि और संबंधित कार्य

यह खंड मूवी शैली वर्गीकरण के लिए पिछली पद्धतियों और हमारे अध्ययन के पीछे की प्रेरणाओं पर चर्चा करता है। वीडियो सामग्री को मुख्य रूप से (1) वीडियो फ़्रेम (छवियाँ) और (2) ऑडियो (भाषण {संवाद} + गैर भाषण {स्वर}) में विभाजित किया गया है। वीडियो सामग्री का विश्लेषण करने के लिए, अतीत में विभिन्न अध्ययन किए गए हैं, जो मुख्य रूप से संज्ञानात्मक [3] - [7] या भावात्मक [8] स्तरों पर व्यक्तिगत रूप से ध्यान केंद्रित करते हैं। अधिक प्रभावी अध्ययन के लिए, शैली वर्गीकरण कार्य में बेहतर प्रदर्शन करने के लिए दोनों स्तरों को ध्यान में रखना होगा।


पिछले अध्ययनों में, दृश्य घटकों को पकड़ने के लिए दृश्य गड़बड़ी, औसत शॉट लंबाई, वीडियो फ़्रेम में प्रकाश की तीव्रता में क्रमिक परिवर्तन और ऑडियो तरंग में चोटियों [3] सहित निम्न-स्तरीय विशेषताओं के आधार पर कई अनुभूति-आधारित दृष्टिकोण प्रस्तावित किए गए हैं [4]। संज्ञानात्मक वर्गीकरण के लिए उपयोग की जाने वाली अन्य विशेषताओं में फ़्रेम में RGB रंग [6], फ़िल्म शॉट [7], शॉट की लंबाई [9], दृश्यों में पृष्ठभूमि का प्रकार (डार्क/नॉन-डार्क) [6], आदि शामिल हैं। इसी तरह, केवल भावात्मक विश्लेषण के लिए कुछ दृष्टिकोण प्रस्तावित किए गए हैं [8]।


एक फिल्म में कई शैलियां हो सकती हैं जो दर्शकों को बहुत सारी जानकारी दर्शाती हैं और इस प्रकार यह दर्शकों को फिल्म की सिफारिश करने का कार्य भी करती हैं। जैन एट अल [5] ने केवल 200 प्रशिक्षण नमूनों का उपयोग करके मूवी क्लिप को वर्गीकृत करने के लिए 4 वीडियो सुविधाओं (शॉट की लंबाई, गति, रंग प्रभुत्व, प्रकाश कुंजी) और 5 ऑडियो सुविधाओं का उपयोग किया। उन्होंने शैलियों की भविष्यवाणी करने के लिए पूरी मूवी क्लिप का इस्तेमाल किया। हालांकि, अध्ययन उनके मॉडल को प्रशिक्षित करने के लिए केवल 200 प्रशिक्षण नमूनों का उपयोग करता है। तदनुसार, उनके द्वारा रिपोर्ट की गई सटीकता ओवर-फिटिंग के कारण हो सकती है। इसके अलावा, अध्ययन केवल सिंगल-लेबल वर्गीकरण पर केंद्रित था। हुआंग एट अल [4] ने 7 स्टैक्ड एसवीएम के साथ सेल्फ एडेप्टिव हार्मोनी सर्च एल्गोरिदम का प्रस्ताव दिया, जिसमें 223 आकार के डेटासेट पर ऑडियो और विज़ुअल दोनों सुविधाओं (कुल मिलाकर लगभग 277 सुविधाएँ) का उपयोग किया गया [11] ने समग्र सारांश से कुछ महत्वपूर्ण शब्दों पर भरोसा करके छवि-पाठ सुविधाओं को मिलाने का प्रस्ताव रखा और उन सुविधाओं के आधार पर मूवी शैली वर्गीकरण किया। मॉडल का परीक्षण 107 मूवी ट्रेलरों के सेट पर किया गया था। शाहीन एट अल। [12] ने मूवी प्लॉट और उद्धरणों का उपयोग किया और शैलियों को वर्गीकृत करने के लिए पदानुक्रमित ध्यान नेटवर्क का प्रस्ताव दिया। इसी तरह, कुमार एट अल। [13] ने समग्र समय जटिलता को कम करने पर ध्यान केंद्रित करके हैश वेक्टराइजेशन का उपयोग करके शैली को वर्गीकृत करने के लिए मूवी प्लॉट का उपयोग करने का प्रस्ताव रखा। उपर्युक्त अध्ययन निम्न-स्तरीय सुविधाओं पर निर्भर करते हैं और मूवी ट्रेलरों से किसी भी उच्च-स्तरीय सुविधा को कैप्चर नहीं करते हैं, इसलिए एक अच्छे स्तर की पहचान प्रणाली के लिए उन पर भरोसा नहीं किया जा सकता है।


हाल के अध्ययनों से पता चलता है कि कई शोधकर्ताओं ने मूवी शैली वर्गीकरण कार्यों के लिए डीप नेटवर्क का उपयोग किया है। शंभरकर एट अल [१४] ने स्थानिक और लौकिक विशेषताओं को पकड़ने के लिए एकल लेबल ३डी सीएनएन-आधारित आर्किटेक्चर का प्रस्ताव दिया है। हालांकि इसमें स्थानिक और लौकिक विशेषताएं पकड़ी जाती हैं, लेकिन एकल-लेबल वर्गीकरण के कारण मॉडल मजबूत नहीं है। कुछ शोधकर्ताओं ने मूवी शैलियों को वर्गीकृत करने के लिए मूवी पोस्टर पर काम किया है। चू एट अल [१५] ने ऑब्जेक्ट डिटेक्शन और दृश्य उपस्थिति को सुविधाजनक बनाने के लिए एक डीप न्यूरल नेटवर्क तैयार किया। हालांकि काम ने पोस्टरों से बहुत सारी जानकारी पकड़ी, लेकिन पोस्टर खुद एक मूवी का पूरी तरह से वर्णन करने के लिए पर्याप्त नहीं है। सिमोस एट अल [१६] ने एक सीएनएन-मोशन का प्रस्ताव दिया जिसमें पर्यवेक्षण रहित क्लस्टरिंग एल्गोरिदम द्वारा प्रदान किए गए दृश्य हिस्टोग्राम, प्रत्येक ट्रेलर के लिए भारित शैली भविष्यवाणियां, साथ ही कुछ निम्न-स्तरीय वीडियो विशेषताएं शामिल थीं।


इस प्रकार, पिछले साहित्य से यह स्पष्ट है कि संज्ञानात्मक और भावात्मक अध्ययन के लिए वीडियो ट्रेलरों से प्रमुख जानकारी निकाली जानी चाहिए। इसलिए, काम के पीछे हमारी प्रेरणा वीडियो सामग्री विश्लेषण के दोनों स्तरों पर निर्भर दृष्टिकोण तैयार करना है जैसा कि [1] में है। हमारा मानना है कि प्रस्तावित वास्तुकला और मॉडल नवीन और मजबूत हैं और भविष्य में विभिन्न शोध दृष्टिकोणों के लिए इसका उपयोग किया जा सकता है।