लेखक:
(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;
(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।
यह खंड मूवी शैली वर्गीकरण के लिए पिछली पद्धतियों और हमारे अध्ययन के पीछे की प्रेरणाओं पर चर्चा करता है। वीडियो सामग्री को मुख्य रूप से (1) वीडियो फ़्रेम (छवियाँ) और (2) ऑडियो (भाषण {संवाद} + गैर भाषण {स्वर}) में विभाजित किया गया है। वीडियो सामग्री का विश्लेषण करने के लिए, अतीत में विभिन्न अध्ययन किए गए हैं, जो मुख्य रूप से संज्ञानात्मक [3] - [7] या भावात्मक [8] स्तरों पर व्यक्तिगत रूप से ध्यान केंद्रित करते हैं। अधिक प्रभावी अध्ययन के लिए, शैली वर्गीकरण कार्य में बेहतर प्रदर्शन करने के लिए दोनों स्तरों को ध्यान में रखना होगा।
पिछले अध्ययनों में, दृश्य घटकों को पकड़ने के लिए दृश्य गड़बड़ी, औसत शॉट लंबाई, वीडियो फ़्रेम में प्रकाश की तीव्रता में क्रमिक परिवर्तन और ऑडियो तरंग में चोटियों [3] सहित निम्न-स्तरीय विशेषताओं के आधार पर कई अनुभूति-आधारित दृष्टिकोण प्रस्तावित किए गए हैं [4]। संज्ञानात्मक वर्गीकरण के लिए उपयोग की जाने वाली अन्य विशेषताओं में फ़्रेम में RGB रंग [6], फ़िल्म शॉट [7], शॉट की लंबाई [9], दृश्यों में पृष्ठभूमि का प्रकार (डार्क/नॉन-डार्क) [6], आदि शामिल हैं। इसी तरह, केवल भावात्मक विश्लेषण के लिए कुछ दृष्टिकोण प्रस्तावित किए गए हैं [8]।
एक फिल्म में कई शैलियां हो सकती हैं जो दर्शकों को बहुत सारी जानकारी दर्शाती हैं और इस प्रकार यह दर्शकों को फिल्म की सिफारिश करने का कार्य भी करती हैं। जैन एट अल [5] ने केवल 200 प्रशिक्षण नमूनों का उपयोग करके मूवी क्लिप को वर्गीकृत करने के लिए 4 वीडियो सुविधाओं (शॉट की लंबाई, गति, रंग प्रभुत्व, प्रकाश कुंजी) और 5 ऑडियो सुविधाओं का उपयोग किया। उन्होंने शैलियों की भविष्यवाणी करने के लिए पूरी मूवी क्लिप का इस्तेमाल किया। हालांकि, अध्ययन उनके मॉडल को प्रशिक्षित करने के लिए केवल 200 प्रशिक्षण नमूनों का उपयोग करता है। तदनुसार, उनके द्वारा रिपोर्ट की गई सटीकता ओवर-फिटिंग के कारण हो सकती है। इसके अलावा, अध्ययन केवल सिंगल-लेबल वर्गीकरण पर केंद्रित था। हुआंग एट अल [4] ने 7 स्टैक्ड एसवीएम के साथ सेल्फ एडेप्टिव हार्मोनी सर्च एल्गोरिदम का प्रस्ताव दिया, जिसमें 223 आकार के डेटासेट पर ऑडियो और विज़ुअल दोनों सुविधाओं (कुल मिलाकर लगभग 277 सुविधाएँ) का उपयोग किया गया [11] ने समग्र सारांश से कुछ महत्वपूर्ण शब्दों पर भरोसा करके छवि-पाठ सुविधाओं को मिलाने का प्रस्ताव रखा और उन सुविधाओं के आधार पर मूवी शैली वर्गीकरण किया। मॉडल का परीक्षण 107 मूवी ट्रेलरों के सेट पर किया गया था। शाहीन एट अल। [12] ने मूवी प्लॉट और उद्धरणों का उपयोग किया और शैलियों को वर्गीकृत करने के लिए पदानुक्रमित ध्यान नेटवर्क का प्रस्ताव दिया। इसी तरह, कुमार एट अल। [13] ने समग्र समय जटिलता को कम करने पर ध्यान केंद्रित करके हैश वेक्टराइजेशन का उपयोग करके शैली को वर्गीकृत करने के लिए मूवी प्लॉट का उपयोग करने का प्रस्ताव रखा। उपर्युक्त अध्ययन निम्न-स्तरीय सुविधाओं पर निर्भर करते हैं और मूवी ट्रेलरों से किसी भी उच्च-स्तरीय सुविधा को कैप्चर नहीं करते हैं, इसलिए एक अच्छे स्तर की पहचान प्रणाली के लिए उन पर भरोसा नहीं किया जा सकता है।
हाल के अध्ययनों से पता चलता है कि कई शोधकर्ताओं ने मूवी शैली वर्गीकरण कार्यों के लिए डीप नेटवर्क का उपयोग किया है। शंभरकर एट अल [१४] ने स्थानिक और लौकिक विशेषताओं को पकड़ने के लिए एकल लेबल ३डी सीएनएन-आधारित आर्किटेक्चर का प्रस्ताव दिया है। हालांकि इसमें स्थानिक और लौकिक विशेषताएं पकड़ी जाती हैं, लेकिन एकल-लेबल वर्गीकरण के कारण मॉडल मजबूत नहीं है। कुछ शोधकर्ताओं ने मूवी शैलियों को वर्गीकृत करने के लिए मूवी पोस्टर पर काम किया है। चू एट अल [१५] ने ऑब्जेक्ट डिटेक्शन और दृश्य उपस्थिति को सुविधाजनक बनाने के लिए एक डीप न्यूरल नेटवर्क तैयार किया। हालांकि काम ने पोस्टरों से बहुत सारी जानकारी पकड़ी, लेकिन पोस्टर खुद एक मूवी का पूरी तरह से वर्णन करने के लिए पर्याप्त नहीं है। सिमोस एट अल [१६] ने एक सीएनएन-मोशन का प्रस्ताव दिया जिसमें पर्यवेक्षण रहित क्लस्टरिंग एल्गोरिदम द्वारा प्रदान किए गए दृश्य हिस्टोग्राम, प्रत्येक ट्रेलर के लिए भारित शैली भविष्यवाणियां, साथ ही कुछ निम्न-स्तरीय वीडियो विशेषताएं शामिल थीं।
इस प्रकार, पिछले साहित्य से यह स्पष्ट है कि संज्ञानात्मक और भावात्मक अध्ययन के लिए वीडियो ट्रेलरों से प्रमुख जानकारी निकाली जानी चाहिए। इसलिए, काम के पीछे हमारी प्रेरणा वीडियो सामग्री विश्लेषण के दोनों स्तरों पर निर्भर दृष्टिकोण तैयार करना है जैसा कि [1] में है। हमारा मानना है कि प्रस्तावित वास्तुकला और मॉडल नवीन और मजबूत हैं और भविष्य में विभिन्न शोध दृष्टिकोणों के लिए इसका उपयोग किया जा सकता है।