paint-brush
स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: सार और परिचयद्वारा@kinetograph
115 रीडिंग

स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: सार और परिचय

बहुत लंबा; पढ़ने के लिए

इस पत्र में, शोधकर्ताओं ने स्थिति, संवाद और मेटाडेटा विशेषताओं का उपयोग करते हुए फिल्म शैली वर्गीकरण के लिए एक बहु-रूपता ढांचे का प्रस्ताव दिया है।
featured image - स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: सार और परिचय
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;

(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।

लिंक की तालिका

अमूर्त

स्वचालित मूवी शैली वर्गीकरण अनुसंधान और अन्वेषण के एक सक्रिय और आवश्यक क्षेत्र के रूप में उभरा है। लघु अवधि के मूवी ट्रेलर मूवी के बारे में उपयोगी जानकारी प्रदान करते हैं क्योंकि वीडियो सामग्री में संज्ञानात्मक और भावात्मक स्तर की विशेषताएं शामिल होती हैं। पिछले दृष्टिकोण संज्ञानात्मक या भावात्मक सामग्री विश्लेषण पर केंद्रित थे। इस पत्र में, हम एक नई बहु-विधता का प्रस्ताव करते हैं: स्थिति, संवाद और मेटाडेटा-आधारित मूवी शैली वर्गीकरण ढांचा जो संज्ञान और प्रभाव-आधारित दोनों विशेषताओं को ध्यान में रखता है। एक पूर्व-सुविधा संलयन-आधारित ढांचा जो ध्यान में रखता है: एक ट्रेलर के नियमित स्नैपशॉट से स्थिति-आधारित विशेषताएँ जिसमें संज्ञाएँ और क्रियाएँ शामिल हैं जो संबंधित शैलियों के साथ उपयोगी प्रभाव-आधारित मैपिंग प्रदान करती हैं, ऑडियो से संवाद (भाषण) आधारित विशेषता, मेटाडेटा जो एक साथ संज्ञानात्मक और प्रभाव आधारित वीडियो विश्लेषण के लिए प्रासंगिक जानकारी प्रदान करता है। हम अंग्रेजी मूवी ट्रेलर डेटासेट (EMTD) भी विकसित करते हैं, जिसमें पाँच लोकप्रिय शैलियों से संबंधित 2000 हॉलीवुड मूवी ट्रेलर शामिल हैं: एक्शन, रोमांस, कॉमेडी, हॉरर और साइंस फिक्शन, और प्रस्तावित ढांचे को मान्य करने के लिए मानक LMTD-9 डेटासेट पर क्रॉस-वैलिडेशन करते हैं। परिणाम दर्शाते हैं कि मूवी शैली वर्गीकरण के लिए प्रस्तावित कार्यप्रणाली ने उत्कृष्ट प्रदर्शन किया है, जैसा कि F1 स्कोर, परिशुद्धता, स्मरण, तथा परिशुद्धता-स्मरण वक्र के अंतर्गत क्षेत्र द्वारा दर्शाया गया है।


मुख्य शब्द: मूवी शैली वर्गीकरण, कन्वोल्यूशनल न्यूरल नेटवर्क, अंग्रेजी मूवी ट्रेलर डेटासेट, मल्टीमॉडल डेटा विश्लेषण।

1 परिचय

फ़िल्में दर्शकों के लिए मनोरंजन का एक बड़ा स्रोत हैं, जो समाज को कई तरह से प्रभावित करती हैं। किसी व्यक्ति की पसंद के अनुसार मैन्युअल रूप से किसी फ़िल्म की शैली की पहचान करना अलग-अलग हो सकता है। इसलिए, स्वचालित मूवी शैली भविष्यवाणी अनुसंधान और अन्वेषण का एक सक्रिय क्षेत्र है। मूवी ट्रेलर मूवी की शैलियों की भविष्यवाणी करने के लिए एक उपयोगी स्रोत बन रहे हैं। वे बहुत ही कम समय में मूवी के बारे में उपयोगी जानकारी प्रदान करते हैं। मूवी ट्रेलर में दो तरह की सामग्री होती है: संज्ञानात्मक सामग्री और भावात्मक सामग्री।


संज्ञानात्मक सामग्री मूवी ट्रेलर के किसी विशेष वीडियो फ़्रेम में घटनाओं, वस्तुओं और व्यक्तियों की संरचना का वर्णन करती है, जबकि भावात्मक सामग्री मूवी ट्रेलर में भावनाओं या भावनाओं जैसे मनोवैज्ञानिक विशेषताओं के प्रकारों का वर्णन करती है [1]। संज्ञानात्मक सामग्री के उदाहरणों में एक खेल का मैदान, एक इमारत, एक आदमी, एक कुत्ता आदि शामिल हैं। भावात्मक सामग्री के उदाहरण खुशी, उदासी, क्रोध आदि जैसी भावनाएँ/भावनाएँ हैं। संज्ञानात्मक और भावात्मक-आधारित दोनों सामग्री मूवी की शैलियों की भविष्यवाणी करने के लिए प्रमुख विशेषताएँ प्रदान करती हैं।


इस पत्र में, हम एक नई बहु-विधा स्थिति, संवाद और मेटाडेटा-आधारित मूवी शैली वर्गीकरण रूपरेखा का प्रस्ताव करते हैं, जिसका उद्देश्य मूवी ट्रेलरों के वीडियो, ऑडियो और मेटाडेटा (कथानक/विवरण) सामग्री का उपयोग करके मूवी शैलियों की भविष्यवाणी करना है। हमारी नई रूपरेखा मूवी ट्रेलर से संज्ञानात्मक और भावात्मक दोनों विशेषताओं को निकालने पर केंद्रित है। इसे प्राप्त करने के लिए, वीडियो फ्रेम से प्रासंगिक संज्ञाओं और क्रियाओं से बना एक वाक्य (स्थितियों से उत्पन्न) निकाला जाता है। संज्ञाएँ ट्रेलरों की संज्ञानात्मक सामग्री के बारे में प्रासंगिक जानकारी देती हैं, और क्रियाएँ संबंधित शैलियों के साथ उपयोगी प्रभाव-आधारित मैपिंग प्रदान करती हैं। उदाहरण के लिए, हँसना, खिलखिलाना, गुदगुदी करना आदि जैसी क्रियाएँ 'कॉमेडी' शैली के साथ एक प्रभाव-आधारित मैपिंग प्रदान करती हैं। हमला करना, पीटना, मारना आदि जैसी क्रियाएँ 'एक्शन' शैली के साथ एक प्रभाव-आधारित मैपिंग प्रदान करती हैं। स्थितियों के साथ-साथ, संवाद और मेटाडेटा-आधारित विशेषताएँ संज्ञानात्मक और भावात्मक सामग्री में अतिरिक्त रूप से योगदान करती हैं क्योंकि उनमें घटना विवरण (संज्ञानात्मक सामग्री) और मनोवैज्ञानिक विशेषताएँ (भावात्मक सामग्री) शामिल होती हैं।


मानक मशीन लर्निंग प्रक्रिया की तरह ही, यह कार्य कई चरणों में किया जाता है। पहला चरण डेटासेट जनरेशन चरण है, जहाँ हम EMTD बनाते हैं, जिसमें 5 लोकप्रिय शैलियों से संबंधित 2000 हॉलीवुड मूवी ट्रेलर शामिल हैं: एक्शन, रोमांस, कॉमेडी, हॉरर और साइंस फिक्शन। दूसरे चरण में वीडियो ट्रेलरों की प्री-प्रोसेसिंग शामिल है जहाँ सभी दोहराए गए फ़्रेम हटा दिए जाते हैं और उनका आकार बदल दिया जाता है। महत्वपूर्ण संज्ञाओं और क्रियाओं वाले वाक्यों को उपयोगी फ़्रेमों से निकाला जाता है। हम ट्रेलरों से संवाद प्राप्त करने के लिए मूवी ट्रेलरों की ऑडियो ट्रांसक्रिप्ट भी तैयार करते हैं। तीसरे चरण में, हम प्रस्तावित आर्किटेक्चर को डिज़ाइन और प्रशिक्षित करते हैं, जो ट्रेलरों से महत्वपूर्ण विशेषताओं को निकालता और सीखता है। अंत में, चौथे चरण में, हमारे प्रस्तावित आर्किटेक्चर के प्रदर्शन का मूल्यांकन प्रेसिजन रिकॉल कर्व (AU (PRC)) मीट्रिक के तहत क्षेत्र का उपयोग करके किया जाता है। हमारे काम के महत्वपूर्ण योगदान निम्नलिखित हैं:


  • हम एक नया ईएमटीडी (अंग्रेजी मूवी ट्रेलर डेटासेट) प्रस्तावित करते हैं जिसमें अंग्रेजी भाषा के हॉलीवुड मूवी ट्रेलर शामिल हैं जो पांच लोकप्रिय और अलग-अलग शैलियों से संबंधित हैं: एक्शन, रोमांस, कॉमेडी, हॉरर और साइंस फिक्शन।


  • यह कार्य संज्ञानात्मक और प्रभाव-आधारित विशेषताओं का उपयोग करके मूवी शैलियों की भविष्यवाणी करने के लिए एक नया दृष्टिकोण प्रस्तावित करता है। हमारे सर्वोत्तम ज्ञान के अनुसार, पिछले किसी भी साहित्य ने मूवी ट्रेलरों से निकाले गए संवाद, स्थिति और मेटाडेटा-आधारित विशेषताओं के संयोजन पर ध्यान केंद्रित नहीं किया है। इसलिए, हम करते हैं: संज्ञाओं और क्रियाओं का उपयोग करके स्थिति-आधारित विश्लेषण, भाषण पहचान का उपयोग करके संवाद-आधारित विश्लेषण, और ट्रेलरों के साथ उपलब्ध मेटाडेटा के साथ मेटाडेटा-आधारित विश्लेषण।


  • प्रस्तावित आर्किटेक्चर का मूल्यांकन मानक LMTD-9 [2] डेटासेट पर क्रॉस-डेटासेट परीक्षण करके भी किया जाता है। परिणाम बताते हैं कि प्रस्तावित आर्किटेक्चर ने बेहतरीन प्रदर्शन किया है और फ्रेमवर्क के बेहतर प्रदर्शन को प्रदर्शित करता है।


पेपर का शेष भाग इस प्रकार व्यवस्थित है: सेक्शन 2 में, मूवी शैली वर्गीकरण पर पिछले साहित्य की समीक्षा की गई है, और प्रस्तावित कार्य के पीछे की प्रेरणा पर प्रकाश डाला गया है। सेक्शन 3 में, हम प्रस्तावित EMTD पर चर्चा करते हैं। सेक्शन 4 में, हम प्रस्तावित आर्किटेक्चर का विस्तृत विवरण प्रदान करते हैं। सेक्शन 5 में, हम प्रस्तावित ढांचे के प्रदर्शन का मूल्यांकन करते हैं और इसे दो अलग-अलग डेटासेट के विरुद्ध मान्य करते हैं। पेपर सेक्शन 6 में समाप्त होता है।