लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
इस खंड में हम अपने दृष्टिकोण के विभिन्न मॉडलिंग घटकों के बारे में विवरण प्रदान करते हैं। हम GRAPHTRAILER आर्किटेक्चर (खंड A.1) का विवरण प्रदान करके शुरू करते हैं, फिर चर्चा करते हैं कि TP पहचान नेटवर्क को कैसे प्रशिक्षित किया जाता है (खंड A.2), और अंत में स्क्रीनप्ले पर प्री-ट्रेनिंग (A.3) और ग्राफ ट्रैवर्सल (A.4) के लिए उपयोग किए जाने वाले सेंटीमेंट फ्लो के बारे में तकनीकी विवरण देते हैं।
हम अपने मॉडल में विसंगतियों (यानी, टॉप-के सैंपलिंग, नेबरहुड साइज़ सिलेक्शन) को स्ट्रेटथ्रू एस्टिमेटर [7] का उपयोग करके संबोधित करते हैं। बैकवर्ड पास के दौरान हम गंबेल-सॉफ्टमैक्स रिपैरामेट्राइज़ेशन ट्रिक [25, 32] के साथ ग्रेडिएंट की गणना करते हैं। सहायक स्क्रीनप्ले-आधारित नेटवर्क में दृश्य-स्तरीय ग्राफ़ के निर्माण और विरलीकरण के लिए भी यही प्रक्रिया अपनाई जाती है।
सेक्शन 3 वीडियो और स्क्रीनप्ले-आधारित मॉडल के लिए हमारी प्रशिक्षण व्यवस्था प्रस्तुत करता है, जिसमें यह माना जाता है कि दृश्यों के लिए TP लेबल उपलब्ध हैं (यानी, बाइनरी लेबल यह दर्शाते हैं कि कोई दृश्य मूवी में TP के रूप में कार्य करता है या नहीं)। ऐसे लेबल दिए जाने पर, हमारे मॉडल को कुछ-हॉट गोल्ड लेबल और नेटवर्क के TP पूर्वानुमानों के बीच बाइनरी क्रॉस-एंट्रॉपी लॉस (BCE) उद्देश्य के साथ प्रशिक्षित किया जाता है।
हालाँकि, व्यवहार में, हमारे प्रशिक्षण सेट में दृश्यों के लिए सिल्वर स्टैंडर्ड लेबल शामिल हैं। बाद वाले को TRIPOD [41] डेटासेट के साथ रिलीज़ किया गया और स्वचालित रूप से बनाया गया। विशेष रूप से, TRIPOD सारांश (स्क्रीनप्ले नहीं) के लिए गोल्ड-स्टैंडर्ड TP एनोटेशन प्रदान करता है, इस धारणा के तहत कि सारांश वाक्य TP के प्रतिनिधि हैं। और वाक्य-स्तरीय एनोटेशन को शिक्षक बल [41] के साथ प्रशिक्षित मिलान मॉडल के साथ दृश्यों पर प्रक्षेपित किया जाता है ताकि सिल्वर-स्टैंडर्ड लेबल बनाए जा सकें।
हमारे ग्राफ ट्रैवर्सल एल्गोरिदम (धारा 3.1) में अगले शॉट को चुनने के मानदंडों में से एक अब तक उत्पन्न ट्रेलर का भावना प्रवाह है। विशेष रूप से, हम इस परिकल्पना[9] को अपनाते हैं कि ट्रेलरों को भावना तीव्रता के आधार पर तीन खंडों में विभाजित किया जाता है। पहले खंड में दर्शकों को आकर्षित करने के लिए मध्यम तीव्रता होती है, दूसरे खंड में फिल्म के बारे में महत्वपूर्ण जानकारी देने के लिए कम तीव्रता होती है और अंत में तीसरा खंड फिल्म के लिए क्लिफहैंगर्स और उत्साह पैदा करने के लिए उत्तरोत्तर उच्च तीव्रता प्रदर्शित करता है।
तदनुसार, L ट्रेलर शॉट्स के बजट को देखते हुए, हम उम्मीद करते हैं कि पहले L/3 शॉट्स में सेक्शन के भीतर बड़े बदलावों के बिना मध्यम तीव्रता होगी (उदाहरण के लिए, हम 0.7 के करीब औसत निरपेक्ष तीव्रता वाले शॉट्स चाहते हैं, जहाँ सभी स्कोर -1 से 1 की सीमा तक सामान्यीकृत होते हैं)। ट्रेलर के दूसरे भाग में (यानी, अगले L/3 शॉट्स) हम तीव्रता में तेज गिरावट की उम्मीद करते हैं और इस सेक्शन के शॉट्स में कमोबेश तटस्थ भावना (यानी, 0 तीव्रता) बनी रहेगी। अंत में, तीसरे सेक्शन (यानी, अंतिम L/3 शॉट्स) के लिए हम तीव्रता में लगातार वृद्धि की उम्मीद करते हैं। व्यवहार में, हम उम्मीद करते हैं कि पहले शॉट की तीव्रता 0.7 (यानी, मध्यम तीव्रता) होगी, जो अंतिम शॉट पर चरम पर पहुँचने तक प्रत्येक बाद के शॉट के साथ 0.1 तक बढ़ेगी।
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[9] https://www.derek-lieu.com/blog/2017/9/10/the-metric-is-a-trailer-editers-dream