लेखक:
(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, [email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,[email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।
हमने सभी स्क्रिप्ट IMDB और IMSDb डेटाबेस से ली हैं। वेबसाइट पर शोध के लिए अपनी स्क्रिप्ट का उपयोग करने के बारे में एक अस्वीकरण है, जिसे इस लिंक https://imsdb.com/disclaimer.html पर पाया जा सकता है। हमने स्क्रिप्ट का निष्पक्ष और कॉपीराइट उल्लंघन के बिना उपयोग किया है।
हमें दो मामलों में बाहरी एनोटेटर्स की मदद की आवश्यकता थी: (i) स्क्रिप्ट को मैन्युअल रूप से एनोटेट करना और (ii) स्क्रिप्ट से दृश्य और उनके विवरण बनाना। पहले कार्य के लिए, हमने 10 एनोटेटर्स की मदद ली। उनकी उम्र 21-28 के बीच थी, और सभी एशियाई थे। उन्हें एनोटेट करने के उदाहरणों के साथ विस्तृत दिशानिर्देश दिए गए थे। उनकी समझ की पुष्टि करने और उनकी शंकाओं और गलतियों को हल करने के लिए समय-समय पर सत्र भी आयोजित किए गए। दूसरे कार्य के लिए, हमने दो एनोटेटर्स की मदद ली। वे दोनों एशियाई महिलाएं हैं जिनकी उम्र 21-23 के बीच है। दोनों को दृश्य-लेखन कार्य के लिए विस्तृत दिशानिर्देश दिए गए थे। कुछ डेटा बिंदुओं को यादृच्छिक रूप से चुना गया और वैचारिक गलतियों का पता लगाने और उन्हें ठीक करने के लिए जाँच की गई।
मूल्यांकन मेट्रिक्स का वर्णन नीचे दिया गया है:
• पेरप्लेक्सिटी (PPL): पेरप्लेक्सिटी भाषा मॉडल के मूल्यांकन के लिए सबसे आम मीट्रिक में से एक है। इनकी गणना एन्ट्रॉपी के घातांक के रूप में की जाती है। PPL का मान जितना छोटा होगा, उत्पन्न पाठ की प्रवाहशीलता उतनी ही अधिक होगी।
• BLEU: द्विभाषी मूल्यांकन अंडरस्टडी कई NLP कार्यों में एक सामान्य मीट्रिक है, खासकर मशीन अनुवाद के क्षेत्र में। यह उत्पन्न आउटपुट और स्वर्ण मानक डेटा के बीच ओवरलैप को मापता है। हालाँकि यह मीट्रिक मॉडल की रचनात्मकता पर विचार नहीं करता है, हम BLEU का उपयोग करके उम्मीदवार पाठ और संदर्भ पाठ के बीच अंतर का अनुमान लगा सकते हैं। BLEU माप जितना अधिक होगा, उतना ही बेहतर होगा।
• ROUGE: रिकॉल - ओरिएंटेड अंडरस्टडी फॉर गिस्टिंग ई वैल्यूएशन का इस्तेमाल आमतौर पर स्वचालित सारांश का मूल्यांकन करने के लिए किया जाता है। हमारे मामले में, यह उत्पन्न और मूल प्लॉट के बीच सबसे लंबे ओवरलैपिंग अनुक्रम को मापता है। ROUGE माप जितना अधिक होगा, उतना ही बेहतर होगा।
• एन-ग्राम: हम पुनरावृत्ति और अंतर एन-ग्राम स्कोर की गणना करके मूवी प्लॉट की अतिरेक और विविधता को मापते हैं।
एक फिल्म की स्क्रिप्ट या स्क्रीनप्ले का प्रारूप कहानी से अलग होता है। स्क्रिप्ट दृश्यों का एक समूह है। इनमें से प्रत्येक दृश्य में कुछ प्रमुख घटक होते हैं, जिनकी चर्चा नीचे की गई है:
दृश्य शीर्षक/स्लगलाइन- यह घटक दृश्य के कब और कहाँ होने का वर्णन करता है। इसे कैमरे द्वारा किसी नए दृश्य का लिया गया पहला शॉट माना जा सकता है। उदाहरण के लिए, INT. - RESTAURANT - NIGHT यह दर्शाता है कि दृश्य रात में किसी रेस्तरां के अंदर शुरू होता है। स्लगलाइन आमतौर पर बड़े अक्षरों में लिखी जाती हैं और बाईं ओर संरेखित होती हैं।
चरित्र नाम - जब भी कोई चरित्र संवाद बोलने वाला होता है, तो उनका उल्लेख किया जाता है। प्रत्येक चरित्र का नाम बड़े अक्षरों में लिखा जाता है और केंद्र में संरेखित किया जाता है।
संवाद - संवाद वे पंक्तियाँ हैं जो पात्र बोलते हैं। वे स्क्रिप्ट में पात्र के नाम के ठीक बाद दिखाई देते हैं और केंद्र में संरेखित होते हैं।
एक्शन लाइन्स - एक्शन लाइन्स किसी दृश्य के बारे में लगभग सब कुछ बताती हैं। इन्हें प्रत्येक स्क्रिप्ट के वर्णन के रूप में वर्णित किया जा सकता है। एक्शन लाइन्स संवादों या स्लगलाइन के बाद मौजूद हो सकती हैं और बाईं ओर संरेखित होती हैं।
संक्रमण - संक्रमण एक दृश्य से दूसरे दृश्य में परिवर्तन को दर्शाता है। वे यह भी दर्शाते हैं कि एक दृश्य कैसे समाप्त होता है। उदाहरण के लिए, DISSOLVE, FADE, और CUT संक्रमण को इंगित करने के लिए उपयोग किए जाने वाले विभिन्न कीवर्ड हैं। वे आम तौर पर बड़े अक्षरों में होते हैं और दाईं ओर संरेखित होते हैं।
चित्र 8 में पटकथा तत्वों का एक उदाहरण दिखाया गया है।
समय के साथ-साथ कई ऐसे टेम्पलेट विकसित किए गए हैं जो कहानियों को बनाने में मदद करते हैं। सबसे प्रसिद्ध टेम्पलेट में से एक 3-अधिनियम संरचना (फील्ड, 1979) है। यह संरचना एक कहानी को सेटअप, टकराव और समाधान में विभाजित करती है। इस काम में, हमने 4-अधिनियम संरचना का उपयोग किया है जिसका अब हम विस्तार से वर्णन करते हैं।
एक्ट 1 - यह शुरूआती/परिचयात्मक एक्ट है। इसमें नायक के चरित्र का वर्णन किया जाता है और फिल्म के विषय का संक्षिप्त परिचय दिया जाता है। एक्ट का अंत नायक के लिए एक नई यात्रा की शुरुआत के साथ होता है।
एक्ट 2A - एक्ट 2 की विशाल अवधि के कारण, इसे दो एक्ट में विभाजित किया जा सकता है। इस एक्ट में आमतौर पर एक प्रेम कहानी की शुरुआत होती है। यह दर्शकों का मनोरंजन भी करता है क्योंकि नायक अपनी नई यात्रा के लिए खुद को ढालने की कोशिश करता है। यह एक्ट फिल्म के मध्य बिंदु के रूप में समाप्त होता है, जो फिल्म के महत्वपूर्ण क्षणों में से एक है, जिसमें या तो बहुत सकारात्मक या नकारात्मक दृश्य होता है।
एक्ट 2बी - इस एक्ट में आम तौर पर नायक का पतन होता है। खलनायक या प्रतिपक्षी को लाभ मिलना शुरू हो जाता है, और नायक कुछ महत्वपूर्ण चीज़ या व्यक्ति खो देता है। यह एक्ट नायक द्वारा चरम सीमा पर पहुँचने के बाद अपने नए मिशन को समझने के साथ समाप्त होता है।
तीसरा भाग - नायक को अपने अंदर ज़रूरी बदलाव का एहसास हो जाता है और वह एक रोमांचक अंत में प्रतिपक्षी को हराने के लिए तैयार हो जाता है। फिर फ़िल्म नायक में एक स्वागत योग्य बदलाव दिखाते हुए समाप्त होती है जिसकी शुरुआत में कमी थी।
GPT-3 को पिछले साल OpenAI (ब्राउन एट अल., 2020) द्वारा सार्वजनिक रूप से उपलब्ध माना गया था। इसके सर्वश्रेष्ठ मॉडल में 175B पैरामीटर हैं, जो GPT2 के 2.9B पैरामीटर से बहुत अधिक है। हमने GPT-3 के साथ-साथ सीन जनरेशन मॉडल के साथ कई प्लॉट जनरेशन मॉडल को फाइन-ट्यून किया है। प्लॉट जनरेशन मॉडल के कई संयोजन छोटे या लंबे प्रॉम्प्ट हैं और शैलियों के साथ या बिना हैं। GPT-3 मॉडल और हाइपरपैरामीटर उपरोक्त सभी संयोजनों के लिए समान रहते हैं। हमने चार युगों के लिए GPT-3 क्यूरी मॉडल को फाइन-ट्यून किया है। टेक्स्ट जनरेट करने के लिए, GPT-3 हमारे इच्छित परिणामों के करीब पहुंचने और ट्यून करने के लिए विभिन्न हाइपरपैरामीटर प्रदान करता है। परीक्षण के लिए, हमने अन्य हाइपरपैरामीटर इस प्रकार सेट किए हैं: तापमान 0.7, टॉप-पी 1, आवृत्ति दंड 0.1, उपस्थिति दंड 0.1 और अधिकतम टोकन 900।
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।