paint-brush
"कुरोसावा": एक पटकथा लेखक का सहायक: परिशिष्टद्वारा@teleplay
149 रीडिंग

"कुरोसावा": एक पटकथा लेखक का सहायक: परिशिष्ट

द्वारा Teleplay Technology 5m2024/05/23
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने KUROSAWA का परिचय दिया है, जो कथानक और स्क्रिप्ट निर्माण के लिए एक AI स्क्रिप्ट-लेखन कार्यक्षेत्र है, जो मनोरंजन मीडिया में स्वचालन पर ध्यान केंद्रित करता है।
featured image - "कुरोसावा": एक पटकथा लेखक का सहायक: परिशिष्ट
Teleplay Technology  HackerNoon profile picture
0-item

लेखक:

(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, [email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,[email protected], और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;

(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।

लिंक की तालिका

ए. परिशिष्ट

A.1. नैतिकता पर विचार

हमने सभी स्क्रिप्ट IMDB और IMSDb डेटाबेस से ली हैं। वेबसाइट पर शोध के लिए अपनी स्क्रिप्ट का उपयोग करने के बारे में एक अस्वीकरण है, जिसे इस लिंक https://imsdb.com/disclaimer.html पर पाया जा सकता है। हमने स्क्रिप्ट का निष्पक्ष और कॉपीराइट उल्लंघन के बिना उपयोग किया है।

ए.2. एनोटेटर प्रोफाइल

हमें दो मामलों में बाहरी एनोटेटर्स की मदद की आवश्यकता थी: (i) स्क्रिप्ट को मैन्युअल रूप से एनोटेट करना और (ii) स्क्रिप्ट से दृश्य और उनके विवरण बनाना। पहले कार्य के लिए, हमने 10 एनोटेटर्स की मदद ली। उनकी उम्र 21-28 के बीच थी, और सभी एशियाई थे। उन्हें एनोटेट करने के उदाहरणों के साथ विस्तृत दिशानिर्देश दिए गए थे। उनकी समझ की पुष्टि करने और उनकी शंकाओं और गलतियों को हल करने के लिए समय-समय पर सत्र भी आयोजित किए गए। दूसरे कार्य के लिए, हमने दो एनोटेटर्स की मदद ली। वे दोनों एशियाई महिलाएं हैं जिनकी उम्र 21-23 के बीच है। दोनों को दृश्य-लेखन कार्य के लिए विस्तृत दिशानिर्देश दिए गए थे। कुछ डेटा बिंदुओं को यादृच्छिक रूप से चुना गया और वैचारिक गलतियों का पता लगाने और उन्हें ठीक करने के लिए जाँच की गई।

A.3. मूल्यांकन मेट्रिक्स

मूल्यांकन मेट्रिक्स का वर्णन नीचे दिया गया है:


• पेरप्लेक्सिटी (PPL): पेरप्लेक्सिटी भाषा मॉडल के मूल्यांकन के लिए सबसे आम मीट्रिक में से एक है। इनकी गणना एन्ट्रॉपी के घातांक के रूप में की जाती है। PPL का मान जितना छोटा होगा, उत्पन्न पाठ की प्रवाहशीलता उतनी ही अधिक होगी।


• BLEU: द्विभाषी मूल्यांकन अंडरस्टडी कई NLP कार्यों में एक सामान्य मीट्रिक है, खासकर मशीन अनुवाद के क्षेत्र में। यह उत्पन्न आउटपुट और स्वर्ण मानक डेटा के बीच ओवरलैप को मापता है। हालाँकि यह मीट्रिक मॉडल की रचनात्मकता पर विचार नहीं करता है, हम BLEU का उपयोग करके उम्मीदवार पाठ और संदर्भ पाठ के बीच अंतर का अनुमान लगा सकते हैं। BLEU माप जितना अधिक होगा, उतना ही बेहतर होगा।


• ROUGE: रिकॉल - ओरिएंटेड अंडरस्टडी फॉर गिस्टिंग वैल्यूएशन का इस्तेमाल आमतौर पर स्वचालित सारांश का मूल्यांकन करने के लिए किया जाता है। हमारे मामले में, यह उत्पन्न और मूल प्लॉट के बीच सबसे लंबे ओवरलैपिंग अनुक्रम को मापता है। ROUGE माप जितना अधिक होगा, उतना ही बेहतर होगा।


• एन-ग्राम: हम पुनरावृत्ति और अंतर एन-ग्राम स्कोर की गणना करके मूवी प्लॉट की अतिरेक और विविधता को मापते हैं।

A.4. पटकथा संरचना

एक फिल्म की स्क्रिप्ट या स्क्रीनप्ले का प्रारूप कहानी से अलग होता है। स्क्रिप्ट दृश्यों का एक समूह है। इनमें से प्रत्येक दृश्य में कुछ प्रमुख घटक होते हैं, जिनकी चर्चा नीचे की गई है:


दृश्य शीर्षक/स्लगलाइन- यह घटक दृश्य के कब और कहाँ होने का वर्णन करता है। इसे कैमरे द्वारा किसी नए दृश्य का लिया गया पहला शॉट माना जा सकता है। उदाहरण के लिए, INT. - RESTAURANT - NIGHT यह दर्शाता है कि दृश्य रात में किसी रेस्तरां के अंदर शुरू होता है। स्लगलाइन आमतौर पर बड़े अक्षरों में लिखी जाती हैं और बाईं ओर संरेखित होती हैं।


चरित्र नाम - जब भी कोई चरित्र संवाद बोलने वाला होता है, तो उनका उल्लेख किया जाता है। प्रत्येक चरित्र का नाम बड़े अक्षरों में लिखा जाता है और केंद्र में संरेखित किया जाता है।


संवाद - संवाद वे पंक्तियाँ हैं जो पात्र बोलते हैं। वे स्क्रिप्ट में पात्र के नाम के ठीक बाद दिखाई देते हैं और केंद्र में संरेखित होते हैं।


एक्शन लाइन्स - एक्शन लाइन्स किसी दृश्य के बारे में लगभग सब कुछ बताती हैं। इन्हें प्रत्येक स्क्रिप्ट के वर्णन के रूप में वर्णित किया जा सकता है। एक्शन लाइन्स संवादों या स्लगलाइन के बाद मौजूद हो सकती हैं और बाईं ओर संरेखित होती हैं।


संक्रमण - संक्रमण एक दृश्य से दूसरे दृश्य में परिवर्तन को दर्शाता है। वे यह भी दर्शाते हैं कि एक दृश्य कैसे समाप्त होता है। उदाहरण के लिए, DISSOLVE, FADE, और CUT संक्रमण को इंगित करने के लिए उपयोग किए जाने वाले विभिन्न कीवर्ड हैं। वे आम तौर पर बड़े अक्षरों में होते हैं और दाईं ओर संरेखित होते हैं।


चित्र 8 में पटकथा तत्वों का एक उदाहरण दिखाया गया है।

A.5. कहानी टेम्पलेट्स

समय के साथ-साथ कई ऐसे टेम्पलेट विकसित किए गए हैं जो कहानियों को बनाने में मदद करते हैं। सबसे प्रसिद्ध टेम्पलेट में से एक 3-अधिनियम संरचना (फील्ड, 1979) है। यह संरचना एक कहानी को सेटअप, टकराव और समाधान में विभाजित करती है। इस काम में, हमने 4-अधिनियम संरचना का उपयोग किया है जिसका अब हम विस्तार से वर्णन करते हैं।


एक्ट 1 - यह शुरूआती/परिचयात्मक एक्ट है। इसमें नायक के चरित्र का वर्णन किया जाता है और फिल्म के विषय का संक्षिप्त परिचय दिया जाता है। एक्ट का अंत नायक के लिए एक नई यात्रा की शुरुआत के साथ होता है।


एक्ट 2A - एक्ट 2 की विशाल अवधि के कारण, इसे दो एक्ट में विभाजित किया जा सकता है। इस एक्ट में आमतौर पर एक प्रेम कहानी की शुरुआत होती है। यह दर्शकों का मनोरंजन भी करता है क्योंकि नायक अपनी नई यात्रा के लिए खुद को ढालने की कोशिश करता है। यह एक्ट फिल्म के मध्य बिंदु के रूप में समाप्त होता है, जो फिल्म के महत्वपूर्ण क्षणों में से एक है, जिसमें या तो बहुत सकारात्मक या नकारात्मक दृश्य होता है।


एक्ट 2बी - इस एक्ट में आम तौर पर नायक का पतन होता है। खलनायक या प्रतिपक्षी को लाभ मिलना शुरू हो जाता है, और नायक कुछ महत्वपूर्ण चीज़ या व्यक्ति खो देता है। यह एक्ट नायक द्वारा चरम सीमा पर पहुँचने के बाद अपने नए मिशन को समझने के साथ समाप्त होता है।


तीसरा भाग - नायक को अपने अंदर ज़रूरी बदलाव का एहसास हो जाता है और वह एक रोमांचक अंत में प्रतिपक्षी को हराने के लिए तैयार हो जाता है। फिर फ़िल्म नायक में एक स्वागत योग्य बदलाव दिखाते हुए समाप्त होती है जिसकी शुरुआत में कमी थी।


चित्र 6: 4-अंक संरचना का उपयोग करके फिल्म म्यूज़िक ऑफ़ द हार्ट के कथानक के मैनुअल एनोटेशन का उदाहरण

A.6. GPT-3 का फाइन-ट्यूनिंग

GPT-3 को पिछले साल OpenAI (ब्राउन एट अल., 2020) द्वारा सार्वजनिक रूप से उपलब्ध माना गया था। इसके सर्वश्रेष्ठ मॉडल में 175B पैरामीटर हैं, जो GPT2 के 2.9B पैरामीटर से बहुत अधिक है। हमने GPT-3 के साथ-साथ सीन जनरेशन मॉडल के साथ कई प्लॉट जनरेशन मॉडल को फाइन-ट्यून किया है। प्लॉट जनरेशन मॉडल के कई संयोजन छोटे या लंबे प्रॉम्प्ट हैं और शैलियों के साथ या बिना हैं। GPT-3 मॉडल और हाइपरपैरामीटर उपरोक्त सभी संयोजनों के लिए समान रहते हैं। हमने चार युगों के लिए GPT-3 क्यूरी मॉडल को फाइन-ट्यून किया है। टेक्स्ट जनरेट करने के लिए, GPT-3 हमारे इच्छित परिणामों के करीब पहुंचने और ट्यून करने के लिए विभिन्न हाइपरपैरामीटर प्रदान करता है। परीक्षण के लिए, हमने अन्य हाइपरपैरामीटर इस प्रकार सेट किए हैं: तापमान 0.7, टॉप-पी 1, आवृत्ति दंड 0.1, उपस्थिति दंड 0.1 और अधिकतम टोकन 900।


चित्र 7: एक लघु इनपुट से उत्पन्न सम्पूर्ण दृश्य का उदाहरण।


चित्र 8: पटकथा के तत्व


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।