লেখক:
(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;
(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;
(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।
এই বিভাগে আমরা আমাদের পদ্ধতির বিভিন্ন মডেলিং উপাদান সম্পর্কে বিশদ প্রদান করি। আমরা GRAPHTRAILER আর্কিটেকচারের বিশদ বিবরণ প্রদান করে শুরু করি (অনুচ্ছেদ A.1), তারপর TP শনাক্তকরণ নেটওয়ার্ক কীভাবে প্রশিক্ষিত হয় তা নিয়ে আলোচনা করতে চলে যাই (বিভাগ A.2), এবং অবশেষে চিত্রনাট্যের প্রাক-প্রশিক্ষণ সম্পর্কে প্রযুক্তিগত বিশদ বিবরণ দিই (A.3) , এবং গ্রাফ ট্রাভার্সালের জন্য ব্যবহৃত সেন্টিমেন্ট প্রবাহ (A.4)।
আমরা স্ট্রেইটথ্রু এস্টিমেটর ব্যবহার করে আমাদের মডেলে (অর্থাৎ, টপ-কে স্যাম্পলিং, আশেপাশের আকার নির্বাচন) বিচ্ছিন্নতার সমাধান করি [7]। ব্যাকওয়ার্ড পাসের সময় আমরা Gumbel-softmax reparametrization কৌশল [25, 32] দিয়ে গ্রেডিয়েন্টগুলি গণনা করি। অক্জিলিয়ারী চিত্রনাট্য-ভিত্তিক নেটওয়ার্কে দৃশ্য-স্তরের গ্রাফ নির্মাণ এবং বিক্ষিপ্ত করার জন্য একই পদ্ধতি অনুসরণ করা হয়।
বিভাগ 3 ভিডিও- এবং চিত্রনাট্য-ভিত্তিক মডেলের জন্য আমাদের প্রশিক্ষণ ব্যবস্থা উপস্থাপন করে যে দৃশ্যের জন্য TP লেবেল উপলব্ধ রয়েছে (অর্থাৎ, বাইনারি লেবেলগুলি নির্দেশ করে যে কোনও দৃশ্য একটি চলচ্চিত্রে TP হিসাবে কাজ করে কিনা)। এই ধরনের লেবেল প্রদত্ত, আমাদের মডেলকে অল্প-গরম সোনার লেবেল এবং নেটওয়ার্কের TP পূর্বাভাসগুলির মধ্যে একটি বাইনারি ক্রস-এনট্রপি লস (BCE) উদ্দেশ্য সহ প্রশিক্ষিত করা হয়েছে।
যাইহোক, অনুশীলনে, আমাদের প্রশিক্ষণ সেটে দৃশ্যের জন্য সিলভার স্ট্যান্ডার্ড লেবেল রয়েছে। পরবর্তীগুলি TRIPOD [41] ডেটাসেটের সাথে একসাথে প্রকাশিত হয় এবং স্বয়ংক্রিয়ভাবে তৈরি হয়। বিশেষভাবে, TRIPOD সিনোপসিসের জন্য স্বর্ণ-মান TP টীকা প্রদান করে (স্ক্রিনপ্লে নয়), এই ধারণার অধীনে যে সংক্ষিপ্ত বাক্যগুলি TP-এর প্রতিনিধি। এবং বাক্য-স্তরের টীকাগুলি সিলভার-স্ট্যান্ডার্ড লেবেল তৈরি করতে শিক্ষকের সাথে প্রশিক্ষিত একটি ম্যাচিং মডেলের সাথে দৃশ্যে প্রক্ষিপ্ত হয় [৪১]।
আমাদের গ্রাফ ট্রাভার্সাল অ্যালগরিদম (বিভাগ 3.1) এর পরবর্তী শটটি নির্বাচন করার জন্য একটি মানদণ্ড হল এখনও পর্যন্ত তৈরি হওয়া ট্রেলারের অনুভূতি প্রবাহ। বিশেষত, আমরা অনুমানটি গ্রহণ করি [9] যে ট্রেলারগুলি অনুভূতির তীব্রতার উপর ভিত্তি করে তিনটি বিভাগে বিভক্ত। প্রথম বিভাগে দর্শকদের আকৃষ্ট করার জন্য মাঝারি তীব্রতা রয়েছে, দ্বিতীয় বিভাগে চলচ্চিত্র সম্পর্কে মূল তথ্য সরবরাহের জন্য কম তীব্রতা রয়েছে এবং অবশেষে তৃতীয় বিভাগে ক্লিফহ্যাংগার এবং চলচ্চিত্রের জন্য উত্তেজনা তৈরির জন্য ক্রমান্বয়ে উচ্চতর তীব্রতা প্রদর্শন করে।
তদনুসারে, এল ট্রেলার শটগুলির বাজেট দেওয়া হয়েছে, আমরা আশা করি প্রথম L/3 গুলি বিভাগের মধ্যে বড় পরিবর্তন ছাড়াই মাঝারি তীব্রতা থাকবে (যেমন, আমরা 0.7 এর কাছাকাছি গড় পরম তীব্রতা সহ শট চাই, যেখানে সমস্ত স্কোর একটি পরিসরে স্বাভাবিক করা হয়। -1 থেকে 1 পর্যন্ত)। ট্রেলারের দ্বিতীয় অংশে (অর্থাৎ, পরবর্তী L/3 শট) আমরা এই বিভাগের মধ্যে তীব্রতা এবং শটগুলি কম-বেশি নিরপেক্ষ অনুভূতি বজায় রাখতে (অর্থাৎ, 0 তীব্রতা) একটি তীব্র হ্রাস আশা করি। অবশেষে, তৃতীয় বিভাগের জন্য (অর্থাৎ, চূড়ান্ত L/3 শট) আমরা আশা করি তীব্রতা ক্রমাগত বৃদ্ধি পাবে। অনুশীলনে, আমরা আশা করি প্রথম শটের তীব্রতা 0.7 হবে (অর্থাৎ, মাঝারি তীব্রতা), প্রতিটি পরবর্তী শটের সাথে 0.1 দ্বারা বৃদ্ধি পাবে যতক্ষণ না আমরা চূড়ান্ত শটে একটি শীর্ষে পৌঁছাই।
এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[৯] https : // www। derek - lieu. com/blog/2017/9/10/the - matrix - is - a - trailer - editors-dream