paint-brush
পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: প্রস্তাবিত পদ্ধতিদ্বারা@kinetograph
125 পড়া

পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: প্রস্তাবিত পদ্ধতি

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মুভি জেনার শ্রেণীবিভাগ, পরিস্থিতি, সংলাপ, এবং মেটাডেটা বৈশিষ্ট্যগুলি ব্যবহার করার জন্য একটি মাল্টি-মডালিটি কাঠামোর প্রস্তাব করেছেন।
featured image - পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: প্রস্তাবিত পদ্ধতি
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;

(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(4) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।

লিঙ্কের টেবিল

4. প্রস্তাবিত পদ্ধতি

4.1। বর্ণনা

মুভির প্লট/বর্ণনা একটি মুভি বর্ণনা করার জন্য একটি গুরুত্বপূর্ণ বৈশিষ্ট্য। বেশিরভাগ ক্ষেত্রে, মুক্তিপ্রাপ্ত সিনেমার জন্য উল্লিখিত প্লটটি হয় খুব ছোট বা কিছু ক্ষেত্রে উল্লেখ করা হয় না। এটি বিবেচনা করে, আমরা মুভির ট্রেলার থেকে সংগৃহীত সংলাপগুলির সাথে সংযুক্ত বর্ণনাগুলিকে শেষ পর্যন্ত মুভির ধরণ সম্পর্কে ভবিষ্যদ্বাণী করার জন্য বেছে নিই, যেমনটি বিভাগ 4.2 এ বিস্তারিতভাবে আলোচনা করা হয়েছে। বর্ণনাগুলি IMDB ওয়েবসাইট থেকে মেটাডেটা হিসাবে আনা হয়েছে যেমনটি ইতিমধ্যেই বিভাগ 3 এ উল্লিখিত হয়েছে।


চিত্র 1: কাঠামোর পাইপলাইন

4.2। সংলাপ

এই বিভাগে, আমরা একটি স্থাপত্যের প্রস্তাব করি যাতে ট্রেলারের অডিও থেকে সংলাপগুলির একটি তালিকা প্রক্রিয়া করা যায় (সংলাপগুলির সাথে সংলাপযুক্ত বিবরণ/প্লট থেকে) মুভির ধরণগুলির পূর্বাভাস দেওয়ার জন্য৷ এই প্রবাহের জন্য উল্লেখযোগ্য পদক্ষেপগুলির মধ্যে রয়েছে: (1) মুভির ট্রেলার থেকে বক্তৃতা (সংলাপ) বের করুন এবং (2) বক্তৃতা এবং মেটাডেটার ভিত্তিতে জেনারগুলির পূর্বাভাস দেওয়ার জন্য একটি মডেল ডিজাইন করুন৷

4.2.1। ডেটা প্রাক-প্রক্রিয়াকরণ

(.wav) ফর্ম্যাটে অডিও ফাইলগুলি (.mp4) ভিডিও ট্রেলার থেকে বের করা হয়। এর পরে, অডিও ফাইলটি ছোট অডিও ক্লিপগুলিতে বিভক্ত হয় এবং [17] এ প্রস্তাবিত সংলাপে রূপান্তরিত হয়। একটি ইনপুট কর্পাস গঠনের জন্য সমস্ত পাঠ্য সংগ্রহ করা হয়। বর্ণনা/প্লট (যদি মেটাডেটা পাওয়া যায়) এছাড়াও এই কর্পাসে একত্রিত করা হয়েছে। আমাদের অধ্যয়ন শুধুমাত্র ইংরেজি ভাষার ট্রেলারের জন্য লক্ষ্য করা হয়েছে। মুভির প্লটের মতই, ট্রেলার থেকে প্রাপ্ত বক্তৃতা আমাদের টেক্সট কর্পাসের পরিপূরক হিসাবে কাজ করতে পারে, যা টেক্সট প্রসঙ্গ এবং মুভির জেনারের মধ্যে সম্পর্ককে আরও ভালভাবে বুঝতে সাহায্য করতে পারে। আমাদের প্রশিক্ষণ/পরীক্ষা পর্বে প্রতিটি ট্রেলারের জন্য একটি একক রেকর্ড সমন্বিত করপাস তৈরি করার পরে নিম্নলিখিত প্রাক-প্রক্রিয়াকরণ পদক্ষেপগুলি পরিচালিত হয়েছিল: সমস্ত পাঠ্যকে ছোট হাতের অক্ষরে রূপান্তর করা, অঙ্ক, বিরাম চিহ্ন, স্টপ-শব্দ এবং ওয়েব-লিঙ্কগুলি বাদ দেওয়া। উপরে প্রাপ্ত পাঠ্যটি প্রশিক্ষণ/পরীক্ষার জন্য মডেল/প্রাক-প্রশিক্ষিত মডেলে একটি ইনপুট হিসাবে ফিড করতে ব্যবহৃত হয়।


সারণি 2: তাদের অর্থ সহ সংক্ষিপ্ত রূপ

4.2.2। বৈশিষ্ট্য নিষ্কাশন (সংলাপ)


4.2.3। ECnet (এম্বেডিং - কনভোলিউশন নেটওয়ার্ক)

জ্ঞানীয়-ভিত্তিক জেনার সনাক্তকরণ আর্কিটেকচার তৈরি করতে, একটি টেক্সট কর্পাস আকারে ট্রেলারের গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি একটি মডেল দ্বারা শিখতে হবে। এটি এমবেডিং এবং সিএনএন (কনভোলিউশন নিউরাল নেটওয়ার্ক) স্তরগুলির সংমিশ্রণ ব্যবহার করে অর্জন করা যেতে পারে। মাল্টি-লেবেল ক্লাসিফিকেশন নেটওয়ার্কের স্তরগুলি সারণি 3-এ চিত্রিত করা হয়েছে। এম্বেডিং হল সংখ্যাসূচক ভেক্টরের আকারে শব্দগুলিকে গাণিতিক উপস্থাপনায় রূপান্তর করার জন্য NLP সমস্যায় ব্যবহৃত জনপ্রিয় কৌশলগুলির মধ্যে একটি।


চিত্র 2: ECnet আর্কিটেকচার


প্রকৃতপক্ষে আর্কিটেকচারে ইনপুট পাঠানোর আগে, শব্দভাণ্ডারটি ডিজাইন করা দরকার এবং প্রতিটি ডেটা পয়েন্টের জন্য একটি কর্পাসের আকার ঠিক করা দরকার। 10,395 শব্দের আকারের একটি শব্দভান্ডার ডিজাইন করা হয়েছে এবং প্রতিটি কর্পাসের শব্দ সংখ্যার সর্বোচ্চ দৈর্ঘ্য আমাদের প্রশিক্ষণ কর্পাসের দীর্ঘতম বাক্যের দৈর্ঘ্য হিসাবে সেট করা হয়েছে, যা আমাদের ক্ষেত্রে 330। একটি কর্পাসে শব্দের সংখ্যা সর্বাধিক দৈর্ঘ্যের চেয়ে কম হলে, কর্পাসটি 0 এর সাথে প্যাড করা হয়। একটি 2-3-মিনিটের মুভির ট্রেলারের জন্য, 330 টি শব্দ যথেষ্ট বলে পাওয়া যায় কারণ ট্রেলারের কিছু অংশে কোনও বক্তৃতা নাও থাকতে পারে (শুধু কণ্ঠ উপস্থিত থাকতে পারে)।


এখন ইনপুট ডেটাতে প্রতিটি কর্পাসের জন্য, আমাদের আকৃতির একটি ইনপুট রয়েছে (330,) (330 হল প্রতিটি ডেটা পয়েন্টে শব্দের সংখ্যা), যা চিত্র 2-এর মতো আমাদের আর্কিটেকচারের প্রথম স্তরে দেওয়া হয়েছে। , এম্বেডিং স্তর। এম্বেডিং স্তরটি মাত্রার একটি আউটপুট দেয় (330, 64,) কারণ আমাদের প্রস্তাবিত আর্কিটেকচারে প্রতিটি শব্দের জন্য এমবেডিংয়ের দৈর্ঘ্য 64 হিসাবে নেওয়া হয়েছে।


সারণি 3: ECnet আর্কিটেকচারের পরামিতি


এমবেডিং লেয়ারের পরে, এম্বেডিং লেয়ারের আউটপুট দিয়ে একটি 1-ডি কনভোলিউশন লেয়ার দেওয়া হয়। আবার, কনভোলিউশন লেয়ারটি (330, 64,) এর আউটপুট আকৃতি দেয়। একই আউটপুট পেতে, আমরা প্যাডিংটি কনভলিউশন লেয়ারের ইনপুটে সমানভাবে প্রয়োগ করি। এরপরে, (330, 64,) থেকে (165, 64,) ডেটার মাত্রা কমাতে একটি সর্বোচ্চ-পুলিং স্তর ব্যবহার করা হয়। আর্কিটেকচারটি একটি চ্যাপ্টা স্তর দ্বারা অনুসরণ করা হয় যাতে দ্বি-মাত্রিক ডেটাকে এক-মাত্রিক ডেটাতে রূপান্তর করা হয়, আউটপুটকে আরও ঘন স্তরে পাঠানোর জন্য।


সারণি 3 এ চিত্রিত হিসাবে, সমতল স্তরটি আকৃতির একটি আউটপুট দেয় (10560,) যা একটি ঘন স্তরকে ইনপুট হিসাবে খাওয়ানো হয় এবং (32,) আউটপুট আকার দেয়। অবশেষে, চূড়ান্ত ঘন স্তরটি আর্কিটেকচারে প্রয়োগ করা হয় যা আমাদের পাঁচটি ঘরানার (5,) আউটপুট আকৃতি প্রদান করে। আমাদের স্থাপত্যের চূড়ান্ত ঘন স্তরে, আমরা একটি অ্যাক্টিভেশন ফাংশন হিসাবে "sigmoid" ব্যবহার করি যা আমাদের মাল্টি-লেবেল শ্রেণিবদ্ধকরণ সমস্যার জন্য সবচেয়ে উপযুক্ত।

4.3। অবস্থা

এই বিভাগে আমরা চলচ্চিত্রের ট্রেলার থেকে ভিজ্যুয়াল বৈশিষ্ট্যগুলির উপর প্রস্তাবিত কাজগুলি অন্তর্ভুক্ত করে৷ এই স্ট্রীমের প্রাথমিক ধাপগুলির মধ্যে রয়েছে: (1) ট্রেলার থেকে ভিডিও ফ্রেমগুলি আনুন, (2) ফ্রেমগুলি থেকে পরিস্থিতিগুলি বের করুন এবং (3) ট্রেলারগুলিকে শেষ পর্যন্ত জেনারে শ্রেণীবদ্ধ করতে আর্কিটেকচার তৈরি করুন৷


একটি অভিনব পরিস্থিতি-ভিত্তিক ভিডিও বিশ্লেষণ মডেলটি ভিজ্যুয়াল বৈশিষ্ট্যগুলির জন্য ভিডিও থেকে নেওয়া প্রতিটি ফ্রেমের উপর ভিত্তি করে পরিস্থিতি এবং ঘটনাগুলি বের করে প্রস্তাব করা হয়েছে। এইভাবে, মডেলটিকে একসাথে সংগ্রহ করে প্রশিক্ষণ/পরীক্ষা করার জন্য একটি কর্পাস তৈরি করা হয়।


আমাদের সর্বোত্তম জ্ঞানের জন্য, আমরা পরিস্থিতি, ঘটনা এবং কথোপকথন বিশ্লেষণকে ঘরানার শ্রেণিবিন্যাসের জন্য একত্রিত করে একটি অভিনব কাঠামোর প্রস্তাব করছি। ফ্রেমওয়ার্ক সম্পর্কে আরও বিশদ নীচের বিভাগে বর্ণিত হয়েছে।

4.3.1। ভিডিও থেকে ফ্রেম নিষ্কাশন


মুভির ট্রেলারের কিছু উপসেট ব্যবহার করে বিভিন্ন পরীক্ষা-নিরীক্ষার পর দেখা গেছে যে প্রতি 10𝑡ℎ ফ্রেম নেওয়া ফ্রেমের অপ্রয়োজনীয়তা এড়াতে উপকারী (একটি ভিডিও থেকে ক্রমাগত ফ্রেম একই রকম বলে মনে হয়)। অতএব, অপ্রয়োজনীয় ফ্রেমগুলি বাতিল করার পরে, বিবেচিত চূড়ান্ত ভিডিও ফ্রেমগুলিকে Eq হিসাবে প্রকাশ করা যেতে পারে। (9):



পরবর্তী বিভাগে, আমরা প্রতিটি ট্রেলারের জন্য এই ফ্রেমগুলি বিবেচনা করি।

4.3.2। বৈশিষ্ট্য নিষ্কাশন (পরিস্থিতি)


চিত্র 3: উপরের ফ্রেমের পরিস্থিতি: (ক) সৈন্যরা আউটডোরে মার্চ করে। (খ) ভুতুড়ে ভদ্রমহিলা মুখে রক্ত নিয়ে গাছের ধারে দাঁড়িয়ে (গ) লোকেরা একটি ঘরে জন্মদিন উদযাপন করে। (d) একজন লোক দৌড়ের ট্র্যাকে দৌড়াচ্ছে



এবং সম্ভাব্যতা যে পরিস্থিতি S একটি চিত্রের অন্তর্গত I তা Eq হিসাবে চিহ্নিত করা যেতে পারে। (11)।




𝛼 আমাদের নিউরালের জন্য প্যারামিটার বোঝায়; অন্তর্জাল. এখন, আমরা একটি নির্দিষ্ট ক্রমে একটি চিত্রের শব্দার্থিক ভূমিকা সংজ্ঞায়িত করতে পারি। এইভাবে আরও, Eq. (12) Eq এ হ্রাস করা হবে। (13)।



সমক. (13) Eq হিসাবে আরও সরলীকৃত করা যেতে পারে। (14)।



একটি নির্দিষ্ট চিত্র/ফ্রেমের জন্য, Eq-তে সংজ্ঞায়িত সর্বাধিক মানের সম্ভাব্যতা থাকা পরিস্থিতি। (14) সেই ছবির জন্য বিবেচনা করা হবে।



এখন কাজটি একটি পাঠ্য শ্রেণিবিন্যাসের টাস্কে রূপান্তরিত হয়েছে যার জন্য আমরা আসন্ন বিভাগে আলোচিত মডেল আর্কিটেকচারের প্রস্তাব করছি। পরবর্তী ধাপে যাওয়ার আগে, টেক্সট প্রিপ্রসেসিং করা হয়: সমস্ত টেক্সটকে ছোট হাতের অক্ষরে রূপান্তর করা, ডিজিট, বিরাম চিহ্ন এবং স্টপ-শব্দগুলি বাদ দেওয়া, যেমনটি ধারা 4.2.1-এ উল্লেখ করা হয়েছে। এই একই পদক্ষেপগুলি মুভির ট্রেলার জেনারের পূর্বাভাস দেওয়ার জন্য পরীক্ষার পদ্ধতিতে সঞ্চালিত হয়।

4.3.3। TFAnet (টার্ম ফ্রিকোয়েন্সি কৃত্রিম নিউরাল নেটওয়ার্ক)

চাক্ষুষ বৈশিষ্ট্যগুলি বের করার পরে, ট্রেলারগুলির জন্য চূড়ান্ত ঘরানার শ্রেণীবদ্ধ করার জন্য একটি শক্তিশালী স্থাপত্য প্রয়োজন। এই মডেলটি আমরা সংলাপ প্রবাহে যে মডেলটি প্রস্তাব করেছি তার থেকে ভিন্ন৷ এখানে, TFAnet (টার্ম ফ্রিকোয়েন্সি আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক) প্রস্তাবিত হয়েছে ঘন এবং ড্রপআউট স্তরগুলির একটি গভীর নেটওয়ার্কের সমন্বয়ে যা চিত্র 4-এ দেখানো হয়েছে।


প্রস্তাবিত আর্কিটেকচারে আসার আগে, আমরা [19] এ TF-IDF ব্যবহার করে পাঠ্য উপস্থাপনা নিয়ে আলোচনা করব। এই আর্কিটেকচারের জন্য, প্রতিটি ডেটা পয়েন্টের কর্পাসে শব্দ গণনায় ব্যবহার করার প্রস্তাব করা হয়েছে। তাই, আমরা সিনেমার ট্রেলারের ধরণগুলিকে শ্রেণীবদ্ধ করার জন্য বৈশিষ্ট্য হিসাবে কর্পাস থেকে গণনা শব্দটি ব্যবহার করি। আমাদের শব্দভান্ডার সেটে বৈশিষ্ট্য হিসাবে প্রচুর সংখ্যক শব্দ অন্তর্ভুক্ত করার জন্য, মডেলের প্রশিক্ষণের সময় আমাদের কাছে একটি বিশাল সংস্থান পেতে আমাদের EMTD-এ প্রকাশিত তারিখগুলির একটি বৃহৎ পরিসরের ট্রেলারগুলি ব্যবহার করা হয়। ইউনিগ্রাম, বিগ্রাম এবং ট্রিগ্রামের সংমিশ্রণটি বৈশিষ্ট্য হিসাবে আমাদের কর্পাস থেকে ব্যবহৃত হয় এবং TF-IDF (টার্ম ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি) অ্যালগরিদম একটি সংখ্যাসূচক আকারে আমাদের পাঠ্যকে উপস্থাপন করে। নেওয়া মোট n-গ্রাম বৈশিষ্ট্য প্রায় 34,684. এখন আমাদের পাঠ্য-ভিত্তিক বৈশিষ্ট্যগুলি গাণিতিক আকারে রূপান্তরিত হয়েছে, তাই পরবর্তী (কৃত্রিম নিউরাল নেটওয়ার্ক) ট্রেলারের ধরণগুলিকে শ্রেণীবদ্ধ করার জন্য প্রশিক্ষিত।


সারণি 4: TFAnet এর পরামিতি


TFAnet (টার্ম ফ্রিকোয়েন্সি আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক) এর আর্কিটেকচারটি সারণি 4 এ চিত্রিত করা হয়েছে। উপরে আলোচনা করা ইনপুট আকারটি হল (34684,)। এই ইনপুটটি একটি ঘন স্তরে দেওয়া হয়, যা আকৃতির আউটপুট দেয় (64,)। তারপর 0.4 হারে ওভারফিটিং কমাতে একটি ড্রপআউট স্তর প্রয়োগ করা হয়। আবার, একটি ঘন স্তর প্রয়োগ করা হয়, এবং আমরা আকৃতির আউটপুট (32%) পাই, তারপরে 0.2 হার সহ একটি ড্রপআউট স্তর দ্বারা অনুসরণ করা হয়। অবশেষে, একটি ঘন স্তর প্রয়োগ করা হয়, যা একটি আকৃতির আউটপুট দেয় (5,) অবশেষে পাঁচটি ঘরানার ভবিষ্যদ্বাণী করতে, একটি সক্রিয়করণ ফাংশন হিসাবে সিগমায়েড সহ।


চিত্র 4: TFAnet আর্কিটেকচার


এমএসডি মডেলের প্রশিক্ষণ পর্বের অ্যালগরিদম অ্যালগরিদম 1 হিসাবে লেখা হয়।


অ্যালগরিদম 2 দিয়ে পরীক্ষার ধাপের প্রক্রিয়া বোঝা যায়।






এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ