129 পড়া

পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: প্রস্তাবিত পদ্ধতি

দ্বারা Kinetograph: The Video Editing Technology Publication7m2024/05/28

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মুভি জেনার শ্রেণীবিভাগ, পরিস্থিতি, সংলাপ, এবং মেটাডেটা বৈশিষ্ট্যগুলি ব্যবহার করার জন্য একটি মাল্টি-মডালিটি কাঠামোর প্রস্তাব করেছেন।

featured image - পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: প্রস্তাবিত পদ্ধতি

লেখক:

(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;

(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(4) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।

লিঙ্কের টেবিল

4. প্রস্তাবিত পদ্ধতি

4.1। বর্ণনা

মুভির প্লট/বর্ণনা একটি মুভি বর্ণনা করার জন্য একটি গুরুত্বপূর্ণ বৈশিষ্ট্য। বেশিরভাগ ক্ষেত্রে, মুক্তিপ্রাপ্ত সিনেমার জন্য উল্লিখিত প্লটটি হয় খুব ছোট বা কিছু ক্ষেত্রে উল্লেখ করা হয় না। এটি বিবেচনা করে, আমরা মুভির ট্রেলার থেকে সংগৃহীত সংলাপগুলির সাথে সংযুক্ত বর্ণনাগুলিকে শেষ পর্যন্ত মুভির ধরণ সম্পর্কে ভবিষ্যদ্বাণী করার জন্য বেছে নিই, যেমনটি বিভাগ 4.2 এ বিস্তারিতভাবে আলোচনা করা হয়েছে। বর্ণনাগুলি IMDB ওয়েবসাইট থেকে মেটাডেটা হিসাবে আনা হয়েছে যেমনটি ইতিমধ্যেই বিভাগ 3 এ উল্লিখিত হয়েছে।

4.2। সংলাপ

এই বিভাগে, আমরা একটি স্থাপত্যের প্রস্তাব করি যাতে ট্রেলারের অডিও থেকে সংলাপগুলির একটি তালিকা প্রক্রিয়া করা যায় (সংলাপগুলির সাথে সংলাপযুক্ত বিবরণ/প্লট থেকে) মুভির ধরণগুলির পূর্বাভাস দেওয়ার জন্য৷ এই প্রবাহের জন্য উল্লেখযোগ্য পদক্ষেপগুলির মধ্যে রয়েছে: (1) মুভির ট্রেলার থেকে বক্তৃতা (সংলাপ) বের করুন এবং (2) বক্তৃতা এবং মেটাডেটার ভিত্তিতে জেনারগুলির পূর্বাভাস দেওয়ার জন্য একটি মডেল ডিজাইন করুন৷

4.2.1। ডেটা প্রাক-প্রক্রিয়াকরণ

(.wav) ফর্ম্যাটে অডিও ফাইলগুলি (.mp4) ভিডিও ট্রেলার থেকে বের করা হয়। এর পরে, অডিও ফাইলটি ছোট অডিও ক্লিপগুলিতে বিভক্ত হয় এবং [17] এ প্রস্তাবিত সংলাপে রূপান্তরিত হয়। একটি ইনপুট কর্পাস গঠনের জন্য সমস্ত পাঠ্য সংগ্রহ করা হয়। বর্ণনা/প্লট (যদি মেটাডেটা পাওয়া যায়) এছাড়াও এই কর্পাসে একত্রিত করা হয়েছে। আমাদের অধ্যয়ন শুধুমাত্র ইংরেজি ভাষার ট্রেলারের জন্য লক্ষ্য করা হয়েছে। মুভির প্লটের মতই, ট্রেলার থেকে প্রাপ্ত বক্তৃতা আমাদের টেক্সট কর্পাসের পরিপূরক হিসাবে কাজ করতে পারে, যা টেক্সট প্রসঙ্গ এবং মুভির জেনারের মধ্যে সম্পর্ককে আরও ভালভাবে বুঝতে সাহায্য করতে পারে। আমাদের প্রশিক্ষণ/পরীক্ষা পর্বে প্রতিটি ট্রেলারের জন্য একটি একক রেকর্ড সমন্বিত করপাস তৈরি করার পরে নিম্নলিখিত প্রাক-প্রক্রিয়াকরণ পদক্ষেপগুলি পরিচালিত হয়েছিল: সমস্ত পাঠ্যকে ছোট হাতের অক্ষরে রূপান্তর করা, অঙ্ক, বিরাম চিহ্ন, স্টপ-শব্দ এবং ওয়েব-লিঙ্কগুলি বাদ দেওয়া। উপরে প্রাপ্ত পাঠ্যটি প্রশিক্ষণ/পরীক্ষার জন্য মডেল/প্রাক-প্রশিক্ষিত মডেলে একটি ইনপুট হিসাবে ফিড করতে ব্যবহৃত হয়।

4.2.2। বৈশিষ্ট্য নিষ্কাশন (সংলাপ)

4.2.3। ECnet (এম্বেডিং - কনভোলিউশন নেটওয়ার্ক)

জ্ঞানীয়-ভিত্তিক জেনার সনাক্তকরণ আর্কিটেকচার তৈরি করতে, একটি টেক্সট কর্পাস আকারে ট্রেলারের গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি একটি মডেল দ্বারা শিখতে হবে। এটি এমবেডিং এবং সিএনএন (কনভোলিউশন নিউরাল নেটওয়ার্ক) স্তরগুলির সংমিশ্রণ ব্যবহার করে অর্জন করা যেতে পারে। মাল্টি-লেবেল ক্লাসিফিকেশন নেটওয়ার্কের স্তরগুলি সারণি 3-এ চিত্রিত করা হয়েছে। এম্বেডিং হল সংখ্যাসূচক ভেক্টরের আকারে শব্দগুলিকে গাণিতিক উপস্থাপনায় রূপান্তর করার জন্য NLP সমস্যায় ব্যবহৃত জনপ্রিয় কৌশলগুলির মধ্যে একটি।

প্রকৃতপক্ষে আর্কিটেকচারে ইনপুট পাঠানোর আগে, শব্দভাণ্ডারটি ডিজাইন করা দরকার এবং প্রতিটি ডেটা পয়েন্টের জন্য একটি কর্পাসের আকার ঠিক করা দরকার। 10,395 শব্দের আকারের একটি শব্দভান্ডার ডিজাইন করা হয়েছে এবং প্রতিটি কর্পাসের শব্দ সংখ্যার সর্বোচ্চ দৈর্ঘ্য আমাদের প্রশিক্ষণ কর্পাসের দীর্ঘতম বাক্যের দৈর্ঘ্য হিসাবে সেট করা হয়েছে, যা আমাদের ক্ষেত্রে 330। একটি কর্পাসে শব্দের সংখ্যা সর্বাধিক দৈর্ঘ্যের চেয়ে কম হলে, কর্পাসটি 0 এর সাথে প্যাড করা হয়। একটি 2-3-মিনিটের মুভির ট্রেলারের জন্য, 330 টি শব্দ যথেষ্ট বলে পাওয়া যায় কারণ ট্রেলারের কিছু অংশে কোনও বক্তৃতা নাও থাকতে পারে (শুধু কণ্ঠ উপস্থিত থাকতে পারে)।

এখন ইনপুট ডেটাতে প্রতিটি কর্পাসের জন্য, আমাদের আকৃতির একটি ইনপুট রয়েছে (330,) (330 হল প্রতিটি ডেটা পয়েন্টে শব্দের সংখ্যা), যা চিত্র 2-এর মতো আমাদের আর্কিটেকচারের প্রথম স্তরে দেওয়া হয়েছে। , এম্বেডিং স্তর। এম্বেডিং স্তরটি মাত্রার একটি আউটপুট দেয় (330, 64,) কারণ আমাদের প্রস্তাবিত আর্কিটেকচারে প্রতিটি শব্দের জন্য এমবেডিংয়ের দৈর্ঘ্য 64 হিসাবে নেওয়া হয়েছে।

এমবেডিং লেয়ারের পরে, এম্বেডিং লেয়ারের আউটপুট দিয়ে একটি 1-ডি কনভোলিউশন লেয়ার দেওয়া হয়। আবার, কনভোলিউশন লেয়ারটি (330, 64,) এর আউটপুট আকৃতি দেয়। একই আউটপুট পেতে, আমরা প্যাডিংটি কনভলিউশন লেয়ারের ইনপুটে সমানভাবে প্রয়োগ করি। এরপরে, (330, 64,) থেকে (165, 64,) ডেটার মাত্রা কমাতে একটি সর্বোচ্চ-পুলিং স্তর ব্যবহার করা হয়। আর্কিটেকচারটি একটি চ্যাপ্টা স্তর দ্বারা অনুসরণ করা হয় যাতে দ্বি-মাত্রিক ডেটাকে এক-মাত্রিক ডেটাতে রূপান্তর করা হয়, আউটপুটকে আরও ঘন স্তরে পাঠানোর জন্য।

সারণি 3 এ চিত্রিত হিসাবে, সমতল স্তরটি আকৃতির একটি আউটপুট দেয় (10560,) যা একটি ঘন স্তরকে ইনপুট হিসাবে খাওয়ানো হয় এবং (32,) আউটপুট আকার দেয়। অবশেষে, চূড়ান্ত ঘন স্তরটি আর্কিটেকচারে প্রয়োগ করা হয় যা আমাদের পাঁচটি ঘরানার (5,) আউটপুট আকৃতি প্রদান করে। আমাদের স্থাপত্যের চূড়ান্ত ঘন স্তরে, আমরা একটি অ্যাক্টিভেশন ফাংশন হিসাবে "sigmoid" ব্যবহার করি যা আমাদের মাল্টি-লেবেল শ্রেণিবদ্ধকরণ সমস্যার জন্য সবচেয়ে উপযুক্ত।

4.3। অবস্থা

এই বিভাগে আমরা চলচ্চিত্রের ট্রেলার থেকে ভিজ্যুয়াল বৈশিষ্ট্যগুলির উপর প্রস্তাবিত কাজগুলি অন্তর্ভুক্ত করে৷ এই স্ট্রীমের প্রাথমিক ধাপগুলির মধ্যে রয়েছে: (1) ট্রেলার থেকে ভিডিও ফ্রেমগুলি আনুন, (2) ফ্রেমগুলি থেকে পরিস্থিতিগুলি বের করুন এবং (3) ট্রেলারগুলিকে শেষ পর্যন্ত জেনারে শ্রেণীবদ্ধ করতে আর্কিটেকচার তৈরি করুন৷

একটি অভিনব পরিস্থিতি-ভিত্তিক ভিডিও বিশ্লেষণ মডেলটি ভিজ্যুয়াল বৈশিষ্ট্যগুলির জন্য ভিডিও থেকে নেওয়া প্রতিটি ফ্রেমের উপর ভিত্তি করে পরিস্থিতি এবং ঘটনাগুলি বের করে প্রস্তাব করা হয়েছে। এইভাবে, মডেলটিকে একসাথে সংগ্রহ করে প্রশিক্ষণ/পরীক্ষা করার জন্য একটি কর্পাস তৈরি করা হয়।

আমাদের সর্বোত্তম জ্ঞানের জন্য, আমরা পরিস্থিতি, ঘটনা এবং কথোপকথন বিশ্লেষণকে ঘরানার শ্রেণিবিন্যাসের জন্য একত্রিত করে একটি অভিনব কাঠামোর প্রস্তাব করছি। ফ্রেমওয়ার্ক সম্পর্কে আরও বিশদ নীচের বিভাগে বর্ণিত হয়েছে।

4.3.1। ভিডিও থেকে ফ্রেম নিষ্কাশন

মুভির ট্রেলারের কিছু উপসেট ব্যবহার করে বিভিন্ন পরীক্ষা-নিরীক্ষার পর দেখা গেছে যে প্রতি 10𝑡ℎ ফ্রেম নেওয়া ফ্রেমের অপ্রয়োজনীয়তা এড়াতে উপকারী (একটি ভিডিও থেকে ক্রমাগত ফ্রেম একই রকম বলে মনে হয়)। অতএব, অপ্রয়োজনীয় ফ্রেমগুলি বাতিল করার পরে, বিবেচিত চূড়ান্ত ভিডিও ফ্রেমগুলিকে Eq হিসাবে প্রকাশ করা যেতে পারে। (9):

পরবর্তী বিভাগে, আমরা প্রতিটি ট্রেলারের জন্য এই ফ্রেমগুলি বিবেচনা করি।

4.3.2। বৈশিষ্ট্য নিষ্কাশন (পরিস্থিতি)

এবং সম্ভাব্যতা যে পরিস্থিতি S একটি চিত্রের অন্তর্গত I তা Eq হিসাবে চিহ্নিত করা যেতে পারে। (11)।

𝛼 আমাদের নিউরালের জন্য প্যারামিটার বোঝায়; অন্তর্জাল. এখন, আমরা একটি নির্দিষ্ট ক্রমে একটি চিত্রের শব্দার্থিক ভূমিকা সংজ্ঞায়িত করতে পারি। এইভাবে আরও, Eq. (12) Eq এ হ্রাস করা হবে। (13)।

সমক. (13) Eq হিসাবে আরও সরলীকৃত করা যেতে পারে। (14)।

একটি নির্দিষ্ট চিত্র/ফ্রেমের জন্য, Eq-তে সংজ্ঞায়িত সর্বাধিক মানের সম্ভাব্যতা থাকা পরিস্থিতি। (14) সেই ছবির জন্য বিবেচনা করা হবে।

এখন কাজটি একটি পাঠ্য শ্রেণিবিন্যাসের টাস্কে রূপান্তরিত হয়েছে যার জন্য আমরা আসন্ন বিভাগে আলোচিত মডেল আর্কিটেকচারের প্রস্তাব করছি। পরবর্তী ধাপে যাওয়ার আগে, টেক্সট প্রিপ্রসেসিং করা হয়: সমস্ত টেক্সটকে ছোট হাতের অক্ষরে রূপান্তর করা, ডিজিট, বিরাম চিহ্ন এবং স্টপ-শব্দগুলি বাদ দেওয়া, যেমনটি ধারা 4.2.1-এ উল্লেখ করা হয়েছে। এই একই পদক্ষেপগুলি মুভির ট্রেলার জেনারের পূর্বাভাস দেওয়ার জন্য পরীক্ষার পদ্ধতিতে সঞ্চালিত হয়।

4.3.3। TFAnet (টার্ম ফ্রিকোয়েন্সি কৃত্রিম নিউরাল নেটওয়ার্ক)

চাক্ষুষ বৈশিষ্ট্যগুলি বের করার পরে, ট্রেলারগুলির জন্য চূড়ান্ত ঘরানার শ্রেণীবদ্ধ করার জন্য একটি শক্তিশালী স্থাপত্য প্রয়োজন। এই মডেলটি আমরা সংলাপ প্রবাহে যে মডেলটি প্রস্তাব করেছি তার থেকে ভিন্ন৷ এখানে, TFAnet (টার্ম ফ্রিকোয়েন্সি আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক) প্রস্তাবিত হয়েছে ঘন এবং ড্রপআউট স্তরগুলির একটি গভীর নেটওয়ার্কের সমন্বয়ে যা চিত্র 4-এ দেখানো হয়েছে।

প্রস্তাবিত আর্কিটেকচারে আসার আগে, আমরা [19] এ TF-IDF ব্যবহার করে পাঠ্য উপস্থাপনা নিয়ে আলোচনা করব। এই আর্কিটেকচারের জন্য, প্রতিটি ডেটা পয়েন্টের কর্পাসে শব্দ গণনায় ব্যবহার করার প্রস্তাব করা হয়েছে। তাই, আমরা সিনেমার ট্রেলারের ধরণগুলিকে শ্রেণীবদ্ধ করার জন্য বৈশিষ্ট্য হিসাবে কর্পাস থেকে গণনা শব্দটি ব্যবহার করি। আমাদের শব্দভান্ডার সেটে বৈশিষ্ট্য হিসাবে প্রচুর সংখ্যক শব্দ অন্তর্ভুক্ত করার জন্য, মডেলের প্রশিক্ষণের সময় আমাদের কাছে একটি বিশাল সংস্থান পেতে আমাদের EMTD-এ প্রকাশিত তারিখগুলির একটি বৃহৎ পরিসরের ট্রেলারগুলি ব্যবহার করা হয়। ইউনিগ্রাম, বিগ্রাম এবং ট্রিগ্রামের সংমিশ্রণটি বৈশিষ্ট্য হিসাবে আমাদের কর্পাস থেকে ব্যবহৃত হয় এবং TF-IDF (টার্ম ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি) অ্যালগরিদম একটি সংখ্যাসূচক আকারে আমাদের পাঠ্যকে উপস্থাপন করে। নেওয়া মোট n-গ্রাম বৈশিষ্ট্য প্রায় 34,684. এখন আমাদের পাঠ্য-ভিত্তিক বৈশিষ্ট্যগুলি গাণিতিক আকারে রূপান্তরিত হয়েছে, তাই পরবর্তী (কৃত্রিম নিউরাল নেটওয়ার্ক) ট্রেলারের ধরণগুলিকে শ্রেণীবদ্ধ করার জন্য প্রশিক্ষিত।

TFAnet (টার্ম ফ্রিকোয়েন্সি আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক) এর আর্কিটেকচারটি সারণি 4 এ চিত্রিত করা হয়েছে। উপরে আলোচনা করা ইনপুট আকারটি হল (34684,)। এই ইনপুটটি একটি ঘন স্তরে দেওয়া হয়, যা আকৃতির আউটপুট দেয় (64,)। তারপর 0.4 হারে ওভারফিটিং কমাতে একটি ড্রপআউট স্তর প্রয়োগ করা হয়। আবার, একটি ঘন স্তর প্রয়োগ করা হয়, এবং আমরা আকৃতির আউটপুট (32%) পাই, তারপরে 0.2 হার সহ একটি ড্রপআউট স্তর দ্বারা অনুসরণ করা হয়। অবশেষে, একটি ঘন স্তর প্রয়োগ করা হয়, যা একটি আকৃতির আউটপুট দেয় (5,) অবশেষে পাঁচটি ঘরানার ভবিষ্যদ্বাণী করতে, একটি সক্রিয়করণ ফাংশন হিসাবে সিগমায়েড সহ।