লেখক:
(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;
(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত
(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত
(৪) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।
অটোমেটেড মুভি জেনার শ্রেণীবিভাগ গবেষণা এবং অন্বেষণের একটি সক্রিয় এবং অপরিহার্য ক্ষেত্র হিসাবে আবির্ভূত হয়েছে। সংক্ষিপ্ত সময়ের মুভি ট্রেলারগুলি মুভি সম্পর্কে দরকারী অন্তর্দৃষ্টি প্রদান করে কারণ ভিডিও বিষয়বস্তু জ্ঞানীয় এবং অনুভূতিশীল স্তরের বৈশিষ্ট্যগুলি নিয়ে গঠিত৷ পূর্ববর্তী পদ্ধতিগুলি জ্ঞানীয় বা আবেগপূর্ণ বিষয়বস্তু বিশ্লেষণের উপর দৃষ্টি নিবদ্ধ করা হয়েছিল। এই কাগজে, আমরা একটি অভিনব মাল্টি-মডালিটি প্রস্তাব করি: পরিস্থিতি, সংলাপ, এবং মেটাডেটা-ভিত্তিক চলচ্চিত্রের শ্রেণীবিভাগের কাঠামো যা জ্ঞান এবং প্রভাব-ভিত্তিক বৈশিষ্ট্য উভয়কেই বিবেচনায় নেয়। একটি প্রাক-বৈশিষ্ট্যের ফিউশন-ভিত্তিক কাঠামো যা অ্যাকাউন্টে নেয়: একটি ট্রেলারের একটি নিয়মিত স্ন্যাপশট থেকে পরিস্থিতি-ভিত্তিক বৈশিষ্ট্য যাতে বিশেষ্য এবং ক্রিয়া রয়েছে যা সংশ্লিষ্ট ঘরানার সাথে কার্যকর প্রভাব-ভিত্তিক ম্যাপিং প্রদান করে, অডিও থেকে সংলাপ (বক্তৃতা) ভিত্তিক বৈশিষ্ট্য, মেটাডেটা যা একসাথে জ্ঞানীয় এবং প্রভাবিত ভিত্তিক ভিডিও বিশ্লেষণের জন্য প্রাসঙ্গিক তথ্য প্রদান করে। এছাড়াও আমরা ইংলিশ মুভি ট্রেলার ডেটাসেট (EMTD) ডেভেলপ করি, যেটিতে 2000টি হলিউড মুভির ট্রেলার রয়েছে যা পাঁচটি জনপ্রিয় ঘরানার অন্তর্ভুক্ত: অ্যাকশন, রোমান্স, কমেডি, হরর এবং সায়েন্স ফিকশন, এবং যাচাই করার জন্য স্ট্যান্ডার্ড LMTD-9 ডেটাসেটে ক্রস-ভ্যালিডেশন সঞ্চালন করি। প্রস্তাবিত কাঠামো। ফলাফলগুলি দেখায় যে মুভি জেনার শ্রেণীবিভাগের জন্য প্রস্তাবিত পদ্ধতিটি F1 স্কোর, নির্ভুলতা, প্রত্যাহার এবং নির্ভুলতা-রিকল বক্ররেখার অধীনে ক্ষেত্র দ্বারা চিত্রিত হিসাবে চমৎকারভাবে কাজ করেছে।
মূল শব্দ: মুভি জেনার ক্লাসিফিকেশন, কনভোল্যুশনাল নিউরাল নেটওয়ার্ক, ইংলিশ মুভি ট্রেলার ডেটাসেট, মাল্টিমোডাল ডেটা বিশ্লেষণ।
চলচ্চিত্র দর্শকদের জন্য বিনোদনের একটি বড় উৎস, সমাজকে বিভিন্নভাবে প্রভাবিত করে। একজন ব্যক্তির রুচির কারণে ম্যানুয়ালি একটি সিনেমার ধরণ সনাক্তকরণ পরিবর্তিত হতে পারে। তাই, স্বয়ংক্রিয় মুভি জেনার ভবিষ্যদ্বাণী গবেষণা এবং অন্বেষণের একটি সক্রিয় ক্ষেত্র। সিনেমার ট্রেলারগুলি সিনেমার ধরণগুলির পূর্বাভাস দেওয়ার জন্য একটি দরকারী উত্স হয়ে উঠছে৷ তারা খুব অল্প সময়ের মধ্যে চলচ্চিত্রের জন্য দরকারী অন্তর্দৃষ্টি প্রদান করে। মুভির ট্রেলার দুটি ধরনের বিষয়বস্তু নিয়ে গঠিত: জ্ঞানীয় বিষয়বস্তু এবং আবেগপূর্ণ বিষয়বস্তু।
জ্ঞানীয় বিষয়বস্তু মুভির ট্রেলারের একটি নির্দিষ্ট ভিডিও ফ্রেমে ঘটনা, বস্তু এবং ব্যক্তিদের সংমিশ্রণকে বর্ণনা করে, যখন প্রভাবশালী বিষয়বস্তু সিনেমার ট্রেলারে অনুভূতি বা আবেগের মতো মানসিক বৈশিষ্ট্যের ধরন বর্ণনা করে [১]। জ্ঞানীয় বিষয়বস্তুর উদাহরণ একটি খেলার মাঠ, একটি ভবন, একটি মানুষ, একটি কুকুর, ইত্যাদি নিয়ে গঠিত৷ আবেগপূর্ণ বিষয়বস্তুর উদাহরণ হল অনুভূতি/আবেগ যেমন সুখ, দুঃখ, রাগ ইত্যাদি৷ জ্ঞানীয় এবং প্রভাব-ভিত্তিক উভয় বিষয়বস্তুই ভবিষ্যদ্বাণী করার জন্য বিশিষ্ট বৈশিষ্ট্যগুলি প্রদান করে৷ সিনেমার জেনার
এই কাগজে, আমরা একটি অভিনব মাল্টি-মডালিটি পরিস্থিতি, সংলাপ, এবং মেটাডেটা-ভিত্তিক মুভি জেনার ক্লাসিফিকেশন ফ্রেমওয়ার্কের প্রস্তাব দিই, যার লক্ষ্য হল মুভি ট্রেলারের ভিডিও, অডিও এবং মেটাডেটা (প্লট/বিবরণ) বিষয়বস্তু ব্যবহার করে মুভি জেনারের ভবিষ্যদ্বাণী করা। আমাদের নভেল ফ্রেমওয়ার্ক সিনেমার ট্রেলার থেকে জ্ঞানীয় এবং আবেগপূর্ণ উভয় বৈশিষ্ট্যই বের করার উপর ফোকাস করে। এটি অর্জনের জন্য, ভিডিও ফ্রেম থেকে প্রাসঙ্গিক বিশেষ্য এবং ক্রিয়াপদ দিয়ে গঠিত একটি বাক্য (পরিস্থিতি থেকে তৈরি) বের করা হয়। বিশেষ্যগুলি ট্রেলারগুলির জ্ঞানীয় বিষয়বস্তু সম্পর্কে প্রাসঙ্গিক তথ্য দেয় এবং ক্রিয়াগুলি সংশ্লিষ্ট ঘরানার সাথে কার্যকর প্রভাব-ভিত্তিক ম্যাপিং প্রদান করে। উদাহরণস্বরূপ, হাসি, হাসি, সুড়সুড়ি দেওয়া ইত্যাদি ক্রিয়াপদ 'কমেডি' ধারার সাথে একটি প্রভাব-ভিত্তিক ম্যাপিং প্রদান করে। আক্রমণ করা, মারধর করা, আঘাত করা ইত্যাদি ক্রিয়াপদগুলি 'অ্যাকশন' ধারার সাথে একটি প্রভাব-ভিত্তিক ম্যাপিং প্রদান করে। পরিস্থিতির পাশাপাশি, কথোপকথন এবং মেটাডেটা-ভিত্তিক বৈশিষ্ট্যগুলি অতিরিক্তভাবে জ্ঞানীয় এবং অনুভূতিমূলক সামগ্রীতে অবদান রাখে কারণ এতে ইভেন্টের বর্ণনা (জ্ঞানমূলক বিষয়বস্তু) এবং মনস্তাত্ত্বিক বৈশিষ্ট্য (প্রভাবমূলক সামগ্রী) অন্তর্ভুক্ত থাকে।
স্ট্যান্ডার্ড মেশিন লার্নিং প্রক্রিয়ার মতো, কাজটি একাধিক ধাপে করা হয়। ১ম পর্যায় হল ডেটাসেট জেনারেশন ফেজ, যেখানে আমরা EMTD তৈরি করি, যেটিতে 5টি জনপ্রিয় ঘরানার 2000টি হলিউড মুভির ট্রেলার রয়েছে: অ্যাকশন, রোমান্স, কমেডি, হরর এবং সায়েন্স ফিকশন। ২য় পর্বে ভিডিও ট্রেলারের প্রাক-প্রসেসিং জড়িত যেখানে সমস্ত পুনরাবৃত্ত ফ্রেম সরানো হয় এবং পুনরায় আকার দেওয়া হয়। গুরুত্বপূর্ণ বিশেষ্য এবং ক্রিয়া সম্বলিত বাক্যগুলি দরকারী ফ্রেমগুলি থেকে বের করা হয়। ট্রেলার থেকে সংলাপ পেতে আমরা সিনেমার ট্রেলারের অডিও ট্রান্সক্রিপ্টও প্রস্তুত করি। 3য় পর্বে, আমরা প্রস্তাবিত আর্কিটেকচার ডিজাইন ও প্রশিক্ষিত করি, যা ট্রেলার থেকে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি বের করে এবং শিখে। অবশেষে, 4র্থ পর্বে, আমাদের প্রস্তাবিত আর্কিটেকচারের কার্যকারিতা PrecisionRecall Curve (AU (PRC)) মেট্রিকের অধীনে এলাকা ব্যবহার করে মূল্যায়ন করা হয়। নিম্নলিখিতগুলি আমাদের কাজের উল্লেখযোগ্য অবদান:
আমরা একটি উপন্যাস ইএমটিডি (ইংরেজি মুভি ট্রেলার ডেটাসেট) প্রস্তাব করছি যেখানে পাঁচটি জনপ্রিয় এবং স্বতন্ত্র ঘরানার ইংরেজি ভাষার হলিউড মুভির ট্রেলার রয়েছে: অ্যাকশন, রোমান্স, কমেডি, হরর এবং সায়েন্স ফিকশন।
এই কাজটি জ্ঞানীয় এবং প্রভাব-ভিত্তিক বৈশিষ্ট্যগুলি ব্যবহার করে চলচ্চিত্রের ধরণগুলির পূর্বাভাস দেওয়ার জন্য একটি অভিনব পদ্ধতির প্রস্তাব করে। পূর্ববর্তী সাহিত্যের কোনটিই আমাদের জ্ঞানের সর্বোত্তম মুভির ট্রেলার থেকে প্রাপ্ত সংলাপ, পরিস্থিতি এবং মেটাডেটা-ভিত্তিক বৈশিষ্ট্যগুলির সংমিশ্রণের উপর দৃষ্টি নিবদ্ধ করেনি। তাই, আমরা সম্পাদন করি: বিশেষ্য এবং ক্রিয়াপদ ব্যবহার করে পরিস্থিতি-ভিত্তিক বিশ্লেষণ, বক্তৃতা শনাক্তকরণ ব্যবহার করে সংলাপ-ভিত্তিক বিশ্লেষণ এবং ট্রেলারগুলির সাথে উপলব্ধ মেটাডেটা সহ মেটাডেটা-ভিত্তিক বিশ্লেষণ।
প্রস্তাবিত আর্কিটেকচারটি স্ট্যান্ডার্ড LMTD-9 [2] ডেটাসেটে ক্রস-ডেটাসেট টেস্টিং করার মাধ্যমেও মূল্যায়ন করা হয়। ফলাফলগুলি দেখায় যে প্রস্তাবিত স্থাপত্যটি চমৎকারভাবে সম্পাদন করেছে এবং কাঠামোর উচ্চতর কর্মক্ষমতা প্রদর্শন করে।
কাগজের অবশিষ্ট অংশ এইভাবে সংগঠিত হয়েছে: বিভাগ 2-এ, চলচ্চিত্রের শ্রেণীবিভাগের উপর অতীত সাহিত্য পর্যালোচনা করা হয়েছে, এবং প্রস্তাবিত কাজের পিছনে অনুপ্রেরণা হাইলাইট করা হয়েছে। ধারা 3-এ, আমরা প্রস্তাবিত EMTD নিয়ে আলোচনা করি। অধ্যায় 4, আমরা প্রস্তাবিত আর্কিটেকচারের একটি বিশদ বিবরণ প্রদান করি। বিভাগ 5-এ, আমরা প্রস্তাবিত কাঠামোর কর্মক্ষমতা মূল্যায়ন করি এবং দুটি ভিন্ন ডেটাসেটের বিপরীতে এটিকে যাচাই করি। কাগজটি অধ্যায় 6 এ শেষ হয়েছে।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।