paint-brush
ভিডিওতে সহিংসতা সনাক্তকরণ: পরীক্ষা এবং ফলাফলদ্বারা@kinetograph
152 পড়া

ভিডিওতে সহিংসতা সনাক্তকরণ: পরীক্ষা এবং ফলাফল

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ভিডিওতে সহিংসতার স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি সিস্টেমের প্রস্তাব করেছেন, শ্রেণিবিন্যাসের জন্য অডিও এবং ভিজ্যুয়াল সংকেত ব্যবহার করে।
featured image - ভিডিওতে সহিংসতা সনাক্তকরণ: পরীক্ষা এবং ফলাফল
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


লেখক:

(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

4. পরীক্ষা এবং ফলাফল

এই অধ্যায়ে, ভিডিওগুলিতে হিংসাত্মক বিষয়বস্তু সনাক্তকরণে সিস্টেমের কার্যকারিতা মূল্যায়ন করার জন্য পরিচালিত পরীক্ষার বিবরণ উপস্থাপন করা হয়েছে। প্রথম বিভাগটি এই কাজের জন্য ব্যবহৃত ডেটাসেটগুলির সাথে ডিল করে, পরবর্তী বিভাগে পরীক্ষামূলক সেটআপ বর্ণনা করে এবং অবশেষে শেষ বিভাগে, সম্পাদিত পরীক্ষার ফলাফল উপস্থাপন করা হয়।

4.1। ডেটাসেট

এই কাজে, অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করতে, ক্লাসিফায়ারদের প্রশিক্ষণ এবং সিস্টেমের কার্যকারিতা পরীক্ষা করতে একাধিক উত্স থেকে ডেটা ব্যবহার করা হয়েছে। এখানে ব্যবহৃত দুটি প্রধান ডেটাসেট হল ভায়োলেন্ট সিন ডেটাসেট (VSD) এবং হকি ফাইটস ডেটাসেট৷ এই দুটি ডেটাসেট ছাড়াও, Google Images[1]-এর মতো ওয়েবসাইটের ছবিও ব্যবহার করা হয়। এই ডেটাসেটগুলির প্রতিটি এবং এই কাজে তাদের ব্যবহার নিম্নলিখিত বিভাগে বিশদভাবে বর্ণনা করা হয়েছে।

4.1.1। হিংসাত্মক দৃশ্য ডেটাসেট

ভায়োলেন্ট সিন ডেটাসেট (ভিএসডি) হলিউড মুভি এবং ওয়েব থেকে ভিডিওতে হিংসাত্মক দৃশ্য সনাক্তকরণের জন্য একটি টীকাযুক্ত ডেটাসেট। এটি একটি সর্বজনীনভাবে উপলব্ধ ডেটাসেট যা বিশেষভাবে YouTube[2] এর মতো ওয়েবসাইট থেকে চলচ্চিত্র এবং ভিডিওগুলিতে শারীরিক সহিংসতা লক্ষ্য করে বিষয়বস্তু-ভিত্তিক সনাক্তকরণ কৌশলগুলির বিকাশের জন্য ডিজাইন করা হয়েছে। ভিএসডি ডেটাসেটটি প্রাথমিকভাবে ডেমার্টি এট আল দ্বারা প্রবর্তিত হয়েছিল। [১৫] মিডিয়াইভাল বেঞ্চমার্ক উদ্যোগের কাঠামোতে, যা ডেটাসেটের জন্য একটি বৈধতা কাঠামো হিসাবে কাজ করে এবং সহিংসতা সনাক্তকরণ কাজের জন্য একটি অত্যাধুনিক বেসলাইন স্থাপন করে। ডেটাসেট VSD2014-এর সর্বশেষ সংস্করণটি তার পূর্ববর্তী সংস্করণগুলির (ডেমার্টি এট আল। [19] , ডেমার্টি এট আল। [18] এবং ডেমার্টি এট আল। [17]) বেশ কিছু ক্ষেত্রে একটি উল্লেখযোগ্য সম্প্রসারণ। প্রথমত, মুভি এবং ব্যবহারকারী-উত্পাদিত ভিডিওগুলিকে টীকা করার জন্য, সহিংসতার সংজ্ঞা যা টার্গেট করা বাস্তব-বিশ্বের দৃশ্যের কাছাকাছি তা শারীরিক সহিংসতার উপর ফোকাস করে ব্যবহার করা হয় যা একজন 8 বছর বয়সী শিশুকে দেখতে দেবে না। দ্বিতীয়ত, ডেটাসেটে 31টি হলিউড চলচ্চিত্রের একটি উল্লেখযোগ্য সেট রয়েছে। তৃতীয়ত, VSD2014-এ 86টি ওয়েব ভিডিও ক্লিপ রয়েছে এবং তাদের মেটা-ডেটা YouTube থেকে পুনরুদ্ধার করা হয়েছে যাতে হিংস্রতা শনাক্ত করার জন্য তৈরি করা সিস্টেমের সাধারণীকরণ ক্ষমতা পরীক্ষা করা যায়। চতুর্থত, এতে রয়েছে অত্যাধুনিক অডিও-ভিজ্যুয়াল কন্টেন্ট বর্ণনাকারী। ডেটাসেটটি (i) হলিউড চলচ্চিত্র এবং (ii) ওয়েবে শেয়ার করা ব্যবহারকারী-উত্পাদিত ভিডিওগুলির সংগ্রহের জন্য হিংসাত্মক দৃশ্য এবং সহিংসতা-সম্পর্কিত ধারণাগুলির টীকা প্রদান করে৷ টীকা ছাড়াও, প্রাক-গণনা করা অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্য এবং বিভিন্ন মেটা-ডেটা প্রদান করা হয়।


VSD2014 ডেটাসেটটি হলিউড: ডেভেলপমেন্ট, হলিউড: টেস্ট এবং ইউটিউব: সাধারণীকরণ নামে তিনটি ভিন্ন উপ-সেটে বিভক্ত। তিনটি উপসেট এবং মৌলিক পরিসংখ্যানের একটি সংক্ষিপ্ত বিবরণের জন্য দয়া করে সারণি 4.1 দেখুন, যার মধ্যে সময়কাল, হিংসাত্মক দৃশ্যের ভগ্নাংশ (প্রতি-ফ্রেমের ভিত্তিতে শতাংশ হিসাবে), এবং একটি হিংসাত্মক দৃশ্যের গড় দৈর্ঘ্য। VSD2014 ডেটাসেটের বিষয়বস্তু তিনটি প্রকারে শ্রেণীবদ্ধ করা হয়েছে: চলচ্চিত্র/ভিডিও, বৈশিষ্ট্য এবং টীকা।


ডেটাসেটে অন্তর্ভুক্ত হলিউড চলচ্চিত্রগুলি এমনভাবে বেছে নেওয়া হয়েছে যে সেগুলি বিভিন্ন ঘরানার এবং এতে যে ধরনের সহিংসতা রয়েছে তাতে বৈচিত্র্য রয়েছে৷ এই ডেটাসেট তৈরি করার জন্য অত্যন্ত হিংসাত্মক থেকে কার্যত কোনও হিংসাত্মক বিষয়বস্তু না থাকা মুভিগুলি বেছে নেওয়া হয়েছে৷ বাছাই করা সিনেমাগুলোতেও বিভিন্ন ধরনের সহিংসতা রয়েছে। উদাহরণ স্বরূপ, সেভিং প্রাইভেট রায়ানের মতো যুদ্ধের মুভিগুলিতে নির্দিষ্ট বন্দুকযুদ্ধ এবং যুদ্ধের দৃশ্য রয়েছে যাতে প্রচুর লোক জড়িত থাকে, একটি উচ্চস্বরে এবং ঘন অডিও স্ট্রিম সহ অসংখ্য বিশেষ প্রভাব রয়েছে। অ্যাকশন মুভি, যেমন বোর্ন আইডেন্টিটি, মারামারির দৃশ্য ধারণ করে যাতে শুধুমাত্র কয়েকজন অংশগ্রহণকারী জড়িত থাকে, সম্ভবত হাতে-কলমে। আরমাগেডনের মতো দুর্যোগের চলচ্চিত্রগুলি পুরো শহরগুলির ধ্বংস দেখায় এবং বিশাল বিস্ফোরণ ধারণ করে। এগুলির সাথে, কিছু সম্পূর্ণ অহিংস চলচ্চিত্রও ডেটাসেটে যুক্ত করা হয়েছে এই ধরনের বিষয়বস্তুতে অ্যালগরিদমের আচরণ অধ্যয়ন করার জন্য। কপিরাইট সমস্যার কারণে ডেটাসেটে প্রকৃত সিনেমা সরবরাহ করা যায় না, তাই 31টি সিনেমার জন্য টীকা, হলিউডে 24টি: ডেভেলপমেন্ট এবং 7টি হলিউডে: টেস্ট সেট সরবরাহ করা হয়েছে। YouTube: সাধারণীকরণ সেটে ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে YouTube-এ শেয়ার করা ভিডিও ক্লিপ রয়েছে। MP4 ফরম্যাটে মোট 86টি ক্লিপ ডেটাসেটে অন্তর্ভুক্ত করা হয়েছে। ভিডিও মেটা-ডেটা সহ যেমন ভিডিও শনাক্তকারী, প্রকাশের তারিখ, বিভাগ, শিরোনাম, লেখক, আকৃতির অনুপাত, সময়কাল ইত্যাদি, XML ফাইল হিসাবে প্রদান করা হয়।


এই ডেটাসেটে, অডিও এবং ভিজ্যুয়াল বর্ণনাকারীদের একটি সাধারণ সেট সরবরাহ করা হয়। অডিও বৈশিষ্ট্য যেমন প্রশস্ততা খাম (AE), রুট-মিন-স্কয়ার এনার্জি (RMS), জিরো-ক্রসিং রেট (ZCR), ব্যান্ড এনার্জি রেশিও (BER), বর্ণালী সেন্ট্রোয়েড (SC), ফ্রিকোয়েন্সি ব্যান্ডউইথ (BW), বর্ণালী ফ্লাক্স ( SF), এবং Mel-frequency cepstral coefficients (MFCC) প্রতি-ভিডিও-ফ্রেমের ভিত্তিতে প্রদান করা হয়। যেহেতু অডিওর স্যাম্পলিং রেট 44,100 Hz এবং ভিডিওগুলি 25 fps দিয়ে এনকোড করা হয়েছে, তাই এই বৈশিষ্ট্যগুলি গণনা করার জন্য 1,764 আকারের একটি অডিও নমুনা দৈর্ঘ্যের একটি উইন্ডো বিবেচনা করা হয় এবং প্রতিটি উইন্ডোর জন্য 22টি MFCC গণনা করা হয় যখন অন্যান্য সমস্ত বৈশিষ্ট্য 1-মাত্রিক। ডেটাসেটে দেওয়া ভিডিও বৈশিষ্ট্যগুলির মধ্যে রয়েছে কালার নেমিং হিস্টোগ্রাম (CNH), কালার মোমেন্টস (CM), লোকাল বাইনারি প্যাটার্ন (LBP), এবং ওরিয়েন্টেড গ্রেডিয়েন্টের হিস্টোগ্রাম (HOG)। অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি Matlab সংস্করণ 7.3 MAT ফাইলগুলিতে প্রদান করা হয়েছে, যা HDF5 ফর্ম্যাটের সাথে মিলে যায়৷


সারণি 4.1: VSD2014 উপসেটের মধ্যে চলচ্চিত্র এবং ভিডিওগুলির পরিসংখ্যান। সমস্ত মান সেকেন্ডে দেওয়া হয়।


VSD2014 ডেটাসেটে সমস্ত হিংসাত্মক দৃশ্যের বাইনারি টীকা রয়েছে, যেখানে একটি দৃশ্যের শুরু এবং শেষ ফ্রেম দ্বারা চিহ্নিত করা হয়। হলিউড মুভি এবং ইউটিউব ভিডিওগুলির জন্য এই টীকাগুলি বেশ কিছু মানব মূল্যায়নকারী দ্বারা তৈরি করা হয় এবং পরবর্তীতে একটি নির্দিষ্ট স্তরের সামঞ্জস্য নিশ্চিত করার জন্য পর্যালোচনা করে একত্রিত করা হয়৷ প্রতিটি টীকাযুক্ত হিংসাত্মক বিভাগে শুধুমাত্র একটি ক্রিয়া থাকে, যখনই এটি সম্ভব হয়৷ যে ক্ষেত্রে বিভিন্ন ক্রিয়া ওভারল্যাপ করা হয়, সেগমেন্টগুলি একত্রিত হয়। এটি "মাল্টিপল অ্যাকশন সিন" ট্যাগ যোগ করে টীকা ফাইলগুলিতে নির্দেশিত হয়। শারীরিক সহিংসতা সম্বলিত অংশগুলির বাইনারি টীকা ছাড়াও, টীকাগুলি হলিউড: ডেভেলপমেন্ট সেটের 17টি চলচ্চিত্রের জন্য উচ্চ-স্তরের ধারণাগুলিও অন্তর্ভুক্ত করে। বিশেষ করে, 7টি ভিজ্যুয়াল ধারণা এবং 3টি অডিও ধারণা টীকা করা হয়েছে, হিংসাত্মক/অহিংস টীকাগুলির জন্য ব্যবহৃত অনুরূপ টীকা প্রোটোকল ব্যবহার করে। ধারণাগুলি হল রক্তের উপস্থিতি, মারামারি, আগুনের উপস্থিতি, বন্দুকের উপস্থিতি, ঠাণ্ডা অস্ত্রের উপস্থিতি, গাড়ির ধাওয়া এবং রক্তাক্ত দৃশ্য, চাক্ষুষ পদ্ধতির জন্য; বন্দুকের গুলির উপস্থিতি, বিস্ফোরণ, এবং অডিও পদ্ধতির জন্য চিৎকার।


এই ডেটাসেটের আরও বিশদ বিবরণ Schedl et al দ্বারা প্রদান করা হয়েছে। [৫১] এবং সহিংসতার প্রতিটি শ্রেণী সম্পর্কে বিস্তারিত জানার জন্য, অনুগ্রহ করে দেখুন Demarty et al. [১৯]।

4.1.2। ডাটাসেটের লড়াই

এই ডেটাসেটটি নিভাস এট আল দ্বারা চালু করা হয়েছে। [৪২] এবং এটি বিশেষভাবে যুদ্ধ সনাক্তকরণ সিস্টেমের মূল্যায়নের জন্য তৈরি করা হয়েছে। এই ডেটাসেটটি দুটি অংশ নিয়ে গঠিত, প্রথম অংশে ("হকি") 720 × 576 পিক্সেলের রেজোলিউশনে 1,000টি ক্লিপ রয়েছে, যা দুটি গ্রুপে বিভক্ত, 500টি মারামারি এবং 500টি নন-ফাইট, জাতীয় হকির হকি গেম থেকে নেওয়া লীগ (NHL)। প্রতিটি ক্লিপ 50 ফ্রেমের মধ্যে সীমাবদ্ধ এবং রেজোলিউশন 320 × 240 এ নামিয়ে আনা হয়েছে। দ্বিতীয় অংশে ("চলচ্চিত্র") 200টি ভিডিও ক্লিপ, 100টি মারামারি এবং 100টি নন-ফাইট রয়েছে, যেটিতে অ্যাকশন মুভিগুলি থেকে মারামারি করা হয় এবং অ- ফাইট ভিডিওগুলি পাবলিক অ্যাকশন রিকগনিশন ডেটাসেট থেকে বের করা হয়। হকি ডেটাসেটের বিপরীতে, যা বিন্যাস এবং বিষয়বস্তু উভয় ক্ষেত্রেই তুলনামূলকভাবে অভিন্ন ছিল, এই ভিডিওগুলি বিভিন্ন রকমের দৃশ্য চিত্রিত করে এবং বিভিন্ন রেজোলিউশনে ধারণ করা হয়। দুটি ডেটাসেটের ভিডিও থেকে মারামারি দেখানো কিছু ফ্রেমের জন্য চিত্র 4.1 পড়ুন। এই ডেটাসেটটি ডাউনলোডের জন্য অনলাইনে পাওয়া যায়[3]।


চিত্র 4.1: হকি (শীর্ষ) এবং অ্যাকশন মুভি (নীচ) ডেটাসেটে লড়াইয়ের ভিডিও থেকে নমুনা ফ্রেম।

4.1.3। ওয়েব থেকে ডেটা

ব্লাড এবং নন-ব্লাড ক্লাসের কালার মডেল (বিভাগ 3.1.1.2) তৈরিতে Google-এর ছবিগুলি ব্যবহার করা হয়, যেগুলি ভিডিওর প্রতিটি ফ্রেমের জন্য ব্লাড ফিচার ডিসক্রিপ্টর বের করতে ব্যবহৃত হয়। রক্তযুক্ত ছবিগুলি গুগল ইমেজ 1 থেকে ডাউনলোড করা হয় "ব্লাডি ইমেজ", "ব্লাডি সিন", "ব্লিডিং", "রিয়েল ব্লাড স্প্ল্যাটার" ইত্যাদির মতো কোয়েরি শব্দ ব্যবহার করে। একইভাবে, কোনো রক্ত নেই এমন ছবি সার্চ শব্দ ব্যবহার করে ডাউনলোড করা হয় যেমন " প্রকৃতি", "বসন্ত", "ত্বক", "গাড়ি" ইত্যাদি।


গুগল থেকে ছবি ডাউনলোড করার ইউটিলিটি, একটি অনুসন্ধান শব্দ দেওয়া হয়েছে, পাইথনে লাইব্রেরি বিউটিফুল স্যুপ (রিচার্ডসন [৪৮]) ব্যবহার করে বিকাশ করা হয়েছিল। প্রতিটি প্রশ্নের জন্য, প্রতিক্রিয়াটিতে প্রায় 100টি চিত্র রয়েছে যার মধ্যে শুধুমাত্র প্রথম 50টি ডাউনলোডের জন্য নির্বাচন করা হয়েছে এবং স্থানীয় ফাইল ডিরেক্টরিতে সংরক্ষণ করা হয়েছে। ব্লাড এবং নন-ব্লাড ক্লাস মিলিয়ে প্রায় 1,000টি ছবি ডাউনলোড করা হয়েছে। ডাউনলোড করা ছবিগুলির গড় মাত্রা হল 260 × 193 পিক্সেল যার ফাইলের আকার প্রায় 10 কিলোবাইট। এই কাজে ব্যবহৃত কিছু নমুনা চিত্রের জন্য চিত্র 3.3 পড়ুন।

4.2। সেটআপ

এই বিভাগে, পরীক্ষামূলক সেটআপের বিশদ বিবরণ এবং সিস্টেমের কার্যকারিতা মূল্যায়ন করার জন্য ব্যবহৃত পদ্ধতিগুলি উপস্থাপন করা হয়েছে। নিম্নলিখিত অনুচ্ছেদে, ডেটাসেটের বিভাজন নিয়ে আলোচনা করা হয়েছে এবং পরবর্তী অনুচ্ছেদগুলি মূল্যায়নের কৌশলগুলি ব্যাখ্যা করে।


পূর্ববর্তী ধারা 4.1-এ উল্লিখিত হিসাবে, এই সিস্টেমে একাধিক উত্স থেকে ডেটা ব্যবহার করা হয়। সবচেয়ে গুরুত্বপূর্ণ উৎস হল VSD2014 ডেটাসেট। এটি একমাত্র সর্বজনীনভাবে উপলব্ধ ডেটাসেট যা বিভিন্ন শ্রেণীর সহিংসতার সাথে টীকাযুক্ত ভিডিও ডেটা সরবরাহ করে এবং এটি এই সিস্টেমটি বিকাশে এই ডেটাসেটটি ব্যবহার করার প্রধান কারণ। পূর্ববর্তী বিভাগ 4.1.1-এ যেমন ব্যাখ্যা করা হয়েছে, এই ডেটাসেটে তিনটি উপসেট রয়েছে, হলিউড: ডেভেলপমেন্ট, হলিউড: টেস্ট এবং ইউটিউব: সাধারণীকরণ। এই কাজে তিনটি উপসেট ব্যবহার করা হয়। হলিউড: ডেভেলপমেন্ট উপসেট হল একমাত্র ডেটাসেট যা বিভিন্ন সহিংসতার ক্লাসের সাথে টীকা করা হয়েছে। 24টি হলিউড মুভি নিয়ে গঠিত এই উপসেটটি 3টি অংশে বিভক্ত। 12টি সিনেমা নিয়ে গঠিত প্রথম অংশটি (Eragon, Fantastic Four 1, Fargo, Fight Club, Harry Potter 5, I Am Legend, Independence Day, Legally Blond, Leon, Midnight Express, Pirates of the Caribbean, Reservoir Dogs) প্রশিক্ষণের জন্য ব্যবহৃত হয়। ক্লাসিফায়ার 7টি সিনেমার (সেভিং প্রাইভেট রায়ান, দ্য বোর্ন আইডেন্টিটি, দ্য গড ফাদার, দ্য পিয়ানোবাদক, দ্য সিক্সথ সেন্স, দ্য উইকার ম্যান, দ্য উইজার্ড অফ ওজ) নিয়ে গঠিত দ্বিতীয় অংশটি প্রশিক্ষিত শ্রেণিবিন্যাসকারীদের পরীক্ষা করার জন্য এবং প্রতিটি সহিংসতার জন্য ওজন গণনা করার জন্য ব্যবহৃত হয়। টাইপ 3টি মুভি (আর্মগেডন, বিলি এলিয়ট এবং ডেড পোয়েটস সোসাইটি) নিয়ে গঠিত চূড়ান্ত অংশটি মূল্যায়নের জন্য ব্যবহৃত হয়। হলিউড: টেস্ট এবং ইউটিউব: সাধারণীকরণ উপসেটগুলিও মূল্যায়নের জন্য ব্যবহার করা হয়, কিন্তু একটি ভিন্ন কাজের জন্য। নিম্নলিখিত অনুচ্ছেদগুলি ব্যবহৃত মূল্যায়ন পদ্ধতির বিশদ প্রদান করে।


সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য, দুটি ভিন্ন শ্রেণীবিভাগের কাজ সংজ্ঞায়িত করা হয়। প্রথম কাজটিতে, সিস্টেমটিকে একটি ভিডিও বিভাগে উপস্থিত সহিংসতার নির্দিষ্ট বিভাগ সনাক্ত করতে হবে। দ্বিতীয় কাজটি আরও সাধারণ যেখানে সিস্টেমটিকে শুধুমাত্র সহিংসতার উপস্থিতি সনাক্ত করতে হবে। এই উভয় কাজের জন্য, মূল্যায়নের জন্য বিভিন্ন ডেটাসেট ব্যবহার করা হয়। প্রথম কাজটি যা একটি বহু-শ্রেণীর শ্রেণিবিন্যাসের কাজ, 3টি হলিউড মুভি (আর্মগেডন, বিলি এলিয়ট এবং ডেড পোয়েটস সোসাইটি) সমন্বিত বৈধতা সেট ব্যবহার করা হয়। এই উপসেটে, সহিংসতা ধারণকারী প্রতিটি ফ্রেমের ব্যবধান বর্তমান সহিংসতার শ্রেণির সাথে টীকা করা হয়। সুতরাং, এই ডেটাসেটটি এই কাজের জন্য ব্যবহার করা হয়। এই 3টি সিনেমা প্রশিক্ষণ, ক্লাসিফায়ারের পরীক্ষা বা ওজন গণনার জন্য ব্যবহার করা হয়নি যাতে সিস্টেমটি সম্পূর্ণরূপে নতুন ডেটাতে মূল্যায়ন করা যায়। চিত্র 3.1-এ চিত্রিত পদ্ধতিটি একটি নির্দিষ্ট শ্রেণীর সহিংসতার অন্তর্গত একটি ভিডিও অংশের সম্ভাব্যতা গণনা করার জন্য ব্যবহৃত হয়। সিস্টেম থেকে আউটপুট সম্ভাব্যতা এবং গ্রাউন্ড ট্রুথ তথ্য ROC (রিসিভার অপারেটিং চরিত্রগত) বক্ররেখা তৈরি করতে এবং সিস্টেমের কার্যকারিতা মূল্যায়ন করতে ব্যবহৃত হয়।


দ্বিতীয় টাস্কে, যা একটি বাইনারি শ্রেণীবিভাগের কাজ, হলিউড: টেস্ট এবং YouTube: VSD2104 ডেটাসেটের সাধারণীকরণ উপসেটগুলি ব্যবহার করা হয়। হলিউড: টেস্ট সাবসেটে রয়েছে 8টি হলিউড মুভি এবং YouTube: সাধারণীকরণ সাবসেটে YouTube থেকে 86টি ভিডিও রয়েছে। এই উভয় উপসেটে সহিংসতা সম্বলিত ফ্রেমের ব্যবধানগুলি টীকা হিসাবে সরবরাহ করা হয় এবং সহিংসতার শ্রেণি সম্পর্কে কোনও তথ্য সরবরাহ করা হয় না। সুতরাং, এই উপসেটগুলি এই কাজের জন্য ব্যবহার করা হয়। এই টাস্কে, আগেরটির মতোই, চিত্র 3.1-এ চিত্রিত পদ্ধতিটি একটি নির্দিষ্ট শ্রেণীর সহিংসতার অন্তর্গত একটি ভিডিও অংশের সম্ভাব্যতা গণনা করার জন্য ব্যবহৃত হয়। প্রতিটি ভিডিও সেগমেন্টের জন্য, যেকোনও সহিংসতার ক্লাসের জন্য প্রাপ্ত সর্বোচ্চ সম্ভাব্যতাকে হিংসাত্মক হওয়ার সম্ভাবনা হিসেবে বিবেচনা করা হয়। উপরের টাস্কের মতো, ROC বক্ররেখাগুলি এই সম্ভাব্যতা মানগুলি এবং ডেটাসেট থেকে স্থল সত্য থেকে তৈরি হয়।


এই উভয় কাজে, প্রথমে সমস্ত বৈশিষ্ট্য প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট থেকে বের করা হয়। এরপরে, সমান পরিমাণ ইতিবাচক এবং নেতিবাচক নমুনা পেতে প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটগুলি এলোমেলোভাবে নমুনা করা হয়। প্রশিক্ষণের জন্য 2,000টি বৈশিষ্ট্যের নমুনা নির্বাচন করা হয়েছে এবং 3,000টি পরীক্ষার জন্য নির্বাচিত হয়েছে। উপরে উল্লিখিত হিসাবে, প্রশিক্ষণ ডেটার পরীক্ষা এড়াতে ডিসজয়েন্ট ট্রেনিং এবং টেস্টিং সেট ব্যবহার করা হয়। উভয় টাস্কে, লিনিয়ার, রেডিয়াল বেসিস ফাংশন এবং চি-স্কয়ার কার্নেল সহ SVM ক্লাসিফায়ারগুলিকে প্রতিটি বৈশিষ্ট্যের জন্য প্রশিক্ষিত করা হয় এবং পরীক্ষা সেটে ভাল শ্রেণীবিভাগ স্কোর সহ ক্লাসিফায়ারগুলিকে ফিউশন ধাপের জন্য নির্বাচন করা হয়। ফিউশন ধাপে, প্রতিটি সহিংসতার প্রকারের ওজন গণনা করা হয় সম্ভাব্য সংমিশ্রণগুলিকে গ্রিড-অনুসন্ধান করে যা শ্রেণীবিভাগের কর্মক্ষমতা সর্বাধিক করে। EER (সমান ত্রুটি হার) পরিমাপ কর্মক্ষমতা পরিমাপ হিসাবে ব্যবহৃত হয়।

4.3। পরীক্ষা এবং ফলাফল

এই বিভাগে, পরীক্ষা এবং তাদের ফলাফল উপস্থাপন করা হয়. প্রথমত, মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কের ফলাফল উপস্থাপন করা হয়, তারপরে বাইনারি ক্লাসিফিকেশন টাস্কের ফলাফল দেখানো হয়।

4.3.1। মাল্টি-ক্লাস শ্রেণীবিভাগ

এই কাজটিতে, সিস্টেমটিকে একটি ভিডিওতে উপস্থিত সহিংসতার বিভাগ সনাক্ত করতে হবে। এই সিস্টেমে লক্ষ্য করা সহিংসতা বিভাগগুলি হল রক্ত, ঠান্ডা অস্ত্র, বিস্ফোরণ, মারামারি, আগুন, আগ্নেয়াস্ত্র, গুলির শব্দ, চিৎকার। অধ্যায় 1-এ উল্লিখিত হিসাবে, এগুলি হল সহিংসতার বিভাগের উপসেট যা VSD2014-এ সংজ্ঞায়িত করা হয়েছে। এই আটটি বিভাগ ছাড়াও, কার চেজ এবং সাবজেক্টিভ ভায়োলেন্সকেও VSD2014-এ সংজ্ঞায়িত করা হয়েছে, যেগুলি এই কাজে ব্যবহার করা হয় না কারণ ডেটাসেটে এই বিভাগগুলির সাথে ট্যাগ করা যথেষ্ট ভিডিও সেগমেন্ট ছিল না। এই কাজটি খুবই কঠিন কারণ সহিংসতার উপ-শ্রেণি সনাক্তকরণ সহিংসতা সনাক্তকরণের জটিল সমস্যাকে আরও জটিলতা যোগ করে। এই সিস্টেমের দ্বারা সহিংসতার সূক্ষ্ম ধারণাগুলি সনাক্ত করার প্রচেষ্টাটি অভিনব এবং এমন কোনও বিদ্যমান ব্যবস্থা নেই যা এই কাজটি করে।


অধ্যায় 3 এ উল্লিখিত হিসাবে, এই সিস্টেমটি সহিংসতার একাধিক শ্রেণীর সনাক্ত করতে ওজনযুক্ত সিদ্ধান্ত ফিউশন পদ্ধতি ব্যবহার করে যেখানে প্রতিটি সহিংসতার বিভাগের ওজন একটি গ্রিড-সার্চ কৌশল ব্যবহার করে শেখা হয়। এই পদ্ধতি সম্পর্কে আরো বিস্তারিত জানার জন্য অনুগ্রহ করে অনুচ্ছেদ 3.1.3 দেখুন। সারণি 4.2-এ, এই গ্রিড-অনুসন্ধান কৌশল ব্যবহার করে পাওয়া প্রতিটি সহিংসতার শ্রেণির ওজন উপস্থাপন করা হয়েছে।


এই ওজনগুলি প্রতিটি সহিংসতার বিভাগের জন্য বাইনারি বৈশিষ্ট্য শ্রেণীবিভাগের আউটপুট মানগুলির ওজনযুক্ত যোগফল পেতে ব্যবহৃত হয়। সর্বোচ্চ যোগফলের বিভাগটি তারপর সেই ভিডিও বিভাগে উপস্থিত সহিংসতার বিভাগ। যদি আউটপুট যোগফল 0.5 এর কম হয় তবে ভিডিও সেগমেন্টটিকে অহিংস হিসাবে শ্রেণীবদ্ধ করা হয়। বৈধতা সেটের ভিডিও বিভাগগুলিকে এই পদ্ধতি ব্যবহার করে শ্রেণীবদ্ধ করা হয়েছে এবং ফলাফলগুলি চিত্র 4.2-এ উপস্থাপন করা হয়েছে। চিত্রে, প্রতিটি বক্ররেখা সহিংসতার প্রতিটি বিভাগের জন্য ROC বক্ররেখার প্রতিনিধিত্ব করে।


সারণি 4.2: গ্রিড-অনুসন্ধান কৌশল ব্যবহার করে প্রতিটি সহিংসতার ক্লাসের জন্য ক্লাসিফায়ার ওজন প্রাপ্ত। এখানে একটি সহিংসতা শ্রেণীর জন্য ওজন নির্বাচন করার মানদণ্ড ছিল সেই ওজনগুলি খুঁজে বের করা যা সেই সহিংসতা শ্রেণীর জন্য EER-কে ছোট করে।



চিত্র 4.2: মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কে সিস্টেমের কর্মক্ষমতা।

4.3.2। বাইনারি শ্রেণীবিভাগ

এই বাইনারি শ্রেণীবিভাগের কাজটিতে, সিস্টেমটি বিভাগ খুঁজে না পেয়ে সহিংসতার উপস্থিতি সনাক্ত করবে বলে আশা করা হচ্ছে। পূর্ববর্তী টাস্কের মতই, বাইনারি বৈশিষ্ট্য শ্রেণীবিভাগের আউটপুট সম্ভাব্যতাগুলি একটি ওজনযুক্ত সমষ্টি পদ্ধতি ব্যবহার করে একত্রিত করা হয় এবং প্রতিটি সহিংসতার ক্লাসের অন্তর্গত ভিডিও বিভাগের আউটপুট সম্ভাবনাগুলি গণনা করা হয়। যদি কোন শ্রেণীর জন্য সর্বোচ্চ সম্ভাবনা 0.5 ছাড়িয়ে যায় তবে ভিডিও বিভাগটিকে সহিংসতা হিসাবে শ্রেণীবদ্ধ করা হয় বা অন্যথায় এটি অহিংসা হিসাবে শ্রেণীবদ্ধ করা হয়। বিভাগ 4.2-এ উল্লিখিত হিসাবে, এই কাজটি YouTube-জেনারালাইজেশন এবং হলিউড-টেস্ট ডেটাসেটে সঞ্চালিত হয়। চিত্র 4.3 উভয় ডেটাসেটে এই কাজের ফলাফল প্রদান করে। প্রতিটি ডেটাসেটের জন্য দুটি ROC বক্ররেখা সিস্টেমের কর্মক্ষমতা উপস্থাপন করতে ব্যবহৃত হয়। ভিডিও সেগমেন্টে হিংস্রতা আছে কি না তা সিদ্ধান্ত নিতে থ্রেশহোল্ড হিসাবে 0.5 ব্যবহার করে, নির্ভুলতা, প্রত্যাহার এবং নির্ভুলতার মান গণনা করা হয়। প্রাপ্ত ফলাফলের জন্য দয়া করে সারণি 4.3 দেখুন।


সারণী 4.3: প্রস্তাবিত পদ্ধতি ব্যবহার করে প্রাপ্ত শ্রেণীবিভাগ ফলাফল।


সারণি 4.4: MediaEval-2014 (Schedl et al. [51]) থেকে সেরা পারফরম্যান্সকারী দলগুলি দ্বারা প্রাপ্ত শ্রেণীবিভাগ ফলাফল।

4.4। আলোচনা

এই বিভাগে, বিভাগ 4.3-এ উপস্থাপিত ফলাফলগুলি নিয়ে আলোচনা করা হয়েছে। মাল্টি-ক্লাস এবং বাইনারি শ্রেণীবিভাগের কাজগুলির ফলাফল নিয়ে আলোচনা করার আগে, পৃথক শ্রেণীবিভাগের কর্মক্ষমতা নিয়ে আলোচনা করা হয়।

4.4.1। স্বতন্ত্র শ্রেণিবিন্যাসকারী

বিভাগ 4.3-এ আলোচিত উভয় শ্রেণীবিভাগের কাজগুলিতে, চূড়ান্ত ফলাফল পেতে শ্রেণীবিভাগের স্কোরের একটি ফিউশন করা হয়। সুতরাং, সিস্টেমের কর্মক্ষমতা প্রধানত প্রতিটি শ্রেণীবদ্ধকারীর স্বতন্ত্র কর্মক্ষমতা এবং আংশিকভাবে প্রতিটি শ্রেণীবিভাগের জন্য নির্ধারিত ওজনের উপর নির্ভর করে। চূড়ান্ত শ্রেণীবিভাগের ফলাফল ভালো হওয়ার জন্য, প্রতিটি শ্রেণিবিন্যাসকারীর ব্যক্তিগত কর্মক্ষমতা ভালো হওয়া গুরুত্বপূর্ণ। সেরা পারফর্মিং ক্লাসিফায়ার পেতে, SVM-গুলিকে তিনটি ভিন্ন কার্নেল ফাংশন (লিনিয়ার, RBF, এবং চি-স্কয়ার) ব্যবহার করে প্রশিক্ষিত করা হয় এবং পরীক্ষার সেটে সর্বোত্তম কর্মক্ষমতা সহ শ্রেণীবদ্ধকারী নির্বাচন করা হয়। এই পদ্ধতি অনুসরণ করে, প্রতিটি বৈশিষ্ট্যের প্রকারের জন্য সেরা পারফরম্যান্স শ্রেণীবদ্ধকারী নির্বাচন করা হয়। চিত্র 4.4-এ উপস্থাপিত পরীক্ষার ডেটাসেটে এই নির্বাচিত শ্রেণীবিভাগের কর্মক্ষমতা। এটি লক্ষ্য করা যায় যে SentiBank এবং অডিও হল দুটি বৈশিষ্ট্য শ্রেণীবিভাগকারী যা পরীক্ষার সেটে যুক্তিসঙ্গত কার্যকারিতা দেখায়। মোশন ফিচার ক্লাসিফায়ারের পারফরম্যান্স আছে যা সুযোগের চেয়ে একটু ভালো এবং ব্লাডের পারফরম্যান্স সুযোগের সমান। ক্রমবর্ধমান কর্মক্ষমতা ক্রমবর্ধমান এই শ্রেণীবিভাগের প্রতিটি কর্মক্ষমতা উপর একটি বিস্তারিত আলোচনা পরবর্তী উপস্থাপন করা হয়.


চিত্র 4.4: পরীক্ষার সেটে পৃথক বাইনারি শ্রেণীবিভাগের কর্মক্ষমতা।


চিত্র 4.5: হকি এবং হলিউড টেস্ট ডেটাসেটে মোশন বৈশিষ্ট্য শ্রেণিবদ্ধকারীর পারফরম্যান্স। লাল বক্ররেখা হল হকি ডেটাসেটে প্রশিক্ষিত শ্রেণীবদ্ধকারীর জন্য এবং বাকি তিনটি হলিউড-দেব ডেটাসেটে লিনিয়ার, আরবিএফ এবং চি-স্কয়ার কার্নেল সহ প্রশিক্ষিত তিনটি শ্রেণিবদ্ধকারীর জন্য।

4.4.1.1। গতি

এটি চিত্র 4.4 থেকে স্পষ্ট, পরীক্ষার সেটে গতি বৈশিষ্ট্য শ্রেণীবদ্ধকারীর কার্যকারিতা সুযোগের চেয়ে সামান্য ভাল। এর পিছনের কারণ বোঝার জন্য, উপলব্ধ ডেটাসেটে বিভিন্ন SVM কার্নেলের সাথে প্রশিক্ষিত সমস্ত গতি বৈশিষ্ট্য শ্রেণিবদ্ধকারীর কর্মক্ষমতা তুলনা করা হয়। তুলনার জন্য চিত্র 4.5 পড়ুন। চিত্রে, বাম প্লটটি হকি ডেটাসেট থেকে পরীক্ষা সেটে শ্রেণীবদ্ধকারীর কর্মক্ষমতা দেখায় এবং ডানদিকের প্লট হলিউড-টেস্ট ডেটাসেটের তুলনা দেখায়। উভয় গ্রাফেই, লাল বক্ররেখা হকি ডেটাসেটে প্রশিক্ষিত শ্রেণীবদ্ধকারীর সাথে মিলে যায় এবং বাকি তিনটি বক্ররেখা হলিউড-দেব ডেটাসেটে প্রশিক্ষিত শ্রেণিবিন্যাসকারীদের সাথে মিলে যায়।


এই উভয় প্লট থেকে, এটি লক্ষ্য করা যায় যে একই ডেটাসেটে প্রশিক্ষিত এবং পরীক্ষিত শ্রেণীবদ্ধকারীদের কর্মক্ষমতা যুক্তিসঙ্গতভাবে ভাল যখন ক্লাসিফায়ারের সাথে তুলনা করা হয় যেগুলি একটি ডেটাসেটে প্রশিক্ষিত এবং অন্যটিতে পরীক্ষা করা হয়। বাম দিকের প্লটে (টেস্টসেট: হকি ডেটাসেট), হকি ডেটাসেটে প্রশিক্ষিত ক্লাসিফায়ারের পারফরম্যান্স আরও ভাল। একইভাবে, ডানদিকের প্লটে (টেস্টসেট: হলিউড-টেস্ট), হলিউড-দেব ডেটাসেটে প্রশিক্ষিত ক্লাসিফায়ারদের পারফরম্যান্স আরও ভাল। সেখানে পর্যবেক্ষণ থেকে, এটি অনুমান করা যেতে পারে যে একটি ডেটাসেট থেকে শেখা গতি বৈশিষ্ট্য উপস্থাপনা অন্য ডেটাসেটে স্থানান্তর করা যাবে না। এর কারণ হতে পারে ডেটাসেটের মধ্যে ভিডিও রেজোলিউশন এবং ভিডিও ফরম্যাটের বৈষম্য। হকি ডেটাসেট এবং হলিউড-টেস্ট ডেটাসেটের ভিডিওগুলির বিভিন্ন ফর্ম্যাট রয়েছে এবং এছাড়াও, হলিউড-ডেভেলপমেন্ট এবং হলিউড-টেস্টের সমস্ত ভিডিও একই ফর্ম্যাট নয়৷ ভিডিও ফরম্যাট একটি গুরুত্বপূর্ণ ভূমিকা পালন করে কারণ গতি বৈশিষ্ট্যগুলি (বিভাগ 3.1.1.3.1 এ ব্যাখ্যা করা হয়েছে) ভিডিও কোডেক থেকে গতির তথ্য ব্যবহার করার জন্য ব্যবহৃত পদ্ধতি। একটি ভিডিওর দৈর্ঘ্য এবং রেজোলিউশনও কিছু প্রভাব ফেলবে, যদিও এখানে ব্যবহৃত পদ্ধতিটি ভিডিও সেগমেন্টের দৈর্ঘ্যের সাথে নিষ্কাশিত বৈশিষ্ট্যগুলিকে স্বাভাবিক করে এবং পূর্ব-নির্ধারিত সংখ্যক উপ-অঞ্চলের উপর পিক্সেল গতিগুলিকে একত্রিত করে এটি কমানোর চেষ্টা করে। ফ্রেমের। হকি ডেটাসেট থেকে ভিডিওগুলি প্রতিটি এক সেকেন্ডের খুব ছোট অংশ এবং ছোট ফ্রেমের আকার এবং নিম্নমানের। যেখানে হলিউড ডেটাসেট থেকে ভিডিও সেগমেন্টগুলি দীর্ঘ এবং উন্নত মানের সাথে বড় ফ্রেমের আকার রয়েছে৷ এই সমস্যার একটি সমাধান হতে পারে সমস্ত ভিডিওকে একই ফরম্যাটে রূপান্তর করা, কিন্তু তারপরও ভুল ভিডিও এনকোডিংয়ের কারণে সমস্যা হতে পারে। অন্য সমাধান হতে পারে একটি অপটিক্যাল ফ্লো ভিত্তিক পদ্ধতি ব্যবহার করে গতি বৈশিষ্ট্য বের করা (বিভাগ 3.1.1.3.2 এ ব্যাখ্যা করা হয়েছে)। কিন্তু আগে যেমন ব্যাখ্যা করা হয়েছে, এই পদ্ধতিটি ক্লান্তিকর এবং ভিডিওতে গতির কারণে অস্পষ্ট হলে কাজ নাও করতে পারে।

4.4.1.2। রক্ত

পরীক্ষার সেটে ব্লাড ফিচার ক্লাসিফায়ারের কর্মক্ষমতা সুযোগের মতোই ভালো। ফলাফলের জন্য চিত্র 4.4 পড়ুন। এখানে সমস্যাটি বৈশিষ্ট্য নিষ্কাশনের সাথে নয় কারণ রক্তের বৈশিষ্ট্য নিষ্কাশনের জন্য ব্যবহৃত ব্লাড ডিটেক্টর একটি ছবিতে রক্ত ধারণকারী অঞ্চল সনাক্ত করতে খুব ভাল ফলাফল দেখিয়েছে। ওয়েব থেকে ছবিগুলিতে রক্ত সনাক্তকারীর কার্যকারিতার জন্য চিত্র 3.4 এবং হলিউড ডেটাসেটের নমুনা ফ্রেমে এটির কার্যকারিতার জন্য চিত্র 4.6 দেখুন৷ এটি থেকে, এটি স্পষ্ট যে রক্তের বৈশিষ্ট্য নিষ্কাশনকারী একটি সুন্দর কাজ করছে এবং এটি বৈশিষ্ট্য নিষ্কাশনের সাথে সমস্যা নয়। সুতরাং, এটি উপসংহারে আসা যেতে পারে যে সমস্যাটি ক্লাসিফায়ার প্রশিক্ষণের সাথে এবং এটি প্রশিক্ষণের ডেটার সীমিত প্রাপ্যতার কারণে।


প্রশিক্ষণের জন্য ব্যবহৃত VSD2014 ডেটাসেটে, রক্ত ধারণকারী ভিডিও অংশগুলি লেবেল দিয়ে টীকা করা হয় ("অলক্ষ্য", "নিম্ন", "মাঝারি", এবং "উচ্চ") এই অংশগুলিতে থাকা রক্তের পরিমাণ প্রতিনিধিত্ব করে। এই ডেটাসেটে খুব কম সেগমেন্ট আছে যা "উচ্চ" লেবেল দিয়ে টীকা করা হয়েছে, যার ফলস্বরূপ, SVM ক্লাসিফায়াররা কার্যকরভাবে রক্ত ধারণকারী ফ্রেমের বৈশিষ্ট্য উপস্থাপনা শিখতে অক্ষম। এই বৈশিষ্ট্য ক্লাসিফায়ারের কার্যকারিতা উন্নত করা যেতে পারে এটিকে একটি বড় ডেটাসেটের সাথে প্রশিক্ষণের মাধ্যমে উন্নত করা যেতে পারে যেখানে প্রচুর পরিমাণে রক্তের ফ্রেম রয়েছে। বিকল্পভাবে Google থেকে ছবিগুলিও এই শ্রেণীবদ্ধকারীকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

4.4.1.3। শ্রুতি

অডিও ফিচার ক্লাসিফায়ার হল টেস্ট সেটে দ্বিতীয় সেরা-পারফর্মিং ক্লাসিফায়ার (চিত্র 4.4 পড়ুন) এবং এটি সহিংসতা সনাক্তকরণে অডিওর গুরুত্ব দেখায়। যদিও ভিজ্যুয়াল বৈশিষ্ট্যগুলি হিংসাত্মক বিষয়বস্তুর ভাল সূচক, তবে কিছু দৃশ্য রয়েছে যেখানে অডিও আরও গুরুত্বপূর্ণ ভূমিকা পালন করে। উদাহরণস্বরূপ, মারামারি, বন্দুকের গুলি এবং বিস্ফোরণ সম্বলিত দৃশ্য। এই দৃশ্যগুলিতে বৈশিষ্ট্যযুক্ত শব্দ এবং অডিও বৈশিষ্ট্য রয়েছে যেমন MFCC এবং শক্তি-এনট্রপি, এই হিংসাত্মক দৃশ্যগুলির সাথে যুক্ত শব্দের ধরণগুলি সনাক্ত করতে ব্যবহার করা যেতে পারে। এই কাজে, MFCC বৈশিষ্ট্যগুলি অডিও বিষয়বস্তু বর্ণনা করতে ব্যবহার করা হয় (ধারা 3.1.1.1 পড়ুন) সহিংসতা সনাক্তকরণের উপর অনেক পূর্ববর্তী কাজ (Acar et al. [1], Jiang et al. [33], Lam et al. [36] ], ইত্যাদি) সহিংস দৃশ্যের সাথে যুক্ত অডিও স্বাক্ষর সনাক্ত করতে MFCC বৈশিষ্ট্যগুলির কার্যকারিতা দেখিয়েছে। অন্যান্য অডিও ফিচার যেমন এনার্জি এনট্রপি, পিচ এবং পাওয়ার স্পেকট্রামও ফিচার ক্লাসিফায়ারের কর্মক্ষমতা আরও উন্নত করতে MFCC ফিচারের সাথে ব্যবহার করা যেতে পারে। কিন্তু এটি লক্ষ করা গুরুত্বপূর্ণ যে, শুধুমাত্র অডিওই সহিংসতা সনাক্ত করার জন্য যথেষ্ট নয় এবং এটি শুধুমাত্র কয়েকটি সহিংসতা ক্লাস যেমন বন্দুকের গুলি এবং বিস্ফোরণ সনাক্ত করতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে যার অনন্য অডিও স্বাক্ষর রয়েছে।

4.4.1.4। সেন্টিব্যাংক

SentiBank ফিচার ক্লাসিফায়ার সব ফিচার ক্লাসিফায়ারের সেরা পারফরম্যান্স দেখিয়েছে (চিত্র 4.4 পড়ুন) এবং সিস্টেমের সামগ্রিক পারফরম্যান্সে জোরালোভাবে অবদান রেখেছে। এটি সহিংসতার মতো জটিল ভিজ্যুয়াল অনুভূতি সনাক্ত করতে সেন্টিব্যাঙ্কের শক্তি প্রদর্শন করে। চিত্র 4.7 সহিংসতা এবং কোনো সহিংসতা সম্বলিত ফ্রেমের জন্য শীর্ষ 50 ANP-এর গড় স্কোর দেখায়। যেহেতু এটি লক্ষ্য করা যায় যে সহিংসতা এবং অ-হিংসা শ্রেণীর জন্য সর্বোচ্চ গড় স্কোর সহ ANP-এর তালিকা খুব আলাদা এবং এটিই সহিংসতা শ্রেণী থেকে অ-হিংসা শ্রেণীকে আলাদা করার ক্ষেত্রে সেন্টিব্যাঙ্কের খুব ভাল পারফরম্যান্সের পিছনে কারণ। উল্লেখ্য, সহিংসতা শ্রেণীর জন্য ANP তালিকার সমস্ত বিশেষণ সহিংসতা বর্ণনা করে না। এটি বিভিন্ন কারণে হতে পারে, যার মধ্যে একটি হল সেন্টিব্যাঙ্কে ব্যবহৃত 1,200টি ANP-এর মধ্যে মাত্র কয়েকটি সহিংসতার সাথে সম্পর্কিত আবেগকে বর্ণনা করে (যেমন ভয়, সন্ত্রাস, রাগ, ক্রোধ ইত্যাদি)। অনুগ্রহ করে চিত্র 4.8 দেখুন যা VSO-তে আবেগের প্রতিটি বিভাগের জন্য Plutchik's হুইল অফ ইমোশন এবং ANP-এর বিতরণ দেখায়।


চিত্র 4.6: হলিউড ডেটাসেট থেকে নমুনা ফ্রেমে রক্ত সনাক্তকারীর কার্যকারিতা দেখানো চিত্র। প্রথম কলামের (A এবং D) ছবিগুলি হল ইনপুট ছবি, দ্বিতীয় কলামের ছবিগুলি (B এবং E) হল রক্তের সম্ভাব্যতার মানচিত্র এবং শেষ কলামের (C এবং F) ছবিগুলি হল বাইনারাইজড রক্তের সম্ভাব্যতার মানচিত্র৷

4.4.2। ফিউশন ওজন

পূর্বে উল্লিখিত হিসাবে (বিভাগ 3.1.3), চূড়ান্ত শ্রেণীবিভাগের স্কোরগুলি ওজনযুক্ত সমষ্টি পদ্ধতি ব্যবহার করে পৃথক শ্রেণীবদ্ধ স্কোরের দেরী ফিউশন দ্বারা গণনা করা হয়। এখানে ব্যবহৃত ওজনগুলি সমান ত্রুটি হার (EER) কমানোর লক্ষ্যে একটি গ্রিড-অনুসন্ধান পদ্ধতি ব্যবহার করে গণনা করা হয়। সুতরাং, সিস্টেমের সামগ্রিক শ্রেণিবিন্যাস কর্মক্ষমতা নির্ধারণে ওজন একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। নোট করুন যে এই সমস্ত ওজন পরীক্ষা সেটে গণনা করা হয়। সারণি 4.2-এ, গ্রিড-অনুসন্ধান কৌশল ব্যবহার করে প্রাপ্ত আটটি সহিংসতার ক্লাসের প্রতিটির জন্য শ্রেণীবদ্ধকারীর ওজন উপস্থাপন করা হয়েছে। প্রাপ্ত ওজন থেকে, ওজন বন্টন সম্পর্কে নিম্নলিখিত পর্যবেক্ষণগুলি করা যেতে পারে, (i) বেশিরভাগ সহিংস শ্রেণীর জন্য, সর্বোচ্চ ওজন সেন্টিব্যাঙ্ককে বরাদ্দ করা হয় কারণ এটি সবচেয়ে বৈষম্যমূলক বৈশিষ্ট্য। (ii) অডিও গুলি, বিস্ফোরণ এবং মারামারির মতো সহিংসতার ক্লাসগুলির জন্য সর্বাধিক ওজন পেয়েছে যেখানে অডিও একটি অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে। (iii) চিৎকার, বন্দুকের গুলি এবং আগ্নেয়াস্ত্রের মতো সহিংসতার ক্লাসের জন্য রক্তের ওজন বেশি হয়েছে। এটি আকর্ষণীয় কারণ এই সহিংসতার যেকোনও শ্রেণীর একটি ভিডিও অংশে রক্তও থাকতে পারে। (iv) বেশিরভাগ সহিংসতার ক্লাসে মোশন সবচেয়ে কম ওজন পেয়েছে কারণ এটি সবচেয়ে কম পারফর্মিং বৈশিষ্ট্য। কিন্তু, এটাও লক্ষ্য করা যায় যে ক্লাস ফাইটসের জন্য এর ওজন বেশি যেখানে অনেক গতির আশা করা যায়।


যদি প্রতিটি সহিংসতার ক্লাসের জন্য নির্ধারিত ওজনগুলি বিশ্লেষণ করা হয় তবে নিম্নলিখিত পর্যবেক্ষণগুলি করা যেতে পারে, (i) বন্দুকের শ্রেণীগুলির জন্য, অডিও (0.5) এবং রক্তের (0.45) মধ্যে সর্বোচ্চ বিতরণ ওজন। এটি প্রত্যাশিত কারণ অডিও বৈশিষ্ট্যগুলি বন্দুকের গুলি শনাক্ত করতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে এবং বন্দুকের গুলি সম্বলিত দৃশ্যগুলিতেও প্রচুর রক্ত হবে বলে আশা করা হচ্ছে৷ (ii) অডিও (0.4), এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি (মোশন - 0.25 এবং সেন্টিব্যাঙ্ক - 0.30) ক্লাস ফাইটগুলির জন্য প্রায় সমান পরিমাণে ওজন পেয়েছে। এটি প্রত্যাশিত কারণ অডিও এবং ভিজ্যুয়াল উভয় বৈশিষ্ট্যই মারামারি সম্বলিত দৃশ্য সনাক্ত করতে গুরুত্বপূর্ণ। (iii) বিস্ফোরণ শ্রেণীর জন্য, অডিও (0.9) এর জন্য সর্বোচ্চ ওজন বরাদ্দ করা হয় যা প্রত্যাশিত, কারণ বিস্ফোরণ সনাক্তকরণে অডিও বৈশিষ্ট্যগুলি অত্যন্ত গুরুত্বপূর্ণ। (iv) ফায়ার হল একটি সহিংসতার শ্রেণী যেখানে চাক্ষুষ বৈশিষ্ট্যগুলির উচ্চ ওজনের আশা করা হয় এবং প্রত্যাশিত হিসাবে সেরা পারফরম্যান্সকারী চাক্ষুষ বৈশিষ্ট্য, সেন্টিব্যাঙ্ক (0.85), সর্বোচ্চ ওজন নির্ধারণ করা হয়। (v) হিংস্রতা ক্লাস ঠান্ডা


চিত্র 4.7: সহিংসতা এবং কোনো সহিংসতা নেই এমন ফ্রেমের জন্য শীর্ষ 50 সেন্টিব্যাঙ্ক ANP-এর গড় স্কোর দেখানো গ্রাফ।


চিত্র 4.8: Plutchik এর আবেগের চাকা এবং VSO-তে আবেগ প্রতি ANP-এর সংখ্যা।


অস্ত্রের মধ্যে এমন দৃশ্য রয়েছে যেখানে কোনো ঠান্ডা অস্ত্রের উপস্থিতি রয়েছে (যেমন, ছুরি, তলোয়ার, তীর, হ্যালবার্ড ইত্যাদি)। এই শ্রেণীর জন্য, চাক্ষুষ বৈশিষ্ট্য উচ্চ ওজন আছে প্রত্যাশিত. এবং প্রত্যাশিত হিসাবে, SentiBank (0.95) এই শ্রেণীর জন্য সর্বোচ্চ ওজন আছে। (vi) "আগ্নেয়াস্ত্র" হল সহিংসতার শ্রেণী যেখানে দৃশ্যগুলিতে বন্দুক এবং আগ্নেয়াস্ত্র রয়েছে৷ উপরের ক্লাসের মতই, চাক্ষুষ বৈশিষ্ট্যগুলির উচ্চ ওজন থাকবে বলে আশা করা হচ্ছে। এই শ্রেণীর জন্য, সেন্টিব্যাঙ্ক (0.6) এবং ব্লাড (0.3) ওজনের সর্বোচ্চ বিতরণ পেয়েছে। রক্তের ওজন বেশি হওয়ার কারণ হতে পারে এই কারণে যে বন্দুক ধারণকারী বেশিরভাগ দৃশ্যে রক্তপাতও থাকবে। (vii) ক্লাস ব্লাডের জন্য, রক্তের বৈশিষ্ট্যটি সর্বোচ্চ ওজনের হবে বলে আশা করা হচ্ছে। কিন্তু ফিচার ব্লাড (0.05) মাত্র একটি ছোট ওজন পেয়েছে এবং SentiBank (0.95) সর্বোচ্চ ওজন পেয়েছে। এটি একটি প্রত্যাশিত ফলাফল নয় এবং এটি পরীক্ষার সেটে ব্লাড ফিচার ক্লাসিফায়ারের দুর্বল কর্মক্ষমতার কারণে হতে পারে। (viii) "চিৎকার" শ্রেণীর জন্য অডিওর ওজন বেশি হবে বলে আশা করা স্বজ্ঞাত কারণ অডিও বৈশিষ্ট্যগুলি চিৎকার সনাক্ত করতে গুরুত্বপূর্ণ ভূমিকা পালন করে। কিন্তু, এখানে প্রাপ্ত ওজন এই অন্তর্দৃষ্টির বিরুদ্ধে। অডিও খুব কম ওজন পেয়েছে যেখানে সেন্টিব্যাঙ্ক সর্বোচ্চ ওজন পেয়েছে। সামগ্রিকভাবে, গ্রিড-অনুসন্ধান থেকে প্রাপ্ত ওজন বেশিরভাগ ক্লাসের জন্য প্রত্যাশিত হিসাবে কমবেশি। পরীক্ষায় পৃথক শ্রেণিবিন্যাসকারীদের কর্মক্ষমতা উন্নত হলে আরও ভাল ওজন বন্টন পাওয়া যেতে পারে।

4.4.3। মাল্টি-ক্লাস শ্রেণীবিভাগ

এই বিভাগে, মাল্টি-ক্লাস শ্রেণীবিভাগের টাস্কে প্রাপ্ত ফলাফলগুলি আলোচনা করা হয়েছে। এই টাস্কে প্রাপ্ত ফলাফলের জন্য অনুগ্রহ করে চিত্র 4.2 পড়ুন। চিত্র থেকে, নিম্নলিখিত পর্যবেক্ষণগুলি আঁকা যেতে পারে (i) সিস্টেমটি গুলির শট শনাক্ত করার ক্ষেত্রে ভাল কার্যকারিতা (প্রায় 30% এর EER) দেখায়। (ii) সহিংসতা ক্লাস, কোল্ড আর্মস, রক্ত এবং বিস্ফোরণের জন্য, সিস্টেমটি মাঝারি কর্মক্ষমতা দেখায় (প্রায় 40% এর EER)। (iii) অবশিষ্ট সহিংসতার ক্লাসের জন্য (মারামারি, চিৎকার, ফায়ার, আগ্নেয়াস্ত্র) পারফরম্যান্স একটি সুযোগ হিসাবে ভাল (45% এর বেশি EER)। এই ফলাফলগুলি পরামর্শ দেয় যে উন্নতির জন্য বিশাল সুযোগ রয়েছে, তবে, এটা মনে রাখা গুরুত্বপূর্ণ যে সহিংসতা সনাক্তকরণ একটি তুচ্ছ কাজ নয় এবং বিভিন্ন শ্রেণীর সহিংসতার মধ্যে পার্থক্য করা আরও কঠিন। এখন পর্যন্ত প্রস্তাবিত সমস্ত পন্থা শুধুমাত্র সহিংসতার উপস্থিতি বা অনুপস্থিতি শনাক্ত করার উপর মনোনিবেশ করেছে, কিন্তু সহিংসতার বিভাগ সনাক্তকরণের উপর নয়। এই কাজের প্রস্তাবিত অভিনব পদ্ধতিটি এই দিকের প্রথমগুলির মধ্যে একটি এবং পারফরম্যান্সের সাথে তুলনা করার জন্য কোনও বেসলাইন সিস্টেম নেই। এই কাজ থেকে প্রাপ্ত ফলাফল এই এলাকায় ভবিষ্যত কাজের জন্য একটি বেসলাইন হিসাবে কাজ করবে।


এই সিস্টেমে, দেরী ফিউশন পদ্ধতি অনুসরণ করা হয় যা প্রাপ্তবয়স্ক বিষয়বস্তু সনাক্তকরণের অনুরূপ মাল্টিমিডিয়া ধারণা সনাক্তকরণ কার্যে ভাল ফলাফল দেখিয়েছে (Schulze et al. [52])। অতএব, সিস্টেমের দুর্বল কর্মক্ষমতা অনুসরণ করা পদ্ধতির জন্য দায়ী করা যায় না। সিস্টেমের পারফরম্যান্স নির্ভর করে স্বতন্ত্র শ্রেণীবদ্ধকারীর কর্মক্ষমতা এবং প্রতিটি সহিংসতার ক্লাসের জন্য তাদের জন্য নির্ধারিত ফিউশন ওজনের উপর। যেহেতু ফিউশন ওজনগুলি গ্রিড-সার্চ কৌশল ব্যবহার করে EER কমানোর জন্য সামঞ্জস্য করা হয়, সিস্টেমের সামগ্রিক কর্মক্ষমতা শুধুমাত্র পৃথক শ্রেণীবিভাগের কর্মক্ষমতার উপর নির্ভর করে। সুতরাং, এই টাস্কে সিস্টেমের কর্মক্ষমতা উন্নত করার জন্য, সহিংসতা সনাক্তকরণে পৃথক শ্রেণীবিভাগের কর্মক্ষমতা উন্নত করা প্রয়োজন।

4.4.4। বাইনারি শ্রেণীবিভাগ

বাইনারি শ্রেণীবিভাগের কাজের ফলাফল চিত্র 4.3-এ উপস্থাপন করা হয়েছে। এই টাস্কটি মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কের একটি এক্সটেনশন। যেমনটি আগে ব্যাখ্যা করা হয়েছে, এই টাস্কে, একটি ভিডিও সেগমেন্টকে "ভায়োলেন্স" হিসাবে শ্রেণীবদ্ধ করা হয় যদি সহিংসতার ক্লাসগুলির যেকোন একটির জন্য আউটপুট সম্ভাবনা 0.5 এর থ্রেশহোল্ডের বেশি হয়। এই টাস্কে সিস্টেমের কর্মক্ষমতা দুটি ডেটাসেটে মূল্যায়ন করা হয়, হলিউড-টেস্ট এবং ইউটিউব-জেনারালাইজেশন। এটা লক্ষ্য করা যায় যে এই ডেটাসেটে সিস্টেমের কর্মক্ষমতা সুযোগের চেয়ে একটু ভালো। এটিও লক্ষ্য করা যায় যে YouTube-জেনারালাইজেশন ডেটাসেটের চেয়ে হলিউড-টেস্ট ডেটাসেটে পারফরম্যান্স ভাল। এটি প্রত্যাশিত কারণ সমস্ত শ্রেণিবিন্যাসকারীদের হলিউড-ডেভেলপমেন্ট ডেটাসেটের ডেটার উপর প্রশিক্ষণ দেওয়া হয়েছে যেগুলির হলিউড-টেস্ট ডেটাসেটের মতো ভিডিও সামগ্রী রয়েছে৷ এই কাজের জন্য সিস্টেম দ্বারা প্রাপ্ত নির্ভুলতা, প্রত্যাহার এবং নির্ভুলতার মানগুলি সারণি 4.3 এ উপস্থাপন করা হয়েছে। MediaEval-2014 থেকে এই টাস্কে সেরা পারফরম্যান্সকারী দল দ্বারা প্রাপ্ত ফলাফলগুলি সারণি 4.4 এ দেওয়া হয়েছে।


এই ফলাফলগুলি সরাসরি তুলনা করা যায় না, যদিও একই ডেটাসেট ব্যবহার করা হয়, কারণ মূল্যায়নের জন্য ব্যবহৃত প্রক্রিয়াটি একই নয়। MediaEval-2014-এ, একটি সিস্টেম ভিডিও সেগমেন্টগুলির জন্য শুরু এবং শেষ ফ্রেম আউটপুট করবে যা হিংস্রতা ধারণ করে এবং, যদি গ্রাউন্ড ট্রুথ এবং আউটপুট ফ্রেমের ব্যবধানের মধ্যে ওভারল্যাপ 50% এর বেশি হয় তবে এটি একটি হিট হিসাবে বিবেচিত হবে। অনুগ্রহ করে Schedl এট আল পড়ুন। [51] MediaEval-2014-এ অনুসরণ করা প্রক্রিয়া সম্পর্কে আরও তথ্যের জন্য। প্রস্তাবিত পদ্ধতিতে, সিস্টেমটি ইনপুট ভিডিওর প্রতিটি 1-সেকেন্ডের সেগমেন্টকে "হিংসা" বা "নো ভায়োলেন্স" শ্রেণীভুক্ত করে এবং গ্রাউন্ড ট্রুথের সাথে এটি তুলনা করে সিস্টেমের কার্যকারিতা গণনা করা হয়। MediaEval-2014-এ ব্যবহৃত একটির তুলনায় এখানে ব্যবহৃত এই মূল্যায়নের মানদণ্ডটি অনেক বেশি কঠোর এবং আরও দানাদার। এখানে, যেহেতু প্রতিটি 1-সেকেন্ডের সেগমেন্টের জন্য শ্রেণীবিভাগ করা হয়েছে, ছোট অংশের সনাক্তকরণের জন্য শাস্তি দেওয়ার জন্য কোনও কৌশলের প্রয়োজন নেই। MAP মেট্রিক মিডিয়াইভালে সেরা পারফর্মিং সিস্টেম নির্বাচন করার জন্য ব্যবহৃত হয় যেখানে প্রস্তাবিত সিস্টেমে, সিস্টেমের EER অপ্টিমাইজ করা হয়।


যদিও এই সিস্টেম থেকে প্রাপ্ত ফলাফলগুলি সরাসরি মিডিয়াইভাল ফলাফলের সাথে তুলনা করা যায় না, তবে এটি লক্ষ্য করা যায় যে কঠোর মূল্যায়নের মানদণ্ড থাকা সত্ত্বেও এই সিস্টেমের কর্মক্ষমতা MediaEval-2014-এর সেরা পারফরম্যান্স সিস্টেমের সাথে তুলনা করা যায়। ব্যবহৃত. এই ফলাফলগুলি প্রস্তাব করে যে প্রস্তাবিত অভিনব পদ্ধতি ব্যবহার করে বিকশিত সিস্টেমটি সহিংসতা সনাক্তকরণের এই ক্ষেত্রে বিদ্যমান অত্যাধুনিক সিস্টেমগুলির চেয়ে ভাল।

4.5। সারসংক্ষেপ

এই অধ্যায়ে, উন্নত পদ্ধতির মূল্যায়নের উপর বিস্তারিত আলোচনা উপস্থাপন করা হয়েছে। বিভাগ 4.1-এ, এই কাজে ব্যবহৃত ডেটাসেটগুলির বিশদ ব্যাখ্যা করা হয়েছে এবং পরবর্তী বিভাগ 4.2-এ পরীক্ষামূলক সেটআপ নিয়ে আলোচনা করা হয়েছে। বিভাগ 4.3-এ পরীক্ষাগুলি এবং তাদের ফলাফলগুলি উপস্থাপিত হয়েছে, তারপরে বিভাগ 4.4-এ প্রাপ্ত ফলাফলের উপর বিস্তারিত আলোচনা করা হয়েছে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] http://www.images.google.com


[২] http://www.youtube.com


[৩] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html