এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);
(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।
এই বিভাগে, আমরা প্রসঙ্গ ডেটাসেটে ভিডিও-ভিত্তিক আবেগ এবং প্রভাব ট্র্যাকিং চালু করি ( VEATIC )। প্রথমে, আমরা বর্ণনা করি কিভাবে আমরা সমস্ত ভিডিও ক্লিপ পেয়েছি। এর পরে, আমরা ডেটা টীকা পদ্ধতি এবং প্রাক-প্রসেসিং প্রক্রিয়া চিত্রিত করি। অবশেষে, আমরা গুরুত্বপূর্ণ ডেটাসেট পরিসংখ্যান প্রতিবেদন করি এবং ডেটা বিশ্লেষণের ফলাফলগুলি কল্পনা করি।
ডেটাসেটে ব্যবহৃত সমস্ত ভিডিও ক্লিপগুলি একটি অনলাইন ভিডিও-শেয়ারিং ওয়েবসাইট (ইউটিউব) থেকে অর্জিত হয়েছিল এবং ভিডিও ক্লিপগুলি এই ভিত্তিতে নির্বাচন করা হয়েছিল যে ক্লিপগুলিতে থাকা চরিত্রগুলির আবেগ/প্রভাব সময়ের সাথে পরিবর্তিত হওয়া উচিত। মোট, VEATIC ডেটাসেটে রয়েছে 124টি ভিডিও ক্লিপ, হলিউডের 104টি ক্লিপ, হোম ভিডিও থেকে 15টি ক্লিপ এবং ডকুমেন্টারি বা রিয়েলিটি টিভি শো থেকে 5টি ক্লিপ। VEATIC ডেটাসেটের নমুনা ফ্রেমগুলি (চিত্র 2) এ দেখানো হয়েছে। এই ভিডিওগুলিতে শূন্য থেকে একাধিক ইন্টারঅ্যাক্টিং অক্ষর রয়েছে৷ ভিডিওগুলি থেকে সমস্ত শব্দ মুছে ফেলা হয়েছিল যাতে লক্ষ্য চরিত্রের আবেগকে ট্র্যাক করার সময় পর্যবেক্ষকদের শুধুমাত্র ভিজ্যুয়াল তথ্যে অ্যাক্সেস ছিল।
মোট, আমাদের 192 জন পর্যবেক্ষক ছিল যারা ডেটাসেটে ভিডিওগুলির টীকাতে অংশগ্রহণ করেছিল৷ সমস্ত অংশগ্রহণকারীরা UC বার্কলে ইনস্টিটিউশনাল রিভিউ বোর্ডের নির্দেশিকা এবং প্রবিধান অনুসারে স্বাক্ষরিত সম্মতি প্রদান করেছিল এবং সমস্ত পরীক্ষামূলক পদ্ধতি অনুমোদিত হয়েছিল।
অংশগ্রহণকারীরা ডেটাসেটে মোট 124টি ভিডিও দেখেছেন এবং রেট দিয়েছেন। পর্যবেক্ষকদের ক্লান্ত হওয়া থেকে বিরত রাখতে, আমরা টীকা পদ্ধতিটিকে 1-ঘন্টা এবং 30-মিনিটের টীকা সেশনে বিভক্ত করেছি। অংশগ্রহণকারীরা কোনো ভিডিও টীকা করতে সক্ষম হওয়ার আগে, তাদের ব্র্যাডলি এবং ল্যাং (1999) দ্বারা প্রদত্ত রেটিং অনুসারে গ্রিডের বিভিন্ন স্থানে লেবেলযুক্ত আবেগের উদাহরণ সহ ভ্যালেন্স-উত্তেজনা প্রভাবিত রেটিং গ্রিডের একটি মুদ্রিত সংস্করণ দেখানো হয়েছিল। টীকাকারদের নির্দেশ দেওয়া হয়েছিল মাত্রা এবং নমুনা শব্দ অবস্থানের সাথে নিজেদের পরিচিত করতে যা তারা পরে টীকা প্রক্রিয়ায় ব্যবহার করবে। অংশগ্রহণকারীরা প্রভাবিত রেটিং গ্রিডের সাথে নিজেদের পরিচিত করার পরে, তারা তারপরে একটি দুই মিনিটের অনুশীলন টীকা সম্পূর্ণ করেছে যেখানে তারা একটি ভিডিওতে একটি লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ক্রমাগত ট্র্যাক করেছে (চিত্র 3b)। 2D ভ্যালেন্স-উত্তেজনা গ্রিডের মধ্যে রিয়েলটাইমে তাদের মাউস পয়েন্টারটিকে ক্রমাগত সরানোর মাধ্যমে ভিডিওতে লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ট্র্যাক করার জন্য টীকাকারদের নির্দেশ দেওয়া হয়েছিল। গ্রিডটি [−1, 1] এর পরিসরে তাদের ভ্যালেন্স এবং উত্তেজনা রেটিং ম্যাপ করবে। সম্ভাব্য মোটর পক্ষপাতগুলি নিয়ন্ত্রণ করতে, আমরা অংশগ্রহণকারীদের মধ্যে ভ্যালেন্স-উত্তেজনা মাত্রাগুলিকে ভারসাম্যহীন করেছি যেখানে অর্ধেক টীকারের x-অক্ষে ভ্যালেন্স এবং y-অক্ষে উত্তেজনা ছিল এবং বাকী অর্ধেক মাত্রা উল্টে গেছে যাতে উত্তেজনা x-এর উপর থাকে। -অক্ষ এবং ভ্যালেন্স y-অক্ষে ছিল। পর্যবেক্ষকরা অনুশীলনের টীকা সেশন শেষ করার পরে, তারা ডেটাসেটে ভিডিওগুলি টীকা করা শুরু করে।
অংশগ্রহণকারীরা টীকা শুরু করার আগে, তাদের লক্ষ্য অক্ষর বৃত্তাকার (চিত্র 3a) সহ একটি চিত্র দেখানো হয়েছিল যা অংশগ্রহণকারীদের জানায় যে ভিডিওটি শুরু হলে তারা কোন চরিত্রটি ট্র্যাক করবে৷ তারপর, তারা রিয়েল-টাইমে ভিডিও ক্লিপগুলি টীকা করেছে৷ প্রতিটি ভিডিও টীকাটির শেষে, অংশগ্রহণকারীরা ভিডিও ক্লিপের সাথে 1-5টি পৃথক লাইকার্ট স্কেল ব্যবহার করে তাদের পরিচিতি রিপোর্ট করেছে যা "অপরিচিত", "সামান্য পরিচিত", "কিছুটা পরিচিত", "মাঝারিভাবে পরিচিত", এবং "অত্যন্ত পরিচিত" থেকে শুরু করে পরিচিত"। ক্লিপটি দেখার সময় অংশগ্রহণকারীদের তাদের উপভোগের স্তর সম্পর্কেও জিজ্ঞাসা করা হয়েছিল যা 1-9 বিচ্ছিন্ন লিকার্ট স্কেল ব্যবহার করে রেট করা হয়েছিল যা 1 (আনন্দযোগ্য নয়) থেকে 9 (অত্যন্ত উপভোগযোগ্য)। অতিরিক্তভাবে, অংশগ্রহণকারীদের বিরক্ত না করার জন্য, সমস্ত 124টি ভিডিও ক্লিপ দুটি সেশনে বিভক্ত করা হয়েছিল। অংশগ্রহণকারীরা পৃথকভাবে দুটি সেশনে ভিডিও ক্লিপগুলিকে মূল্যায়ন করেছে।
প্রতিটি ট্রায়ালের সময়, আমরা মূল্যায়ন করেছি যে অংশগ্রহণকারীরা কোন একক অবস্থানে মাউস পয়েন্টার রাখার সময়কাল ট্র্যাক করে মনোযোগ দিচ্ছে না কিনা। যদি সময়কাল 10 সেকেন্ডের বেশি হয়, তাহলে প্রভাবিত রেটিং গ্রিড ওঠানামা করতে শুরু করবে যা অংশগ্রহণকারীদের লক্ষ্য চরিত্রের আবেগ ট্র্যাক করা চালিয়ে যেতে স্মরণ করিয়ে দেয়। আমাদের ডেটাসেটে কোনো শোরগোল টীকাকার ছিল কিনা তা মূল্যায়ন করার জন্য, আমরা প্রতিটি টীকাকারের মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক গণনা করে প্রতিটি টীকাকারের চুক্তিকে গণনা করেছি এবং ত্যাগ-এক-আউট সম্মতির (বর্তমান টীকা ব্যতীত প্রতিক্রিয়াগুলির সমষ্টি) জন্য প্রতিটি ভিডিও। আমরা দেখেছি যে শুধুমাত্র একজন টীকাকারের সাথে সমস্ত ভিডিও জুড়ে .2-এর চেয়ে কম পারস্পরিক সম্পর্ক ছিল এক-আউট-আউট সম্মতি সহ। যেহেতু শুধুমাত্র একটি টীকা আমাদের থ্রেশহোল্ডের নিচে নেমে এসেছে, তাই ভিডিওতে কোনো গুরুত্বপূর্ণ বিকল্প টীকা না সরানোর জন্য আমরা ডেটাসেটে টীকাটিকে রাখার সিদ্ধান্ত নিয়েছি।
চিত্র 4 2টি ভিন্ন ভিডিও ক্লিপগুলিতে নমুনা গড় রেটিং এবং মূল ফ্রেমগুলি দেখায়৷ স্পষ্টতই, এখানে ভ্যালেন্স এবং উত্তেজনা উভয়েরই বিস্তৃত রেটিং রয়েছে। অধিকন্তু, এটি দেখায় যে প্রসঙ্গ তথ্য, হয় স্থানিক এবং/অথবা অস্থায়ী, আবেগ সনাক্তকরণের কাজগুলিতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। ভ্যালেন্স উদাহরণে (উপরের চিত্র), লড়াইয়ের অস্থায়ী এবং/অথবা স্থানিক প্রসঙ্গ তথ্য ছাড়া, শেষ ফ্রেমের (হলুদ) চরিত্রটি (মহিলা) আশ্চর্যজনকভাবে খুশি বা বিস্মিত কিনা তা চিনতে অসুবিধা হবে। উত্তেজনামূলক উদাহরণে (নিম্ন চিত্র), এমনকি নির্বাচিত চরিত্রের মুখ ছাড়া, পর্যবেক্ষকরা তীব্র প্রেক্ষাপটের মাধ্যমে সহজেই এবং ধারাবাহিকভাবে চরিত্রের উত্তেজনা অনুমান করতে পারেন।
চিত্র 5 আমাদের ডেটাসেটে একটি একক ভিডিওর জন্য সমস্ত অংশগ্রহণকারীদের নমুনা ভ্যালেন্স এবং উত্তেজনা রেটিং চিত্রিত করে। পৃথক বিষয়ের রেটিংগুলি (ধূসর রেখাগুলি) ভ্যালেন্স এবং উত্তেজনা রেটিং উভয়ের জন্য অংশগ্রহণকারীদের (সবুজ লাইন) সর্বসম্মত রেটিং অনুসরণ করে। সবুজ ঐক্যমত্য লাইনের চারপাশে ওভারল্যাপ করা ঘন ধূসর রেখাটি পর্যবেক্ষকদের বিস্তৃত পরিসরের মধ্যে চুক্তি নির্দেশ করে। উপরন্তু, আমরা প্রতিটি ভিডিওর জন্য পর্যবেক্ষক জুড়ে মানক বিচ্যুতি গণনা করে ভিডিও জুড়ে পর্যবেক্ষকদের প্রতিক্রিয়াগুলি কীভাবে পরিবর্তিত হয়েছে তা তদন্ত করেছি। আমরা দেখতে পেয়েছি যে ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার জন্য পর্যবেক্ষকদের মধ্যে পার্থক্য ছোট ছিল যেখানে ভ্যালেন্সের গড় মান বিচ্যুতি µ = 0.248 এবং একটি মধ্যক 0.222 এবং উত্তেজনার গড় মান বিচ্যুতি µ = 0.248 এবং 0.244 এর মধ্যম রয়েছে, যা ইমোটিক [৩২] থেকে ভ্যালেন্স এবং উত্তেজনা রেটিং বৈচিত্রের সাথে তুলনীয়।
আমাদের সমস্ত ভিডিও জুড়ে ভ্যালেন্স এবং উত্তেজনা রেটিংগুলির বিতরণ চিত্র 6-এ দেখানো হয়েছে৷ আমরা দেখতে পেয়েছি যে পৃথক অংশগ্রহণকারীর রেটিংগুলি ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার মধ্যে সম্পূর্ণরূপে বিতরণ করা হয়েছিল যা VEATIC ডেটাসেটের বৈচিত্র্যকে হাইলাইট করে৷ এছাড়াও আমরা অংশগ্রহণকারীদের মধ্যে প্রতিটি ভিডিওর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করেছি (চিত্র 7 এ দেখানো হয়েছে)। আমরা দেখতে পেয়েছি যে পর্যবেক্ষকরা ডেটাসেটে ব্যবহৃত ভিডিওগুলির সাথে অপরিচিত ছিলেন কারণ ভিডিও আইডি 0-97 এর জন্য গড় পরিচিতি রেটিং ছিল 1.61৷ উপরন্তু, ভিডিও আইডি 0-97-এর জন্য ভিডিও দেখার সময় পর্যবেক্ষকরা তাদের উপভোগকে রেট করেছেন গড়ে 4.98 হিসাবে যা ইঙ্গিত করে যে পর্যবেক্ষকরা ভিডিও ক্লিপগুলি দেখতে এবং টীকা করা মাঝারিভাবে উপভোগ করেছেন। ভিডিও আইডি 98-123-এর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করা হয়নি কারণ এই ভিডিওগুলির টীকাগুলি ডেটা সংগ্রহের সময় আগের সময়ে সংগ্রহ করা হয়েছিল যা এই রেটিংগুলিকে অন্তর্ভুক্ত করেনি৷
নীচের সারণি 2 VEATIC ডেটাসেটের মৌলিক পরিসংখ্যানগুলিকে সংক্ষিপ্ত করে৷ সংক্ষেপে, VEATIC-এর একটি দীর্ঘ মোট ভিডিও ক্লিপ সময়কাল এবং বিভিন্ন ধরণের ভিডিও উত্স রয়েছে যা বিস্তৃত প্রেক্ষাপট এবং মানসিক অবস্থাকে কভার করে। অধিকন্তু, পূর্ববর্তী ডেটাসেটের তুলনায়, আমরা রেটিংগুলি টীকা করার জন্য অনেক বেশি অংশগ্রহণকারীদের নিয়োগ করেছি।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।