লেখক:
(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {[email protected]}।
ইউনিভার্সিটি অফ রচেস্টার মাল্টি-মোডাল মিউজিক পারফরম্যান্স ডেটাসেট (ইউআরএমপি) [১] হল একটি ডেটাসেট যেখানে শাস্ত্রীয় সঙ্গীতের 44টি মাল্টি-ইনস্ট্রুমেন্ট ভিডিও রেকর্ডিং রয়েছে। গ্রাউন্ড-ট্রুথ স্বতন্ত্র ট্র্যাক রাখার জন্য একটি অংশে উপস্থিত প্রতিটি যন্ত্র আলাদাভাবে রেকর্ড করা হয়েছিল, ভিডিও এবং উচ্চ-মানের অডিও একটি স্বতন্ত্র মাইক্রোফোন সহ। যদিও আলাদাভাবে বাজানো হয়, বিভিন্ন বাদকদের জন্য সাধারণ সময় সেট করার জন্য পিয়ানোবাদক বাজানোর সাথে একটি কন্ডাক্টিং ভিডিও ব্যবহার করে যন্ত্রগুলিকে সমন্বয় করা হয়েছিল। সিঙ্ক্রোনাইজেশনের পরে, পৃথক ভিডিওগুলির অডিও মাইক্রোফোনের উচ্চ-মানের অডিও দ্বারা প্রতিস্থাপিত হয়েছিল এবং তারপর মিশ্রণটি তৈরি করতে বিভিন্ন রেকর্ডিং একত্রিত করা হয়েছিল: অডিও মিশ্রণ এবং ভিজ্যুয়াল সামগ্রী তৈরি করতে পৃথক উচ্চ-মানের অডিও রেকর্ডিংগুলি যুক্ত করা হয়েছিল। একটি সাধারণ পটভূমি সহ একটি একক ভিডিওতে কম্পোজ করা হয়েছিল যেখানে সমস্ত খেলোয়াড়কে বাম থেকে ডানে একই স্তরে সাজানো হয়েছিল৷ প্রতিটি অংশের জন্য, ডেটাসেটটি MIDI ফর্ম্যাটে মিউজিক্যাল স্কোর, উচ্চ-মানের স্বতন্ত্র যন্ত্রের অডিও রেকর্ডিং এবং একত্রিত টুকরোগুলির ভিডিও প্রদান করে। চিত্র 1-এ দেখানো ডেটাসেটে উপস্থিত যন্ত্রগুলি হল চেম্বার অর্কেস্ট্রার সাধারণ যন্ত্র৷ এর সমস্ত ভাল বৈশিষ্ট্য থাকা সত্ত্বেও, এটি একটি ছোট ডেটাসেট এবং এইভাবে গভীর শিক্ষার আর্কিটেকচার প্রশিক্ষণের জন্য উপযুক্ত নয়।
বাদ্যযন্ত্রের পারফরম্যান্সের অডিও-ভিজ্যুয়াল রেকর্ডিংয়ের আরও দুটি ডেটাসেট সম্প্রতি উপস্থাপন করা হয়েছে: মিউজিক [২৩] এবং মিউজিকইএস [৩১]। সঙ্গীতে 11টি বিভাগে একক গানের 536টি রেকর্ডিং এবং 149টি ডুয়েটের ভিডিও রয়েছে: অ্যাকর্ডিয়ন, অ্যাকোস্টিক গিটার, সেলো, ক্লারিনেট, এরহু, বাঁশি, স্যাক্সোফোন, ট্রাম্পেট, টুবা, বেহালা এবং জাইলোফোন। এই ডেটাসেটটি ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল৷ মিউজিকইএস [৩১] হল মিউজিকের একটি সম্প্রসারণ যা তার মূল আকারের প্রায় তিনগুণে প্রায় 1475টি রেকর্ডিং সহ কিন্তু এর পরিবর্তে 9টি বিভাগে ছড়িয়ে পড়ে: অ্যাকর্ডিয়ন, গিটার, সেলো, বাঁশি, স্যাক্সোফোন, ট্রাম্পেট, টিউবা, বেহালা এবং জাইলোফোন। মিউজিক এবং সোলোসে 7টি সাধারণ বিভাগ রয়েছে: বেহালা, সেলো, বাঁশি, ক্লারিনেট, স্যাক্সোফোন, ট্রাম্পেট এবং টুবা। MusicES এবং Solos-এর মধ্যে সাধারণ বিভাগ হল 6টি (ক্লারিনেট ছাড়া আগেরগুলি)। একক এবং সঙ্গীত পরিপূরক। উভয়ের মধ্যে মাত্র 5% এর একটি ছোট ছেদ রয়েছে, যার অর্থ উভয় ডেটাসেটকে একটি বড় রূপে একত্রিত করা যেতে পারে।
আমরা সাহিত্যে বেশ কিছু উদাহরণ খুঁজে পেতে পারি যা অডিও-ভিজ্যুয়াল ডেটাসেটের উপযোগিতা দেখায়। দ্য সাউন্ড অফ পিক্সেল [২৩] অডিও সোর্স সেপারেশন করে অডিও স্পেকট্রাল কম্পোনেন্ট তৈরি করে যা ভিডিও স্ট্রীম থেকে আসা ভিজ্যুয়াল ফিচার ব্যবহার করে আলাদা সোর্স পেতে আরও স্মার্টলি বেছে নেওয়া হয়। মিশ্রণে উপস্থিত বিভিন্ন ধ্বনিকে পুনরাবৃত্ত উপায়ে পৃথক করার জন্য এই ধারণাটি [20] সালে আরও প্রসারিত হয়েছিল। প্রতিটি পর্যায়ে, সিস্টেমটি মিশ্রণে অবশিষ্ট উৎস থেকে সবচেয়ে গুরুত্বপূর্ণ উৎসকে আলাদা করে। গতির শব্দ [১৯] অপটিক্যাল ফ্লো থেকে কন্ডিশন অডিও সোর্স সেপারেশনে প্রাপ্ত ঘন ট্র্যাজেক্টরি ব্যবহার করে, সক্ষম হচ্ছে
এমনকি একই-যন্ত্রের মিশ্রণকে আলাদা করতে। ভিজ্যুয়াল কন্ডিশনিং [১৮] বিভিন্ন যন্ত্রকে আলাদা করতেও ব্যবহার করা হয়; প্রশিক্ষণের সময়, একটি শ্রেণীবিন্যাস ক্ষতি বস্তুর সামঞ্জস্য প্রয়োগ করার জন্য আলাদা করা শব্দের উপর ব্যবহার করা হয় এবং একটি সহ-বিচ্ছেদ ক্ষতি আনুমানিক পৃথক শব্দগুলিকে পুনরায় একত্রিত হওয়ার পরে মূল মিশ্রণ তৈরি করতে বাধ্য করে। [17] সালে, লেখকরা একটি শক্তি-ভিত্তিক পদ্ধতি তৈরি করেছেন যা একটি অ্যাক্টিভেশন ম্যাট্রিক্সের সাথে একটি নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন শব্দটিকে ছোট করে যা প্রতি-উৎস গতির তথ্য ধারণকারী একটি ম্যাট্রিক্সের সাথে সংযুক্ত হতে বাধ্য হয়। এই মোশন ম্যাট্রিক্সে প্রতিটি প্লেয়ার বাউন্ডিং বাক্সে ক্লাস্টার করা গতির গতিপথের গড় মাত্রার বেগ থাকে।
সাম্প্রতিক কাজগুলি অডিওভিজ্যুয়াল কাজে কঙ্কালের ক্রমবর্ধমান ব্যবহার দেখায়। অডিও টু বডি ডাইনামিক্সে [২৯] লেখকরা দেখান যে পিয়ানো বা বেহালার মতো যন্ত্র বাজানো খেলোয়াড়দের গতিবিধি পুনরুত্পাদন করে কঙ্কালের পূর্বাভাস দেওয়া সম্ভব। কঙ্কালগুলি চেম্বার মিউজিক পারফরম্যান্সে অডিও-ভিজ্যুয়াল চিঠিপত্র যেমন বডি বা আঙুলের গতির সাথে নোট চালু বা পিচ ওঠানামা স্থাপনের জন্য দরকারী বলে প্রমাণিত হয়েছে [২১]। একটি সাম্প্রতিক কাজ [৩২] সাউন্ড অফ মোশনস [১৯] এর মতই উৎস বিচ্ছেদ সমস্যাকে মোকাবেলা করে কিন্তু কঙ্কালের তথ্য দ্বারা ঘন গতিপথ প্রতিস্থাপন করে।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।