লেখক:
(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {[email protected]}।
আমরা সোলোস উপস্থাপন করেছি, একক শিল্পীদের সঙ্গীত রেকর্ডিংয়ের একটি নতুন অডিও-ভিজ্যুয়াল ডেটাসেট, যা বিভিন্ন স্ব-তত্ত্বাবধানে শেখার কাজের জন্য উপযুক্ত যেমন মিক্স-এন্ড-পৃথক কৌশল ব্যবহার করে উৎস বিভাজন, শব্দ স্থানীয়করণ, ক্রস-মডেল জেনারেশন এবং অডিও-ভিজ্যুয়াল খোঁজার মতো। চিঠিপত্র ডেটাসেটে 13টি ভিন্ন যন্ত্র রয়েছে; এগুলি হল চেম্বার অর্কেস্ট্রার সাধারণ যন্ত্র এবং যেগুলি ইউনিভার্সিটি অফ রচেস্টার মাল্টি-মোডাল মিউজিক পারফরম্যান্স (ইউআরএমপি) ডেটাসেটে অন্তর্ভুক্ত [১]৷ ইউআরএমপি-এর বৈশিষ্ট্য – গ্রাউন্ড ট্রুথ স্বতন্ত্র কান্ডের সাথে বাস্তব পারফরম্যান্সের ছোট ডেটাসেট – এটিকে পরীক্ষার উদ্দেশ্যে একটি উপযুক্ত ডেটাসেট করে তোলে কিন্তু আমাদের সর্বোত্তম জ্ঞান অনুযায়ী, আজ পর্যন্ত URMP-এর মতো একই যন্ত্রের সাথে কোনও বিদ্যমান বৃহৎ-স্কেল ডেটাসেট নেই। U-Net স্থাপত্যের উপর ভিত্তি করে অডিও-ভিজ্যুয়াল উৎস পৃথকীকরণের জন্য দুটি ভিন্ন নেটওয়ার্ককে নতুন ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছে এবং URMP-তে আরও মূল্যায়ন করা হয়েছে, যা পরীক্ষার সেটের মতো একই যন্ত্রের উপর প্রশিক্ষণের প্রভাব দেখায়। অধিকন্তু, সোলোস ভিডিও ব্যবধানে কঙ্কাল এবং টাইমস্ট্যাম্প সরবরাহ করে যেখানে হাতগুলি যথেষ্টভাবে দৃশ্যমান। এই তথ্যটি প্রশিক্ষণের উদ্দেশ্যে এবং শব্দ স্থানীয়করণের কাজটি সমাধান করতে শেখার জন্যও উপযোগী হতে পারে।
[১] বি. লি, এক্স. লিউ, কে. দীনেশ, জেড. ডুয়ান, এবং জি. শর্মা, "মাল্টিমোডাল সঙ্গীত বিশ্লেষণের জন্য একটি মাল্টিট্র্যাক শাস্ত্রীয় সঙ্গীত পারফরম্যান্স ডেটাসেট তৈরি করা: চ্যালেঞ্জ, অন্তর্দৃষ্টি এবং অ্যাপ্লিকেশন," মাল্টিমিডিয়ায় IEEE লেনদেন, ভলিউম 21, না। 2, পৃ. 522-535, ফেব্রুয়ারি 2019।
[২] বি. লি, কে. দীনেশ, জেড. ডুয়ান, এবং জি. শর্মা, "দেখুন এবং শুনুন: স্কোরইনফর্মড অ্যাসোসিয়েশন অফ সাউন্ড ট্র্যাকস টু প্লেয়ারস টু চেম্বার মিউজিক পারফরম্যান্স ভিডিও," 2017 IEEE ইন্টারন্যাশনাল কনফারেন্স অন অ্যাকোস্টিকস, স্পিচ অ্যান্ড সিগন্যাল প্রক্রিয়াকরণ (ICASSP)। IEEE, 2017, পৃষ্ঠা 2906–2910।
[৩] ইসি চেরি, "এক এবং দুই কান দিয়ে বক্তৃতার স্বীকৃতির উপর কিছু পরীক্ষা," আমেরিকার অ্যাকোস্টিক্যাল সোসাইটির জার্নাল, ভলিউম। 25, না। 5, পৃ. 975-979, 1953।
[৪] এ. হাইভারিনেন এবং ই. ওজা, "স্বতন্ত্র উপাদান বিশ্লেষণ: অ্যালগরিদম ¨ এবং অ্যাপ্লিকেশন," নিউরাল নেটওয়ার্ক, ভলিউম। 13, না। 4-5, পৃ. 411-430, 2000।
[৫] এম. জিবুলেভস্কি এবং বিএ পার্লমুটার, "একটি সংকেত অভিধানে বিক্ষিপ্ত পচন দ্বারা অন্ধ উৎস পৃথকীকরণ," নিউরাল কম্পিউটেশন, ভলিউম। 13, না। 4, পৃ. 863–882, 2001।
[৬] T. Virtanen, "অস্থায়ী ধারাবাহিকতা এবং sparseness মানদণ্ডের সাথে নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন দ্বারা মোনোরাল সাউন্ড সোর্স বিচ্ছেদ," অডিও, বক্তৃতা এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 15, না। 3, পৃ. 1066-1074, 2007।
[৭] DPW এলিস, "ভবিষ্যদ্বাণী-চালিত গণনামূলক শ্রবণ দৃশ্য বিশ্লেষণ," পিএইচডি। গবেষণামূলক, ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি, 1996।
[৮] পি. স্মারাগদিস, বি. রাজ, এবং এম. শশাঙ্ক, "অ্যাকোস্টিক মডেলিংয়ের জন্য একটি সম্ভাব্য সুপ্ত পরিবর্তনশীল মডেল," শাব্দ প্রক্রিয়াকরণের জন্য মডেলগুলিতে অগ্রগতি, NIPS, vol. 148, পৃ. 8-1, 2006।
[৯] P. Chandna, M. Miron, J. Janer, এবং E. Gomez, "Monoaural audio Source ´sparation using deep convolutional neural networks," in International Conference on Latent Variable Analysis and Signal Separation, 2017, pp. 258– 266।
[১০] D. Stoller, S. Ewert, এবং S. Dixon, “Wave-u-net: একটি মাল্টি-স্কেল নিউরাল নেটওয়ার্ক ফর এন্ড-টু-এন্ড অডিও সোর্স সেপারেশন,” arXiv প্রিপ্রিন্ট arXiv:1806.03185, 2018।
[১১] জেআর হার্শে এবং জেআর মোভেলান, "অডিও দৃষ্টি: শব্দগুলি সনাক্ত করার জন্য অডিও-ভিজ্যুয়াল সিঙ্ক্রোনি ব্যবহার করা," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2000, পৃষ্ঠা 813-819।
[১২] ই. কিড্রন, ওয়াইওয়াই শেচনার এবং এম. ইলাদ, কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনে "পিক্সেল দ্যাট সাউন্ড," 2005। সিভিপিআর 2005। আইইইই কম্পিউটার সোসাইটি কনফারেন্স অন, ভলিউম। 1, 2005, পৃ. 88-95।
[১৩] টি. ড্যারেল, জেডব্লিউ ফিশার, এবং পি. ভায়োলা, "অডিও-ভিজ্যুয়াল সেগমেন্টেশন এবং ককটেল পার্টি ইফেক্ট," অ্যাডভান্সেস ইন মাল্টিমোডাল ইন্টারফেসআইসিএমআই 2000, 2000, পৃষ্ঠা 32-40।
[১৪] ডি. সোডোয়ার, জে.-এল. শোয়ার্টজ, এল. গিরিন, জে. ক্লিঙ্কিস, এবং সি. জুটেন, "অডিও-ভিজ্যুয়াল বক্তৃতা উত্সগুলির বিচ্ছেদ: বক্তৃতা উদ্দীপনার অডিও-ভিজ্যুয়াল সমন্বয়কে কাজে লাগানোর একটি নতুন পদ্ধতি," সংকেত প্রক্রিয়াকরণে অগ্রগতির উপর EURASIP জার্নাল, ভলিউম। 2002, না। 11, পৃ. 382823, 2002।
[১৫] বি. রিভেট, এল. গিরিন, এবং সি. জুটেন, "আলোচনামূলক মিশ্রণ থেকে বক্তৃতা সংকেত নিষ্কাশনের জন্য অডিওভিজ্যুয়াল বক্তৃতা প্রক্রিয়াকরণ এবং অন্ধ উত্স পৃথকীকরণের মিশ্রণ," অডিও, বক্তৃতা এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 15, না। 1, পৃ. 96-108, 2007।
[১৬] বি. লি, সি. জু, এবং জেড. ডুয়ান, "মাল্টি-মডাল ভাইব্রেটো বিশ্লেষণের মাধ্যমে স্ট্রিং এনসেম্বলের জন্য অডিওভিজ্যুয়াল সোর্স অ্যাসোসিয়েশন," প্রোক. সাউন্ড অ্যান্ড মিউজিক কম্পিউটিং (এসএমসি), 2017।
[১৭] এস. পারেখ, এস. এসিড, এ. ওজেরভ, এনকিউ ডুয়ং, পি. পেরেজ, এবং জি. রিচার্ড, ´ "ভিডিও অবজেক্ট তথ্য দ্বারা অডিও উৎস বিচ্ছেদ নির্দেশিকা," অডিও এবং অ্যাকোস্টিকসের সিগন্যাল প্রসেসিং (WASPAA) , 2017 IEEE কর্মশালা, 2017, পৃষ্ঠা 61–65।
[১৮] আর. গাও এবং কে. গ্রাউম্যান, কম্পিউটার ভিশন, 2019, পৃষ্ঠা 3879–3888-এর IEEE ইন্টারন্যাশনাল কনফারেন্সের কার্যপ্রণালীতে "ভিজ্যুয়াল অবজেক্টের সহ-বিচ্ছিন্ন শব্দ"।
[১৯] H. Zhao, C. Gan, W.-C. কম্পিউটার ভিশন, 2019, পৃষ্ঠা 1735–1744 এর প্রসিডিংস অফ দ্য আইইইই ইন্টারন্যাশনাল কনফারেন্সে মা, এবং এ. তোরালবা, "গতির শব্দ,"।
[২০] X. Xu, B. Dai, এবং D. Lin, "মাইনাস-প্লাস নেট ব্যবহার করে রিকার্সিভ ভিজ্যুয়াল সাউন্ড সেপারেশন," Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 882–891.
[২১] বি. লি, কে. দীনেশ, সি. জু, জি. শর্মা, এবং জেড. ডুয়ান, "চেম্বার মিউজিক পারফরম্যান্সের জন্য অনলাইন অডিও-ভিজ্যুয়াল সোর্স অ্যাসোসিয়েশন," ইন্টারন্যাশনাল সোসাইটি অফ মিউজিক ইনফরমেশন রিট্রিভাল, ভলিউম। 2, না। 1, 2019।
[২২] আর. অ্যারান্ডজেলোভিক এবং এ. জিসারম্যান, "অবজেক্টস দ্যাট সাউন্ড," প্রসিডিংস অফ দ্য IEEE ইউরোপিয়ান কনফারেন্স অন কম্পিউটার ভিশন, 2018-এ।
[২৩] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott, এবং A. Torralba, “The sound of pixels,” the European Conference on Computer Vision (ECCV), সেপ্টেম্বর 2018-এ।
[২৪] A. Owens এবং AA Efros, "স্ব-তত্ত্বাবধানে বহুসংবেদনশীল বৈশিষ্ট্য সহ অডিও-ভিজ্যুয়াল দৃশ্য বিশ্লেষণ," arXiv প্রিপ্রিন্ট arXiv:1804.03641, 2018।
[২৫] বি. কোরবার, ডি. ট্রান, এবং এল. তোরেসানি, "স্ব-তত্ত্বাবধানে সিঙ্ক্রোনাইজেশন থেকে অডিও এবং ভিডিও মডেলের সমবায় শিক্ষা," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2018, পৃষ্ঠা 7763–7774৷
[২৬] টি.-এইচ. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein, এবং W. Matusik, "Speech2face: Learning the face behind a voice,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, পৃ. 7539–7548।
[২৭] এল. চেন, এস. শ্রীবাস্তব, জেড. ডুয়ান, এবং সি. জু, "ডিপ ক্রস-মডাল অডিওভিজ্যুয়াল জেনারেশন," এসিএম মাল্টিমিডিয়া 2017, 2017, পৃ.
[২৮] Y. Zhou, Z. Wang, C. Fang, T. Bui, এবং TL Berg, "Visual to sound: Generating natural sound for videos in the wild," in the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , 2018, পৃষ্ঠা 3550–3558।
[২৯] ই. শ্লিজারম্যান, এলএম ডেরি, এইচ. শোয়েন, এবং আই. কেমেলমাচার-শ্লিজারম্যান, "অডিও টু বডি ডাইনামিকস," সিভিপিআর, আইইইই কম্পিউটার সোসাইটি কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন, 2017।
[৩০] এস. জিনোসার, এ. বার, জি. কোহাভি, সি. চ্যান, এ. ওয়েন্স, এবং জে. মালিক, কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন সংক্রান্ত আইইইই কনফারেন্সের কার্যক্রমে "কথোপকথনমূলক অঙ্গভঙ্গির স্বতন্ত্র শৈলী শেখা," 2019, পৃষ্ঠা 3497–3506।
[৩১] H. Zhou, Z. Liu, X. Xu, P. Luo, এবং X. Wang, IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন (ICCV), অক্টোবর 2019-এ “ভিশন-ইনফিউজড ডিপ অডিও ইনপেইন্টিং”।
[৩২] C. Gan, D. Huang, H. Zhao, JB Tenenbaum, এবং A. Torralba, "ভিজ্যুয়াল সাউন্ড সেপারেশনের জন্য সঙ্গীত অঙ্গভঙ্গি," IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন, 2020, pp 10 478-10 487।
[৩৩] জেড. কাও, জি. হিডালগো মার্টিনেজ, টি. সাইমন, এস. ওয়েই, এবং ওয়াইএ শেখ, "ওপেনপোজ: রিয়েলটাইম মাল্টি-পারসন 2d পোজ অনুমান অংশ সম্বন্ধীয় ক্ষেত্রগুলি ব্যবহার করে," IEEE লেনদেন অন প্যাটার্ন বিশ্লেষণ এবং মেশিন বুদ্ধিমত্তা, 2019 .
[৩৪] CSJ Doire এবং O. Okubadejo, "স্বাধীন ডাটাবেসের সাথে অডিও সোর্স সেপারেশনের জন্য ইন্টারলিভড মাল্টিটাস্ক লার্নিং," ArXiv, vol. abs/1908.05182, 2019।
[৩৫] F. Yu, V. Koltun, এবং T. Funkhouser, "প্রসারিত অবশিষ্ট নেটওয়ার্ক," কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন (CVPR), 2017-এ।
[৩৬] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. কুমার, এবং T. Weyde, 18 তম ইন্টারন্যাশনাল সোসাইটি ফর মিউজিক ইনফরমেশন রিট্রিভাল কনফারেন্সে "গভীর ইউ-নেট কনভোলিউশনাল নেটওয়ার্কের সাথে ভয়েস বিচ্ছেদ গান" , 2017, পৃষ্ঠা 23-27।
[৩৭] O. Ronneberger, P. Fischer, এবং T. Brox, "U-net: Convolutional networks for biomedical image segmentation," ইন্টারন্যাশনাল কনফারেন্স অন মেডিক্যাল ইমেজ কম্পিউটিং এবং কম্পিউটার-সহায়ক হস্তক্ষেপে। স্প্রিংগার, 2015, পৃষ্ঠা 234-241।
[৩৮] G. Liu, J. Si, Y. Hu, এবং S. Li, "উন্নত ইউ-নেটের সাথে ফটোগ্রাফিক ইমেজ সংশ্লেষণ," 2018-এ উন্নত কম্পিউটেশনাল ইন্টেলিজেন্সের (ICACI) দশম আন্তর্জাতিক সম্মেলনে, মার্চ 2018, pp. 402 -407।
[৩৯] এক্স. মাও, সি. শেন, এবং ওয়াই.-বি. ইয়াং, "প্রতিসম স্কিপ সংযোগের সাথে খুব গভীর কনভোল্যুশনাল এনকোডার-ডিকোডার নেটওয়ার্ক ব্যবহার করে ইমেজ পুনরুদ্ধার," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2016, পিপি 2802-2810।
[৪০] পি. আইসোলা, জে.-ওয়াই। Zhu, T. Zhou, এবং AA Efros, "কন্ডিশনাল অ্যাডভারসারিয়াল নেটওয়ার্কের সাথে ইমেজ-টু-ইমেজ অনুবাদ," arxiv, 2016।
[৪১] ডিপি কিংমা এবং জে. বা, "আদম: স্টোকাস্টিক অপ্টিমাইজেশানের জন্য একটি পদ্ধতি," CoRR, ভলিউম। abs/1412.6980, 2014।
[৪২] "অধ্যায় 7 - ফ্রিকোয়েন্সি ডোমেন প্রসেসিং," ডিজিটাল সিগন্যাল প্রসেসিং সিস্টেম ডিজাইনে (দ্বিতীয় সংস্করণ), দ্বিতীয় সংস্করণ সংস্করণ, এন. কেহতারনাভাজ, এড। বার্লিংটন: একাডেমিক প্রেস, 2008, পৃষ্ঠা 175 – 196।
[৪৩] ই. ভিনসেন্ট, আর. গ্রিবনভাল, এবং সি. ফেভোট, "অন্ধ অডিও উৎস বিচ্ছেদে কর্মক্ষমতা পরিমাপ," অডিও, স্পিচ, এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 14, না। 4, পৃ. 1462–1469, 2006।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।