paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भद्वारा@kinetograph
123 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भ

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(3) ग्लोरिया हारो, सूचना एवं संचार प्रौद्योगिकी विभाग, यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]}.

लिंक की तालिका

V. निष्कर्ष

हमने सोलोस प्रस्तुत किया है, जो एकल कलाकारों की संगीत रिकॉर्डिंग का एक नया ऑडियो-विज़ुअल डेटासेट है, जो मिक्स-एंड-सेपरेट रणनीति का उपयोग करके स्रोत पृथक्करण, ध्वनि स्थानीयकरण, क्रॉस-मोडल पीढ़ी और ऑडियो-विज़ुअल पत्राचार खोजने जैसे विभिन्न स्व-पर्यवेक्षित सीखने के कार्यों के लिए उपयुक्त है। डेटासेट में 13 अलग-अलग उपकरण हैं; वे चैंबर ऑर्केस्ट्रा में आम उपकरण हैं और रोचेस्टर मल्टी-मोडल म्यूज़िक परफ़ॉर्मेंस (URMP) डेटासेट [1] में शामिल हैं। URMP की विशेषताएँ - ग्राउंड ट्रुथ इंडिविजुअल स्टेम के साथ वास्तविक प्रदर्शनों का छोटा डेटासेट - इसे परीक्षण उद्देश्यों के लिए एक उपयुक्त डेटासेट बनाता है लेकिन हमारे सर्वोत्तम ज्ञान के अनुसार, आज तक URMP में समान उपकरणों के साथ कोई मौजूदा बड़े पैमाने का डेटासेट नहीं है। U-Net आर्किटेक्चर पर आधारित ऑडियो-विज़ुअल स्रोत पृथक्करण के लिए दो अलग-अलग नेटवर्क को नए डेटासेट में प्रशिक्षित किया गया है और URMP में आगे का मूल्यांकन किया गया है, जो परीक्षण सेट के समान उपकरणों के एक ही सेट पर प्रशिक्षण के प्रभाव को दर्शाता है। इसके अलावा, सोलोस वीडियो अंतराल के लिए कंकाल और टाइमस्टैम्प प्रदान करता है जहां हाथ पर्याप्त रूप से दिखाई देते हैं। यह जानकारी प्रशिक्षण उद्देश्यों के लिए तथा ध्वनि स्थानीयकरण के कार्य को हल करने के लिए सीखने में भी उपयोगी हो सकती है।

प्रतिक्रिया दें संदर्भ

[1] बी. ली, एक्स. लियू, के. दिनेश, जेड. डुआन और जी. शर्मा, "मल्टीमॉडल संगीत विश्लेषण के लिए मल्टीट्रैक शास्त्रीय संगीत प्रदर्शन डेटासेट बनाना: चुनौतियाँ, अंतर्दृष्टि और अनुप्रयोग," आईईईई ट्रांजेक्शन ऑन मल्टीमीडिया, वॉल्यूम 21, नंबर 2, पृष्ठ 522-535, फरवरी 2019।


[2] बी. ली, के. दिनेश, जेड. डुआन और जी. शर्मा, “देखें और सुनें: चैम्बर संगीत प्रदर्शन वीडियो में साउंड ट्रैक्स का प्लेयर्स से स्कोर-सूचित जुड़ाव,” 2017 IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (ICASSP) में। IEEE, 2017, पृष्ठ 2906-2910।


[3] ई.सी. चेरी, "एक और दो कानों से भाषण की पहचान पर कुछ प्रयोग," द जर्नल ऑफ द एकॉस्टिकल सोसाइटी ऑफ अमेरिका, खंड 25, संख्या 5, पृ. 975-979, 1953.


[4] ए. हाइवरिनन और ई. ओजा, "स्वतंत्र घटक विश्लेषण: एल्गोरिदम और अनुप्रयोग," न्यूरल नेटवर्क, खंड 13, संख्या 4-5, पृष्ठ 411-430, 2000।


[5] एम. ज़िबुलवस्की और बी.ए. पर्लमटर, "सिग्नल डिक्शनरी में विरल अपघटन द्वारा अंधा स्रोत पृथक्करण," न्यूरल कंप्यूटेशन, खंड 13, संख्या 4, पृष्ठ 863-882, 2001।


[6] टी. विरटेनन, "टेम्पोरल निरंतरता और विरलता मानदंड के साथ गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन द्वारा मोनोरल ध्वनि स्रोत पृथक्करण," ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन, खंड 15, संख्या 3, पृष्ठ 1066-1074, 2007।


[7] डीपीडब्ल्यू एलिस, “पूर्वानुमान-संचालित कम्प्यूटेशनल श्रवण दृश्य विश्लेषण,” पीएचडी शोध प्रबंध, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी, 1996।


[8] पी. स्मार्गडिस, बी. राज, और एम. शशांक, "ध्वनिक मॉडलिंग के लिए एक संभाव्य अव्यक्त चर मॉडल," ध्वनिक प्रसंस्करण के लिए मॉडल में प्रगति, एनआईपीएस, खंड 148, पृष्ठ 8-1, 2006।


[9] पी. चांदना, एम. मिरॉन, जे. जेनेर, और ई. गोमेज़, "डीप कन्वोल्यूशनल न्यूरल नेटवर्क का उपयोग करके मोनोऑरल ऑडियो स्रोत´ पृथक्करण," लेटेंट वेरिएबल एनालिसिस एंड सिग्नल सेपरेशन पर अंतर्राष्ट्रीय सम्मेलन, 2017, पृष्ठ 258-266।


[10] डी. स्टोलर, एस. इवर्ट, और एस. डिक्सन, "वेव-यू-नेट: एंड-टू-एंड ऑडियो सोर्स सेपरेशन के लिए एक मल्टी-स्केल न्यूरल नेटवर्क," arXiv प्रीप्रिंट arXiv:1806.03185, 2018।


[11] जेआर हर्षे और जेआर मूवेलन, “ऑडियो विज़न: ध्वनियों का पता लगाने के लिए ऑडियो-विज़ुअल सिंक्रोनाइज़ेशन का उपयोग करना,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2000, पृ. 813-819.


[12] ई. किड्रॉन, वाई.वाई शेचनर, और एम. एलाद, "पिक्सल्स दैट साउंड," कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, 2005. सीवीपीआर 2005. आईईईई कंप्यूटर सोसाइटी कॉन्फ्रेंस ऑन, वॉल्यूम 1, 2005, पृष्ठ 88-95.


[13] टी. डेरेल, जे.डब्ल्यू. फिशर, और पी. वियोला, "ऑडियो-विजुअल सेगमेंटेशन और कॉकटेल पार्टी प्रभाव," एडवांस इन मल्टीमॉडल इंटरफेसआईसीएमआई 2000, 2000, पृ. 32-40.


[14] डी. सोडोयर, जे.-एल. श्वार्ट्ज, एल. गिरिन, जे. क्लिंकिश और सी. जुटन, "ऑडियो-विज़ुअल भाषण स्रोतों का पृथक्करण: भाषण उत्तेजनाओं के ऑडियो-विज़ुअल सुसंगतता का दोहन करने वाला एक नया दृष्टिकोण," सिग्नल प्रोसेसिंग में प्रगति पर EURASIP जर्नल, वॉल्यूम. 2002, संख्या. 11, पृष्ठ. 382823, 2002.


[15] बी. रिवेट, एल. गिरिन, और सी. जुटन, "कन्वोल्यूटिव मिक्सचर से स्पीच सिग्नल निकालने के लिए ऑडियोविजुअल स्पीच प्रोसेसिंग और ब्लाइंड सोर्स सेपरेशन का मिश्रण," IEEE ट्रांजेक्शन ऑन ऑडियो, स्पीच, एंड लैंग्वेज प्रोसेसिंग, वॉल्यूम 15, नंबर 1, पीपी. 96-108, 2007.


[16] बी. ली, सी. जू, और जेड. डुआन, "मल्टी-मोडल वाइब्रेटो विश्लेषण के माध्यम से स्ट्रिंग एन्सेम्बल के लिए ऑडियोविज़ुअल स्रोत एसोसिएशन," प्रोक. साउंड एंड म्यूज़िक कंप्यूटिंग (एसएमसी), 2017.


[17] एस. पारेख, एस. एस्सिड, ए. ओज़ेरोव, एनक्यू डुओंग, पी. पेरेज़, और जी. रिचर्ड, ´ "वीडियो ऑब्जेक्ट जानकारी द्वारा ऑडियो स्रोत पृथक्करण का मार्गदर्शन करना," ऑडियो और ध्वनिकी के लिए सिग्नल प्रोसेसिंग के अनुप्रयोग (WASPAA), 2017 IEEE कार्यशाला में, 2017, पृष्ठ 61-65।


[18] आर. गाओ और के. ग्रूमैन, "दृश्य वस्तुओं की ध्वनियों को सह-पृथक करना," कंप्यूटर विज़न पर आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, 2019, पृष्ठ 3879-3888।


[19] एच. झाओ, सी. गण, डब्ल्यू.-सी. मा, और ए. टोराल्बा, "गति की ध्वनि," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, 2019, पृष्ठ 1735-1744।


[20] एक्स. जू, बी. दाई, और डी. लिन, "माइनस-प्लस नेट का उपयोग करके पुनरावर्ती दृश्य ध्वनि पृथक्करण," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, 2019, पृष्ठ 882-891।


[21] बी. ली, के. दिनेश, सी. जू, जी. शर्मा, और जेड. डुआन, "चैम्बर संगीत प्रदर्शन के लिए ऑनलाइन ऑडियो-विज़ुअल स्रोत एसोसिएशन," इंटरनेशनल सोसाइटी फ़ॉर म्यूज़िक इंफ़ॉर्मेशन रिट्रीवल के लेन-देन, खंड 2, संख्या 1, 2019।


[22] आर. अरंडजेलोविक और ए. ज़िस्सरमैन, “ऑब्जेक्ट्स दैट साउंड,” ´आईईईई यूरोपीय सम्मेलन ऑन कंप्यूटर विज़न की कार्यवाही में, 2018।


[23] एच. झाओ, सी. गण, ए. रौडिचेंको, सी. वोंड्रिक, जे. मैकडरमॉट, और ए. टोराल्बा, "पिक्सल की आवाज़," कंप्यूटर विज़न पर यूरोपीय सम्मेलन (ईसीसीवी), सितंबर 2018 में।


[24] ए. ओवेन्स और एए एफ़्रोस, "स्व-पर्यवेक्षित बहु-संवेदी विशेषताओं के साथ ऑडियो-विज़ुअल दृश्य विश्लेषण," arXiv प्रीप्रिंट arXiv:1804.03641, 2018।


[25] बी. कोरबार, डी. ट्रान, और एल. टोरेसानी, “स्व-पर्यवेक्षित सिंक्रनाइज़ेशन से ऑडियो और वीडियो मॉडल का सहकारी शिक्षण,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2018, पृ. 7763-7774.


[26] टी.-एच. ओह, टी. डेकेल, सी. किम, आई. मोसेरी, डब्ल्यूटी फ्रीमैन, एम. रुबिनस्टीन, और डब्ल्यू. माटुसिक, "स्पीच2फेस: वॉयस के पीछे का चेहरा सीखना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2019, पृष्ठ 7539-7548।


[27] एल. चेन, एस. श्रीवास्तव, जेड. डुआन, और सी. जू, "डीप क्रॉस-मोडल ऑडियोविजुअल जेनरेशन," एसीएम मल्टीमीडिया 2017 की विषयगत कार्यशालाओं की कार्यवाही में, 2017, पृ. 349-357.


[28] वाई. झोउ, जेड. वांग, सी. फैंग, टी. बुई, और टीएल बर्ग, "विज़ुअल टू साउंड: वाइल्ड में वीडियो के लिए प्राकृतिक ध्वनि उत्पन्न करना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2018, पृष्ठ 3550-3558।


[29] ई. श्लीज़रमैन, एलएम डेरी, एच. स्कोन, और आई. केमेलमाकर-श्लीज़रमैन, “ऑडियो टू बॉडी डायनेमिक्स,” सीवीपीआर, आईईईई कंप्यूटर सोसाइटी कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन, 2017।


[30] एस. गिनोसार, ए. बार, जी. कोहावी, सी. चैन, ए. ओवेन्स, और जे. मलिक, "संवादात्मक हावभाव की व्यक्तिगत शैलियों को सीखना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2019, पृष्ठ 3497-3506।


[31] एच. झोउ, जेड. लियू, एक्स. जू, पी. लुओ, और एक्स. वांग, "विज़न-इन्फ्यूज्ड डीप ऑडियो इनपेंटिंग," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न (आईसीसीवी), अक्टूबर 2019 में।


[32] सी. गण, डी. हुआंग, एच. झाओ, जेबी टेनेनबाम, और ए. टोराल्बा, "दृश्य ध्वनि पृथक्करण के लिए संगीत इशारा," कंप्यूटर विज़न और पैटर्न मान्यता पर आईईईई/सीवीएफ सम्मेलन की कार्यवाही में, 2020, पृष्ठ 10 478-10 487।


[33] जेड. काओ, जी. हिडाल्गो मार्टिनेज, टी. साइमन, एस. वेई, और वाईए शेख, "ओपनपोज़: रियलटाइम मल्टी-पर्सन 2डी पोज़ एस्टीमेशन यूजिंग पार्ट एफिनिटी फ़ील्ड्स," आईईईई ट्रांजेक्शन ऑन पैटर्न एनालिसिस एंड मशीन इंटेलिजेंस, 2019।


[34] सीएसजे डोइरे और ओ. ओकुबडेजो, "स्वतंत्र डेटाबेस के साथ ऑडियो स्रोत पृथक्करण के लिए इंटरलीव्ड मल्टीटास्क लर्निंग," अर्क्सिव, वॉल्यूम. एब्स/1908.05182, 2019.


[35] एफ. यू, वी. कोल्टुन, और टी. फंकहाउसर, "डाइलेटेड रेसिडुअल नेटवर्क," कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन (सीवीपीआर), 2017 में।


[36] ए. जानसन, ई. हम्फ्रे, एन. मोंटेकियो, आर. बिटनर, ए. कुमार, और टी. वेयडे, "डीप यू-नेट कन्वोल्यूशनल नेटवर्क के साथ गायन आवाज़ का पृथक्करण," 18वें इंटरनेशनल सोसाइटी फ़ॉर म्यूज़िक इन्फ़ॉर्मेशन रिट्रीवल कॉन्फ्रेंस में, 2017, पृष्ठ 23-27.


[37] ओ. रोनेबर्गर, पी. फिशर, और टी. ब्रॉक्स, “यू-नेट: बायोमेडिकल इमेज सेगमेंटेशन के लिए कन्वोल्यूशनल नेटवर्क,” मेडिकल इमेज कंप्यूटिंग और कंप्यूटर-असिस्टेड इंटरवेंशन पर अंतर्राष्ट्रीय सम्मेलन में। स्प्रिंगर, 2015, पृष्ठ 234-241।


[38] जी. लियू, जे. सी, वाई. हू, और एस. ली, “बेहतर यू-नेट के साथ फोटोग्राफिक छवि संश्लेषण,” 2018 में उन्नत कम्प्यूटेशनल इंटेलिजेंस (आईसीएसीआई) पर दसवां अंतर्राष्ट्रीय सम्मेलन, मार्च 2018, पृ. 402-407.


[39] एक्स. माओ, सी. शेन, और वाई.-बी. यांग, “सममित स्किप कनेक्शन के साथ बहुत गहरे कन्वोल्यूशनल एनकोडर-डिकोडर नेटवर्क का उपयोग करके छवि बहाली,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम, 2016, पृष्ठ 2802-2810।


[40] पी. इसोला, जे.-वाई. झू, टी. झोउ, और एए एफ़्रोस, “सशर्त प्रतिकूल नेटवर्क के साथ छवि-से-छवि अनुवाद,” आर्क्सिव, 2016।


[41] डीपी किंग्मा और जे. बा, “एडम: स्टोकेस्टिक ऑप्टिमाइज़ेशन के लिए एक विधि,” सीओआरआर, वॉल्यूम. एब्स/1412.6980, 2014.


[42] “अध्याय 7 - आवृत्ति डोमेन प्रसंस्करण,” डिजिटल सिग्नल प्रोसेसिंग सिस्टम डिज़ाइन (दूसरा संस्करण) में, दूसरा संस्करण संपादित, एन. केहटरनवाज़, एड. बर्लिंगटन: अकादमिक प्रेस, 2008, पृ. 175 - 196.


[43] ई. विंसेंट, आर. ग्रिबोनवाल, और सी. फेवोटे, "ब्लाइंड ऑडियो सोर्स सेपरेशन में प्रदर्शन मापन," आईईईई ट्रांजेक्शन ऑन ऑडियो, स्पीच, एंड लैंग्वेज प्रोसेसिंग, खंड 14, संख्या 4, पृष्ठ 1462-1469, 2006।

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।