paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्यद्वारा@kinetograph
152 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]}।

लिंक की तालिका

II. संबंधित कार्य

रोचेस्टर विश्वविद्यालय मल्टी-मोडल संगीत प्रदर्शन डेटासेट (URMP) [1] शास्त्रीय संगीत के टुकड़ों की 44 मल्टी-इंस्ट्रूमेंट वीडियो रिकॉर्डिंग वाला एक डेटासेट है। एक टुकड़े में मौजूद प्रत्येक वाद्य यंत्र को अलग-अलग रिकॉर्ड किया गया था, वीडियो और उच्च-गुणवत्ता वाले ऑडियो दोनों के साथ एक स्टैंड-अलोन माइक्रोफ़ोन के साथ, ताकि ग्राउंड-ट्रुथ व्यक्तिगत ट्रैक हो सकें। अलग-अलग बजाने के बावजूद, अलग-अलग खिलाड़ियों के लिए सामान्य समय निर्धारित करने के लिए एक पियानोवादक के साथ एक कंडक्टिंग वीडियो का उपयोग करके वाद्य यंत्रों को समन्वित किया गया था। सिंक्रनाइज़ेशन के बाद, अलग-अलग वीडियो के ऑडियो को माइक्रोफ़ोन के उच्च-गुणवत्ता वाले ऑडियो से बदल दिया गया और फिर मिश्रण बनाने के लिए अलग-अलग रिकॉर्डिंग को इकट्ठा किया गया: ऑडियो मिश्रण बनाने के लिए अलग-अलग उच्च-गुणवत्ता वाली ऑडियो रिकॉर्डिंग को जोड़ा गया और दृश्य सामग्री को एक सामान्य पृष्ठभूमि के साथ एक वीडियो में संयोजित किया गया, जहाँ सभी खिलाड़ी बाएं से दाएं एक ही स्तर पर व्यवस्थित थे। प्रत्येक टुकड़े के लिए, डेटासेट MIDI प्रारूप में संगीत स्कोर, उच्च-गुणवत्ता वाले व्यक्तिगत वाद्य यंत्र ऑडियो रिकॉर्डिंग और इकट्ठे टुकड़ों के वीडियो प्रदान करता है। चित्र 1 में दिखाए गए डेटासेट में मौजूद वाद्य यंत्र चैम्बर ऑर्केस्ट्रा में आम वाद्य यंत्र हैं। अपनी सभी अच्छी विशेषताओं के बावजूद, यह एक छोटा डेटासेट है और इसलिए यह गहन शिक्षण आर्किटेक्चर के प्रशिक्षण के लिए उपयुक्त नहीं है।


संगीत वाद्ययंत्रों के प्रदर्शन की ऑडियो-विजुअल रिकॉर्डिंग के दो अन्य डेटासेट हाल ही में प्रस्तुत किए गए हैं: संगीत [23] और म्यूजिकईएस [31]। संगीत में 11 श्रेणियों में एकल के 536 रिकॉर्डिंग और युगल के 149 वीडियो शामिल हैं: अकॉर्डियन, ध्वनिक गिटार, सेलो, शहनाई, एर्हू, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। यह डेटासेट YouTube से पूछताछ करके एकत्र किया गया था। म्यूजिकईएस [31] लगभग 1475 रिकॉर्डिंग के साथ अपने मूल आकार के तिगुने आकार का म्यूजिक का एक विस्तार है, लेकिन इसके बजाय 9 श्रेणियों में फैला हुआ है: अकॉर्डियन, गिटार, सेलो, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। म्यूजिक और सोलोस में 7 सामान्य श्रेणियां हैं: वायलिन, सेलो सोलोस और म्यूजिकईएस एक दूसरे के पूरक हैं। दोनों के बीच केवल 5% का एक छोटा सा अंतर है, जिसका अर्थ है कि दोनों डेटासेट को एक बड़े डेटासेट में जोड़ा जा सकता है।


हम साहित्य में कई उदाहरण पा सकते हैं जो ऑडियो-विज़ुअल डेटासेट की उपयोगिता दिखाते हैं। पिक्सल की आवाज़ [23] ऑडियो स्रोत पृथक्करण करता है जो ऑडियो स्पेक्ट्रल घटकों को उत्पन्न करता है जिन्हें अलग-अलग स्रोतों को प्राप्त करने के लिए वीडियो स्ट्रीम से आने वाली दृश्य सुविधाओं का उपयोग करके आगे स्मार्ट तरीके से चुना जाता है। मिश्रण में मौजूद विभिन्न ध्वनियों को पुनरावर्ती तरीके से अलग करने के लिए इस विचार को [20] में आगे बढ़ाया गया था। प्रत्येक चरण में, सिस्टम मिश्रण में बचे हुए सबसे प्रमुख स्रोत से अलग करता है। मोशन की आवाज़ [19] ऑडियो स्रोत पृथक्करण को कंडीशन करने के लिए ऑप्टिकल फ्लो से प्राप्त घने प्रक्षेपवक्र का उपयोग करता है


चित्र 1. सोलोस और यूआरएमपी उपकरण श्रेणियाँ। छवि [1] से अनुकूलित।


यहां तक कि समान-वाद्य मिश्रणों को अलग करने के लिए भी। [18] में विभिन्न उपकरणों को अलग करने के लिए दृश्य कंडीशनिंग का भी उपयोग किया जाता है; प्रशिक्षण के दौरान, ऑब्जेक्ट की स्थिरता को लागू करने के लिए अलग-अलग ध्वनियों पर एक वर्गीकरण हानि का उपयोग किया जाता है और एक सह-पृथक्करण हानि अनुमानित व्यक्तिगत ध्वनियों को एक बार फिर से इकट्ठा होने पर मूल मिश्रण बनाने के लिए मजबूर करती है। [17] में, लेखकों ने एक ऊर्जा-आधारित विधि विकसित की है जो एक सक्रियण मैट्रिक्स के साथ एक गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन शब्द को कम करता है जिसे प्रति-स्रोत गति जानकारी वाले मैट्रिक्स से संरेखित करने के लिए मजबूर किया जाता है। इस गति मैट्रिक्स में प्रत्येक खिलाड़ी बाउंडिंग बॉक्स में क्लस्टर किए गए गति प्रक्षेपवक्र के औसत परिमाण वेग होते हैं।


हाल के कार्यों से दृश्य-श्रव्य कार्यों में कंकालों के बढ़ते उपयोग का पता चलता है। ऑडियो टू बॉडी डायनेमिक्स [29] में लेखक दिखाते हैं कि पियानो या वायलिन जैसे वाद्ययंत्र बजाने वाले खिलाड़ियों की हरकतों को पुन: पेश करने वाले कंकालों की भविष्यवाणी करना संभव है। चैम्बर संगीत प्रदर्शनों में शरीर या उंगली की गति जैसे कि नोट ऑनसेट या पिच में उतार-चढ़ाव के साथ ऑडियो-विजुअल पत्राचार स्थापित करने के लिए कंकाल उपयोगी साबित हुए हैं [21]। एक हालिया काम [32] साउंड ऑफ़ मोशन [19] के समान स्रोत पृथक्करण समस्या से निपटता है, लेकिन कंकाल की जानकारी द्वारा घने प्रक्षेपवक्र को प्रतिस्थापित करता है।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।