Yazarlar:
(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.
Bu yazıda, görsel-işitsel kör kaynak ayırma ve yerelleştirme, modlar arası yazışmalar, modlar arası oluşturma ve genel olarak, görsel-işitsel öz denetimli herhangi bir görev. YouTube'dan derlenen bu videolar, 13 farklı enstrümanın solo müzik performanslarından oluşuyor. Daha önce önerilen görsel-işitsel veri kümeleriyle karşılaştırıldığında Solos, kayıtlarının büyük bir kısmı seçmeler olduğundan ve manuel olarak kontrol edilen kayıtlardan oluştuğu için daha temizdir ve video son işlemesinde arka plan gürültüsü veya efekt eklenmemesini sağlar. Ayrıca, bilgimiz dahilinde, URMP [1] veri setinde mevcut olan tüm enstrüman setini içeren tek veri setidir; tek tek çok enstrümanlı klasik müzik parçalarının 44 görsel-işitsel kaydından oluşan yüksek kaliteli bir veri setidir. ses parçaları. URMP'nin kaynak ayırma için kullanılması amaçlanmıştı, bu nedenle Solos üzerinde eğitilmiş iki farklı kaynak ayırma modelinin URMP veri kümesi üzerindeki performansını değerlendiriyoruz. Veri kümesi https://juanfmontesinos.github.io/Solos/ adresinde halka açıktır.
Dizin Terimleri — görsel-işitsel, veri kümesi, çok modlu, müzik
Müzik Bilgi Erişimi (MIR) problemlerini çözmek için çok modlu tekniklere artan bir ilgi vardır. Müzik performansları son derece çok modlu bir içeriğe sahiptir ve ilgili farklı modaliteler yüksek düzeyde ilişkilidir: sesler, icra eden çalgıcının hareketi tarafından yayılır ve oda müziği performanslarında notalar, müziğin otomatik analizi için de yararlanılabilecek ek bir kodlama oluşturur. 2].
Öte yandan, sahneyi görsel olarak inceleyerek, ses kaynaklarının sayısı, türleri, uzay-zamansal konumları ve ayrıca yayılan sesle doğal olarak ilişkili olan hareket hakkında bilgi edinebiliriz. Ayrıca, bir yöntemin diğerini denetlediği kendi kendini denetleyen görevleri gerçekleştirmek de mümkündür. Bu, başka bir araştırma alanı olan çapraz mod yazışmasını (CMC) gerektirir. Hem BSS hem de CMC sorunlarına yönelik öncü çalışmalar bulabiliriz. [11], [12] ses lokalizasyonu için görsel-işitsel verilerden ve konuşma ayrımı için [13], [14], [15]'ten yararlanır. Müzik bağlamında, görsel bilginin hem kaynak ayırmada [16], [17] hem de yerelleştirmede [2] model tabanlı yöntemlere yardımcı olduğu kanıtlanmıştır. Derin öğrenme tekniklerinin gelişmesiyle birlikte birçok yeni çalışma, müzik kaynağı ayırma [18]–[20], kaynak ilişkilendirme [21], yerelleştirme [22] veya her ikisini de [23] gerçekleştirmek için hem ses hem de video içeriğini kullanır. Bazı CMC çalışmaları senkronizasyondan üretilen özellikleri araştırır [24], [25] ve bu özelliklerin kaynak ayrımı için yeniden kullanılabilir olduğunu kanıtlar. Bu çalışmalar, yerelleştirme amaçları için karşılık gelen/ilişki göstermeyen görsel-işitsel sinyal çiftleri kullanılarak kendi kendini denetleyen bir şekilde eğitilmiş ağları kullanır [22] veya kaynak ayrımı için karıştır ve ayır yaklaşımı [18]–[20] , [23]. Derin öğrenme, klasik problemleri farklı bir şekilde çözmeyi mümkün kılsa da, aynı zamanda asıl amacın sesten video üretmek olduğu çapraz modlu üretim gibi yeni araştırma alanlarının yaratılmasına da katkıda bulunmuştur [26], [27] veya tam tersi [28]. İnsan hareketiyle ilgili daha yeni çalışmalar, iskeletin potansiyelini gösteren videoya [29], [30] dönüştürülebilen vücudun iç temsili olarak iskeletten yararlanmaktadır. Bu makalenin ana katkısı, solistlerin müzikal performans kayıtlarından oluşan ve yukarıda bahsedilen alanlardan herhangi biri için derin sinir ağlarını eğitmek için kullanılabilecek yeni bir veri kümesi olan Solos'tur. [23]'te sunulan benzer müzik enstrümanları veri seti ve onun genişletilmiş versiyonuyla [31] karşılaştırıldığında, veri setimiz URMP veri setinde mevcut olan aynı tip oda orkestrası enstrümanlarını içermektedir. Solos, YouTube'dan toplanan 755 gerçek dünya kaydından oluşan bir veri kümesidir ve yukarıda bahsedilen veri kümelerinde eksik olan çeşitli özellikleri sağlar: iskeletler ve yüksek kaliteli zaman damgaları. Kaynak yerelleştirmesi genellikle dolaylı olarak ağlar tarafından öğrenilir. Bu nedenle, pratik bir yerelleştirmenin temel gerçeğini sağlamak kolay değildir. Bununla birlikte, ağlar genellikle sanki ses kaynağıymış gibi oyuncunun ellerine işaret eder. El yerelleştirmesinin, görsel-işitsel BSS'yi iyileştirmek için ek ipuçları sağlamaya yardımcı olabileceğini veya kaynak gerçek yerelleştirme olarak kullanılabileceğini umuyoruz. Solo kullanmanın faydalarını göstermek için bazı popüler BSS mimarilerini eğittik ve sonuçlarını karşılaştırdık.