Yazarlar:
(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.
Rochester Üniversitesi Çok Modlu Müzik Performansı Veri Kümesi (URMP) [1], klasik müzik parçalarının 44 Çok enstrümanlı video kaydını içeren bir veri kümesidir. Bir parçada bulunan her enstrüman, gerçekçi bireysel parçalara sahip olmak için bağımsız bir mikrofonla hem video hem de yüksek kaliteli sesle ayrı ayrı kaydedildi. Ayrı ayrı çalınmasına rağmen, farklı oyuncular için ortak zamanlamayı ayarlamak amacıyla enstrümanlar, bir piyanistin çaldığı bir video kullanılarak koordine edildi. Senkronizasyondan sonra, tek tek videoların sesi, mikrofonun yüksek kaliteli sesiyle değiştirildi ve ardından karışımı oluşturmak için farklı kayıtlar birleştirildi: ses karışımını ve görsel içeriği oluşturmak için tek tek yüksek kaliteli ses kayıtları birleştirildi. tüm oyuncuların soldan sağa aynı seviyede düzenlendiği ortak bir arka plana sahip tek bir videoda birleştirildi. Veri seti, her parça için MIDI formatında müzik notalarını, yüksek kaliteli bireysel enstrüman ses kayıtlarını ve bir araya getirilen parçaların videolarını sağlar. Şekil 1'de gösterilen veri setinde bulunan enstrümanlar oda orkestralarında yaygın olarak kullanılan enstrümanlardır. Tüm iyi özelliklerine rağmen küçük bir veri seti olduğundan derin öğrenme mimarilerinin eğitimi için uygun değildir.
Müzik aletleri performanslarının görsel-işitsel kayıtlarına ilişkin diğer iki veri seti yakın zamanda sunulmuştur: Müzik [23] ve MusicES [31]. Müzik, 11 kategoride 536 solo kaydı ve 149 düet videosundan oluşuyor: akordeon, akustik gitar, çello, klarnet, erhu, flüt, saksafon, trompet, tuba, keman ve ksilofon. Bu veri kümesi YouTube sorgulanarak toplandı. MusicES [31], yaklaşık 1475 kayıtla MUSIC'in orijinal boyutunun yaklaşık üç katı kadar bir uzantısıdır ancak bunun yerine 9 kategoriye yayılmıştır: akordeon, gitar, çello, flüt, saksafon, trompet, tuba, keman ve ksilofon. MÜZİK ve Sololarda 7 ortak kategori vardır: keman, çello, flüt, klarnet, saksafon, trompet ve tuba. MusicES ve Sololar arasındaki ortak kategoriler 6'dır (öncekiler klarnet hariç). Sololar ve MusicES tamamlayıcıdır. Her ikisi arasında yalnızca %5'lik küçük bir kesişim vardır; bu, her iki veri kümesinin daha büyük bir veri kümesinde birleştirilebileceği anlamına gelir.
Literatürde görsel-işitsel veri setlerinin faydasını gösteren çeşitli örnekler bulabiliriz. Piksellerin Sesi [23], ayrı kaynaklar elde etmek için video akışından gelen görsel özellikleri kullanarak daha akıllıca seçilen ses spektral bileşenlerini oluşturarak ses kaynağı ayırma işlemini gerçekleştirir. Bu fikir, karışımdaki farklı sesleri yinelemeli bir şekilde ayırmak için [20]'de daha da genişletildi. Sistem her aşamada en belirgin kaynağı karışımda kalanlardan ayırır. Hareketlerin Sesi [19], ses kaynağı ayrımını koşullandırmak için optik akıştan elde edilen yoğun yörüngeleri kullanır;
aynı alet karışımlarını ayırmak için bile. [18]'de farklı enstrümanları ayırmak için görsel koşullandırma da kullanılmaktadır; Eğitim sırasında, nesne tutarlılığını sağlamak için ayrılmış seslerde bir sınıflandırma kaybı kullanılır ve bir ortak ayırma kaybı, tahmin edilen bireysel sesleri yeniden bir araya getirildikten sonra orijinal karışımları üretmeye zorlar. [17]'de yazarlar, kaynak başına hareket bilgisi içeren bir matrise hizalanmaya zorlanan bir aktivasyon matrisi ile Negatif Olmayan Matris Faktorizasyon terimini en aza indiren enerji bazlı bir yöntem geliştirdiler. Bu hareket matrisi, her oyuncu sınır kutusundaki kümelenmiş hareket yörüngelerinin ortalama büyüklük hızlarını içerir.
Son çalışmalar görsel-işitsel görevlerde iskeletlerin kullanımının arttığını gösteriyor. Sesten vücut dinamiğine [29] yazarlar, piyano veya keman gibi enstrümanları çalan oyuncuların hareketlerini yeniden üreten iskeletleri tahmin etmenin mümkün olduğunu göstermektedir. Oda müziği performanslarında iskeletlerin, nota başlangıçları veya perde dalgalanmaları ile vücut veya parmak hareketi gibi görsel-işitsel yazışmaların kurulmasında yararlı olduğu kanıtlanmıştır [21]. Yakın zamanda yapılan bir çalışma [32] kaynak ayırma problemini Hareketlerin Sesi'ne [19] benzer şekilde ele alıyor ancak yoğun yörüngeleri iskelet bilgisiyle değiştiriyor.