paint-brush
Sololar: Görsel-İşitsel Müzik Analizi için Bir Veri Kümesi - Deneylerile@kinetograph
169 okumalar

Sololar: Görsel-İşitsel Müzik Analizi için Bir Veri Kümesi - Deneyler

Çok uzun; Okumak

Bu makalede araştırmacılar, çeşitli görsel-işitsel görevlerde makine öğrenimi modellerini eğitmek için solo müzik performanslarından oluşan temiz bir veri kümesi olan Solos'u tanıtıyor.
featured image - Sololar: Görsel-İşitsel Müzik Analizi için Bir Veri Kümesi - Deneyler
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};

(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};

(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.

Bağlantı Tablosu

IV. DENEYLER

Solo'ların uygunluğunu göstermek için kör kaynak ayırma problemine odaklandık ve Piksellerin Sesi (SoP) [23] ve Çok Kafalı U-Net (MHUNet) [34] modellerini yeni veri seti üzerinde eğittik. . Dört deney gerçekleştirdik: i) yazarlar tarafından sağlanan SoP önceden eğitilmiş modeli değerlendirdik; ii) SoP'yi sıfırdan eğittik; iii) MUSIC'te önceden eğitilmiş modelin ağırlıklarından başlayarak Solo'larda SoP'ye ince ayar yaptık ve iv) Çok kafalı U-Net'i sıfırdan eğittik. MHU-Net, sonuçları iyileştirdiği için müfredat öğrenme prosedürünü izleyerek iki ila yedi arasında değişen kaynak sayısına sahip karışımları ayırmak üzere eğitilmiştir. SoP, [23]'te açıklanan optimal stratejiye göre eğitilmiştir.


Değerlendirme, sağladıkları gerçek karışımlar kullanılarak URMP veri seti [1] üzerinde gerçekleştirilir. URMP izleri sırayla 6 saniyelik bölümlere bölünür. Sonuçta ortaya çıkan tüm bölünmelerden metrikler elde edilir.


A. Mimariler ve eğitim detayları


Ağırlıkları halka açık olduğundan ve ağ basit bir şekilde eğitildiğinden temel olarak Piksellerin Sesi'ni seçtik. SoP üç ana alt ağdan oluşur: Video analiz ağı olarak genişletilmiş bir ResNet [35], ses işleme ağı olarak bir U-Net [36] ve bir ses sentezleyici ağı. Ayrıca sonuçlarını Çok kafalı U-Net [34] ile karşılaştırıyoruz.


U-Net [37], arada atlama bağlantıları bulunan bir kodlayıcı-kod çözücü mimarisidir. Bağlantıları atlamak, orijinal mekansal yapının kurtarılmasına yardımcı olur. MHU-Net mümkün olduğu kadar çok sayıda kod çözücüden oluştuğu için ileriye doğru bir adımdır. Her kod çözücü tek bir kaynakta uzmanlaşarak performansı artırır.


Piksellerin Sesi [23], biyomedikal görüntüleme için önerilen orijinal UNet mimarisini takip etmez, ancak şarkı söyleme sesi ayrımı için ayarlanmış olan [36]'da açıklanan UNet mimarisini takip etmez. Blok başına iki evrişim ve ardından maksimum havuzlama yerine, tek bir evrişim kullanırlar.


Şekil 2. Dikkate alınan mimariler. Sol, Piksellerin Sesi: Ağ, girdi olarak bir karışım spektrogramını alır ve istenen kaynağın görsel özellik vektörüne göre bir ikili maske döndürür. Sağ, Çok Kafalı U-Net: Giriş olarak bir karışım spektrogramı alır ve kod çözücü başına bir tane olmak üzere 13 oran maskesi döndürür.


daha büyük bir çekirdek ve uzun adımlarla ilerlemek. Orijinal çalışma, öğrenilebilir parametrelere sahip merkezi bir blok önerirken, merkezi blok SoP'de statik bir gizli alandır. U-Net, görüntü oluşturma [38], gürültü bastırma ve süper çözünürlük [39], görüntüden görüntüye çeviri [40], görüntü bölütleme [37] veya ses kaynağı gibi görevler için çeşitli mimarilerin omurgası olarak yaygın şekilde kullanılmaktadır. ayırma [36]. SoP U-Net sırasıyla 32, 64, 128, 256, 512, 512 ve 512 kanallı 7 bloktan oluşur (MHU-Net için 6 blok). Gizli alan kodlayıcının son çıkışı olarak düşünülebilir. Dilated ResNet, sonuçta ortaya çıkan uzamsal çözünürlüğü arttırırken alıcı alanı korumak için genişletilmiş evrişimlerden yararlanan ResNet benzeri bir mimaridir. U-Net'in çıkışı, SoP durumunda giriş spektrogramıyla aynı boyutta olan ve MHU-Net durumunda kod çözücü başına tek bir kaynak olan 32 spektral bileşenden (kanal) oluşan bir dizidir. Temsili bir çerçeve verildiğinde, Dilated ResNet kullanılarak görsel özellikler elde edilir. Bu görsel özellikler, uygun spektral bileşenleri seçmek için kullanılan (UNet'in çıkış kanallarının sayısına karşılık gelen) 32 öğeden oluşan bir vektörden başka bir şey değildir. Bu seçim, 32 öğrenilebilir parametre (αk) ve bir sapma (β)'dan oluşan ses analiz ağı tarafından gerçekleştirilir. Bu işlem matematiksel olarak şu şekilde açıklanabilir:



burada Sk(t, f), zaman-frekans bölmesindeki (t, f) k'inci tahmin edilen spektral bileşendir.


Şekil 2 SoP konfigürasyonunu göstermektedir. Görsel ağın spektral bileşenleri seçmesini sağlamanın, onu dolaylı olarak aktivasyon haritaları aracılığıyla çıkarılabilecek enstrüman lokalizasyonunu öğrenmeye zorladığını vurgulamak ilginçtir.




Hem SoP hem de MHU-Net için temel gerçek maske hesaplaması Denklem 2'de açıklanmıştır. (2) ve Denk. (3), Bölüm. IV-C.


B. Veri ön işleme


Bahsi geçen mimarileri eğitmek amacıyla ses 11025 Hz ve 16 bit'e yeniden örneklenmiştir. Ağa beslenen numuneler 6 saniye sürer. Dalga formlarının zaman-frekans gösterimlerini elde etmek için Kısa Zamanlı Fourier Dönüşümü'nü (STFT) kullanıyoruz. [23]'ü takip ederek STFT, 1022 uzunluğundaki Hanning penceresi ve 256 atlama uzunluğundaki Hanning penceresi kullanılarak hesaplanır, böylece 6 saniyelik bir numune için 512x256 boyutunda bir spektrogram elde ederiz. Daha sonra, frekans ekseninde düşük frekansları genişleten ve yüksek frekansları sıkıştıran bir log yeniden ölçeklendirme uyguluyoruz. Son olarak, büyüklük spektrogramlarını, her spektrogramın minimum değerine göre dB'ye dönüştürüyoruz ve -1 ile 1 arasında normalleştiriyoruz.


C. Temel gerçeklik maskesi


Temel doğruluk maskesi hesaplamalarına geçmeden önce bazı hususlara dikkat çekmek istiyoruz. Standart kayan noktalı ses formatı, -1 ile 1 arasında sınırlanacak bir dalga biçimini zorunlu kılar. Yapay karışımlar oluşturulduğunda ortaya çıkan dalga biçimleri bu sınırların dışında olabilir. Bu, sinir ağlarının aşırı uyum için kısayollar bulmasına yardımcı olabilir. Bu davranışı önlemek için spektrogramlar zaman-frekans alanındaki eşdeğer sınırlara göre sıkıştırılır.


Ayrık Kısa Zamanlı Fourier Dönüşümü [42]'de açıklandığı gibi hesaplanabilir:



TABLO II KIYASLAMA SONUÇLARI (ORTALAMA ± STANDART SAPMA). SOP: PİKSELLERİN SESİ ORİJİNAL AĞIRLIKLARI, SOP-SOLOS: SOLOS'TA SIFIRDAN EĞİTİMLENDİRİLMİŞ PİKSELLERİN SESİ. SOP-FT: SOLOS'TA İNCE AYARLANMIŞ PİKSELLERİN SESİ. MHU-NET: 13 KOD ÇÖZÜCÜLÜ ÇOK KAFALI U-NET.


Piksellerin Sesini eğitmek için temel gerçeklik maskeleri olarak tamamlayıcı ikili maskeler kullandık ve şu şekilde tanımlandık:



Çok kafalı U-Net, şu şekilde tanımlanan tamamlayıcı oran maskeleriyle eğitilmiştir:



D. Sonuçlar


[43]'te önerilen Kaynak-Bozulma Oranı (SDR), Kaynak-Müdahale Oranı (SIR), Kaynak-Yapıt Oranı (SAR) için kıyaslama sonuçları ortalama ve standart sapma açısından Tablo II'de gösterilmektedir. Görüldüğü üzere orijinal ağırlıkları kullanılarak değerlendirilen Sound of Pixels en kötü performansı sergiliyor. Bunun olası bir nedeni, MUSIC veri kümesinde bazı URMP kategorilerinin bulunmaması olabilir. Ağı Solo'larda sıfırdan eğitirsek sonuçlar neredeyse 1 dB artar. Ancak, MUSIC ile önceden eğitilmiş ağ üzerinde Solo'larda ince ayar yaparak daha da iyi bir sonuç elde etmek mümkündür. Ağın çok daha fazla eğitim verisine maruz kalmasıyla iyileşmenin meydana geldiğini varsayıyoruz. Ayrıca tablo sonuçları, MHU-Net gibi daha güçlü mimariler kullanılarak daha yüksek performansa ulaşmanın nasıl mümkün olabileceğini gösteriyor.