paint-brush
Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Expériencespar@kinetograph
169 lectures

Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Expériences

Trop long; Pour lire

Dans cet article, les chercheurs présentent Solos, un ensemble de données claires de performances musicales en solo pour former des modèles d'apprentissage automatique sur diverses tâches audiovisuelles.
featured image - Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Expériences
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.

Tableau des liens

IV. EXPÉRIENCES

Afin de montrer l'adéquation des Solos, nous nous sommes concentrés sur le problème de séparation aveugle des sources et avons formé les modèles The Sound of Pixels (SoP) [23] et Multi-head U-Net (MHUNet) [34] sur le nouvel ensemble de données. . Nous avons réalisé quatre expériences : i) nous avons évalué le modèle pré-entraîné SoP fourni par les auteurs ; ii) nous avons formé SoP à partir de zéro ; iii) nous avons affiné le SoP sur les solos à partir des poids du modèle pré-entraîné sur MUSIC et iv) nous avons formé le U-Net multi-têtes à partir de zéro. MHU-Net a été formé pour séparer les mélanges avec le nombre de sources varié de deux à sept suivant une procédure d'apprentissage du programme car cela améliore les résultats. SoP a été formé selon la stratégie optimale décrite dans [23].


L'évaluation est effectuée sur l'ensemble de données URMP [1] en utilisant les mélanges réels qu'ils fournissent. Les pistes URMP sont divisées séquentiellement en segments d'une durée de 6 secondes. Les métriques sont obtenues à partir de toutes les divisions résultantes.


A. Architectures et détails de la formation


Nous avons choisi The Sound of Pixels comme référence car ses poids sont accessibles au public et le réseau est formé de manière simple. SoP est composé de trois sous-réseaux principaux : Un ResNet dilaté [35] comme réseau d'analyse vidéo, un U-Net [36] comme réseau de traitement audio et un réseau de synthétiseur audio. Nous comparons également ses résultats avec un U-Net multi-têtes [34].


U-Net [37] est une architecture codeur-décodeur avec des connexions sautées entre les deux. Les connexions ignorées aident à récupérer la structure spatiale d'origine. MHU-Net est un pas en avant car il comprend autant de décodeurs que de sources possibles. Chaque décodeur est spécialisé dans une seule source, améliorant ainsi les performances.


Le son des pixels [23] ne suit pas l'architecture originale UNet proposée pour l'imagerie biomédicale, mais l'UNet décrite dans [36], qui a été réglée pour la séparation des voix chantées. Au lieu d'avoir deux convolutions par bloc suivies d'un pooling maximum, ils utilisent une seule convolution avec


Fig. 2. Architectures considérées. À gauche, Sound of Pixels : Le réseau prend en entrée un spectrogramme de mélange et renvoie un masque binaire étant donné le vecteur de caractéristiques visuelles de la source souhaitée. À droite, Multi-Head U-Net : il prend en entrée un spectrogramme de mélange et renvoie 13 masques de rapport, un par décodeur.


un noyau plus gros et une foulée. Le travail original propose un bloc central avec des paramètres apprenables alors que le bloc central est un espace latent statique dans SoP. U-Net a été largement utilisé comme épine dorsale de plusieurs architectures pour des tâches telles que la génération d'images [38], la suppression du bruit et la super-résolution [39], la traduction d'image à image [40], la segmentation d'images [37] ou la source audio. séparation [36]. SoP U-Net se compose de 7 blocs avec respectivement 32, 64, 128, 256, 512, 512 et 512 canaux (6 blocs pour le MHU-Net). L'espace latent peut être considéré comme la dernière sortie du codeur. Dilated ResNet est une architecture de type ResNet qui utilise des convolutions dilatées pour conserver le champ récepteur tout en augmentant la résolution spatiale résultante. La sortie de l'U-Net est un ensemble de 32 composants spectraux (canaux) qui ont la même taille que le spectrogramme d'entrée, dans le cas de SoP, et une seule source par décodeur dans le cas de MHU-Net. Étant donné un cadre représentatif, les caractéristiques visuelles sont obtenues à l’aide du Dilated ResNet. Ces caractéristiques visuelles ne sont rien d'autre qu'un vecteur de 32 éléments (qui correspond au nombre de canaux de sortie d'UNet) qui sont utilisés pour sélectionner les composantes spectrales appropriées. Cette sélection est effectuée par le réseau d'analyse audio composé de 32 paramètres apprenables, αk, plus un biais, β. Cette opération peut être mathématiquement décrite comme suit :



où Sk(t, f) est la k-ème composante spectrale prédite dans l'intervalle temps-fréquence (t, f).


La figure 2 illustre la configuration SoP. Il est intéressant de souligner que la réalisation du réseau visuel pour sélectionner les composantes spectrales l'oblige à apprendre indirectement la localisation des instruments, qui peut être déduite via des cartes d'activation.




Le calcul du masque de vérité terrain pour SoP et MHU-Net est décrit dans l'équation. (2) et l'équation. (3), article. IV-C.


B. Prétraitement des données


Afin d'entraîner les architectures susmentionnées, l'audio est ré-échantillonné à 11 025 Hz et 16 bits. Les échantillons introduits dans le réseau durent 6 secondes. Nous utilisons la transformée de Fourier à court terme (STFT) pour obtenir des représentations temps-fréquence des formes d'onde. D'après [23], STFT est calculé en utilisant une fenêtre de Hanning de longueur 1022 et une longueur de saut de 256 afin d'obtenir un spectrogramme de taille 512×256 pour un échantillon de 6 secondes. Plus tard, nous appliquons une rééchelle logarithmique sur l’axe des fréquences en élargissant les fréquences inférieures et en compressant les fréquences supérieures. Enfin, nous convertissons les spectrogrammes de magnitude en dB par rapport à la valeur minimale de chaque spectrogramme et normalisons entre -1 et 1.


C. Masque de vérité terrain


Avant d’introduire les calculs de masques de vérité terrain, nous aimerions souligner quelques considérations. Le format audio standard à virgule flottante impose qu'une forme d'onde soit limitée entre -1 et 1. Au moment de la création de mélanges artificiels, les formes d'onde résultantes peuvent être en dehors de ces limites. Cela peut aider les réseaux de neurones à trouver des raccourcis pour surajuster. Pour éviter ce comportement, les spectrogrammes sont limités en fonction des limites équivalentes dans le domaine temps-fréquence.


La transformée de Fourier discrète à court terme peut être calculée comme décrit dans [42] :



TABLEAU II RÉSULTATS DE RÉFÉRENCE (MOYENNE ± Écart-type). SOP : SON DE PIXELS POIDS ORIGINAUX, SOP-SOLOS : SON DE PIXELS FORMÉS DE SCRATCH SUR SOLOS. SOP-FT : SON DE PIXELS AFINI SUR SOLOS. MHU-NET : U-NET MULTI-TÊTES AVEC 13 DÉCODEURS.


Pour la formation Sound of Pixels, nous avons utilisé des masques binaires complémentaires comme masques de vérité terrain, définis comme :



Le Multi-head U-Net a été entraîné avec des masques à ratio complémentaire, définis comme :



D. Résultats


Les résultats de référence pour le rapport source sur distorsion (SDR), le rapport source sur interférences (SIR) et le rapport sources sur artefacts (SAR) proposés dans [43] sont présentés dans le tableau II en termes de moyenne et d'écart type. Comme on peut l'observer, Sound of Pixels, évalué à l'aide de ses poids d'origine, est le moins performant. Une raison possible à cela pourrait être l’absence de certaines catégories URMP dans l’ensemble de données MUSIC. Si nous entraînons le réseau à partir de zéro sur Solos, les résultats s'améliorent de près de 1 dB. Cependant, il est possible d'obtenir un résultat encore meilleur en ajustant le réseau, pré-entraîné avec MUSIC, sur Solos. Nous émettons l’hypothèse que l’amélioration se produit à mesure que le réseau est exposé à beaucoup plus de données de formation. De plus, les résultats du tableau montrent comment il est possible d'atteindre des performances plus élevées en utilisant des architectures plus puissantes comme MHU-Net.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.