paint-brush
Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Résumé et introductionpar@kinetograph
160 lectures

Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Résumé et introduction

Trop long; Pour lire

Dans cet article, les chercheurs présentent Solos, un ensemble de données claires de performances musicales en solo pour former des modèles d'apprentissage automatique sur diverses tâches audiovisuelles.
featured image - Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Résumé et introduction
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.

Tableau des liens


Abstrait

Dans cet article, nous présentons un nouvel ensemble de données de vidéos de performances musicales qui peuvent être utilisées pour entraîner des méthodes d'apprentissage automatique pour de multiples tâches telles que la séparation et la localisation aveugles de sources audiovisuelles, les correspondances intermodales, la génération intermodale et, en général, toute tâche audiovisuelle auto-supervisée. Ces vidéos, rassemblées sur YouTube, consistent en des performances musicales en solo de 13 instruments différents. Par rapport aux ensembles de données audiovisuels proposés précédemment, Solos est plus propre puisqu'une grande partie de ses enregistrements sont des auditions et des enregistrements vérifiés manuellement, garantissant qu'il n'y a pas de bruit de fond ni d'effets ajoutés dans le post-traitement vidéo. En outre, il s'agit, à notre connaissance, du seul ensemble de données contenant l'ensemble des instruments présents dans l'ensemble de données URMP [1], un ensemble de données de haute qualité de 44 enregistrements audiovisuels de morceaux de musique classique multi-instruments avec des enregistrements individuels. pistes audio. URMP était destiné à être utilisé pour la séparation de sources. Nous évaluons donc les performances sur l'ensemble de données URMP de deux modèles de séparation de sources différents formés sur Solos. L'ensemble de données est accessible au public sur https://juanfmontesinos.github.io/Solos/


Termes de l'index : audiovisuel, ensemble de données, multimodal, musique

INTRODUCTION

Il existe un intérêt croissant pour les techniques multimodales permettant de résoudre les problèmes de recherche d’informations musicales (MIR). Les performances musicales ont un contenu hautement multimodal et les différentes modalités impliquées sont fortement corrélées : les sons sont émis par le mouvement du musicien qui joue et dans les performances de musique de chambre, les partitions constituent un encodage supplémentaire qui peut également être exploité pour l'analyse automatique de la musique. 2].



D'un autre côté, en inspectant visuellement la scène, nous pouvons extraire des informations sur le nombre de sources sonores, leur type, leur emplacement spatio-temporel ainsi que leur mouvement, qui est naturellement lié au son émis. En outre, il est possible d'effectuer des tâches autosupervisées dans lesquelles une modalité supervise l'autre. Cela implique un autre domaine de recherche, la correspondance cross-modale (CMC). Nous pouvons trouver des travaux pionniers pour les problèmes BSS et CMC. [11], [12] utilisent des données audiovisuelles pour la localisation sonore et [13], [14], [15] pour la séparation de la parole. Dans le contexte de la musique, l'information visuelle s'est également avérée utile aux méthodes basées sur des modèles à la fois dans la séparation des sources [16], [17] et dans la localisation [2]. Avec l'essor des techniques d'apprentissage profond, de nombreux travaux récents exploitent à la fois le contenu audio et vidéo pour effectuer la séparation des sources musicales [18]–[20], l'association de sources [21], la localisation [22] ou les deux [23]. Certains travaux de CMC explorent les fonctionnalités générées par la synchronisation [24], [25] et prouvent que ces fonctionnalités sont réutilisables pour la séparation de sources. Ces travaux utilisent des réseaux qui ont été formés de manière auto-supervisée en utilisant des paires de signaux audiovisuels correspondants/non correspondants à des fins de localisation [22] ou l'approche mix-and-separate pour la séparation des sources [18]–[20]. , [23]. Bien que l’apprentissage profond ait permis de résoudre des problèmes classiques d’une manière différente, il a également contribué à créer de nouveaux domaines de recherche comme la génération crossmodale, dans laquelle l’objectif principal est de générer de la vidéo à partir de l’audio [26], [27] ou vice-versa [28]. Des travaux plus récents liés au mouvement humain utilisent le squelette comme représentation intérieure du corps qui peut ensuite être convertie en vidéo [29], [30] qui montre le potentiel des squelettes. La principale contribution de cet article est Solos, un nouvel ensemble de données d'enregistrements de performances musicales de solistes qui peuvent être utilisés pour former des réseaux neuronaux profonds dans l'un des domaines susmentionnés. Comparé à un ensemble de données similaire d'instruments de musique présenté dans [23] et sa version étendue [31], notre ensemble de données contient le même type d'instruments d'orchestre de chambre présent dans l'ensemble de données URMP. Solos est un ensemble de données de 755 enregistrements du monde réel rassemblés sur YouTube qui fournit plusieurs fonctionnalités manquantes dans les ensembles de données susmentionnés : des squelettes et des horodatages de haute qualité. La localisation des sources est généralement apprise indirectement par les réseaux. Ainsi, fournir une vérité terrain de localisation pratique n’est pas simple. Néanmoins, les réseaux désignent souvent les mains des joueurs comme si elles étaient la source sonore. Nous espérons que la localisation des mains pourra contribuer à fournir des indices supplémentaires pour améliorer le BSS audiovisuel ou pourra être utilisée comme source de localisation de la vérité terrain. Afin de montrer les avantages de l'utilisation de Solos, nous avons formé certaines architectures BSS populaires et comparé leurs résultats.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.