Auteurs:
(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;
(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;
(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.
Nous avons présenté Solos, un nouvel ensemble de données audiovisuelles d'enregistrements musicaux de solistes, adapté à différentes tâches d'apprentissage auto-supervisées telles que la séparation des sources à l'aide de la stratégie de mixage et de séparation, la localisation sonore, la génération multimodale et la recherche d'éléments audiovisuels. correspondances. Il y a 13 instruments différents dans l'ensemble de données ; ce sont des instruments courants dans les orchestres de chambre et ceux inclus dans l'ensemble de données sur les performances musicales multimodales (URMP) de l'Université de Rochester [1]. Les caractéristiques de l’URMP – petit ensemble de données de performances réelles avec des tiges individuelles de vérité terrain – en font un ensemble de données approprié à des fins de tests, mais à notre connaissance, il n’existe à ce jour aucun ensemble de données à grande échelle avec les mêmes instruments que dans l’URMP. Deux réseaux différents pour la séparation des sources audiovisuelles basés sur l'architecture U-Net ont été formés dans le nouvel ensemble de données et évalués plus en détail dans URMP, montrant l'impact de la formation sur le même ensemble d'instruments que l'ensemble de test. De plus, Solos fournit des squelettes et des horodatages aux intervalles vidéo où les mains sont suffisamment visibles. Ces informations pourraient être utiles à des fins de formation et également pour apprendre à résoudre le problème de la localisation sonore.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan et G. Sharma, « Création d'un ensemble de données de performances de musique classique multipiste pour l'analyse musicale multimodale : défis, perspectives et applications », Transactions IEEE sur le multimédia, vol. 21, non. 2, pp. 522-535, février 2019.
[2] B. Li, K. Dinesh, Z. Duan et G. Sharma, « Voir et écouter : association basée sur la partition des pistes sonores avec les joueurs dans les vidéos de performances de musique de chambre », lors de la Conférence internationale de l'IEEE 2017 sur l'acoustique, la parole et le signal. Traitement (ICASSP). IEEE, 2017, pages 2906 à 2910.
[3] EC Cherry, « Quelques expériences sur la reconnaissance de la parole, avec une et deux oreilles », The Journal of the Acoustical Society of America, vol. 25, non. 5, pages 975 à 979, 1953.
[4] A. Hyvarinen et E. Oja, « Analyse de composants indépendants : algorithmes ¨ et applications », Réseaux de neurones, vol. 13, non. 4-5, pages 411 à 430, 2000.
[5] M. Zibulevsky et BA Pearlmutter, « Séparation aveugle de sources par décomposition clairsemée dans un dictionnaire de signaux », Calcul neuronal, vol. 13, non. 4, pages 863 à 882, 2001.
[6] T. Virtanen, « Séparation monophonique des sources sonores par factorisation matricielle non négative avec des critères de continuité temporelle et de parcimonie », Transactions IEEE sur le traitement de l'audio, de la parole et du langage, vol. 15, non. 3, pages 1066 à 1074, 2007.
[7] DPW Ellis, « Analyse informatique de la scène auditive basée sur la prédiction », Ph.D. thèse, Massachusetts Institute of Technology, 1996.
[8] P. Smaragdis, B. Raj et M. Shashanka, « Un modèle probabiliste à variable latente pour la modélisation acoustique », Avances dans les modèles pour le traitement acoustique, NIPS, vol. 148, p. 8-1, 2006.
[9] P. Chandna, M. Miron, J. Janer et E. Gomez, « Séparation des sources audio monoaurales à l'aide de réseaux neuronaux à convolution profonde », dans Conférence internationale sur l'analyse des variables latentes et la séparation des signaux, 2017, pp. 266.
[10] D. Stoller, S. Ewert et S. Dixon, « Wave-u-net : Un réseau neuronal multi-échelle pour la séparation des sources audio de bout en bout », préimpression arXiv arXiv : 1806.03185, 2018.
[11] JR Hershey et JR Movellan, « Audio vision : Utilisation de la synchronisation audiovisuelle pour localiser les sons », dans Advances in neural information Processing Systems, 2000, pp. 813-819.
[12] E. Kidron, YY Schechner et M. Elad, « Pixels that sound », dans Computer Vision and Pattern Recognition, 2005. CVPR 2005. Conférence de l'IEEE Computer Society sur, vol. 1, 2005, p. 88-95.
[13] T. Darrell, JW Fisher et P. Viola, « Segmentation audiovisuelle et effet cocktail », dans Advances in Multimodal InterfacesICMI 2000, 2000, pp. 32-40.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch et C. Jutten, « Séparation des sources vocales audiovisuelles : une nouvelle approche exploitant la cohérence audiovisuelle des stimuli vocaux », EURASIP Journal on Advances in Signal Processing, vol. 2002, non. 11, p. 382823, 2002.
[15] B. Rivet, L. Girin et C. Jutten, « Mélange du traitement vocal audiovisuel et de la séparation aveugle des sources pour l'extraction de signaux vocaux à partir de mélanges convolutifs », IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, non. 1, pages 96 à 108, 2007.
[16] B. Li, C. Xu et Z. Duan, « Association de sources audiovisuelles pour ensembles à cordes grâce à l'analyse de vibrato multimodal », Proc. Informatique du son et de la musique (SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez et G. Richard, "Guiding audio source séparation by video object information", dans Applications of Signal Processing to Audio and Acoustics (WASPAA ), Atelier IEEE 2017, 2017, pp.
[18] R. Gao et K. Grauman, « Co-séparation des sons d'objets visuels », dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur, 2019, pp. 3879-3888.
[19] H. Zhao, C. Gan, W.-C. Ma et A. Torralba, « Le son des mouvements », dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur, 2019, pp. 1735-1744.
[20] X. Xu, B. Dai et D. Lin, « Séparation visuelle récursive du son utilisant un réseau moins-plus », dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur, 2019, pp.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma et Z. Duan, « Association de sources audiovisuelles en ligne pour les performances de musique de chambre », Transactions de la Société internationale pour la recherche d'informations musicales, vol. 2, non. 1er 2019.
[22] R. Arandjelovic et A. Zisserman, « Des objets qui sonnent », dans ´ Actes de la Conférence européenne de l'IEEE sur la vision par ordinateur, 2018.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott et A. Torralba, « Le son des pixels », dans The European Conference on Computer Vision (ECCV), septembre 2018.
[24] A. Owens et AA Efros, « Analyse de scène audiovisuelle avec fonctionnalités multisensorielles auto-supervisées », préimpression arXiv arXiv : 1804.03641, 2018.
[25] B. Korbar, D. Tran et L. Torresani, « Apprentissage coopératif de modèles audio et vidéo à partir d'une synchronisation auto-supervisée », dans Advances in Neural Information Processing Systems, 2018, pp.
[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein et W. Matusik, « Speech2face : Learning the face Behind a Voice », dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2019, p. 7539-7548.
[27] L. Chen, S. Srivastava, Z. Duan et C. Xu, « Génération audiovisuelle intermodale profonde », dans Actes des ateliers thématiques d'ACM Multimedia 2017, 2017, pp. 349-357.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui et TL Berg, « Du visuel au son : générer un son naturel pour les vidéos dans la nature », dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes , 2018, p. 3550-3558.
[29] E. Shlizerman, LM Dery, H. Schoen et I. Kemelmacher-Shlizerman, « Audio to bodydynamics », CVPR, Conférence de l'IEEE Computer Society sur la vision par ordinateur et la reconnaissance de formes, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens et J. Malik, « Apprendre des styles individuels de gestes conversationnels », dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2019, p. 3497-3506.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo et X. Wang, « Vision-infused deep audio inpainting », dans The IEEE International Conference on Computer Vision (ICCV), octobre 2019.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum et A. Torralba, « Geste musical pour la séparation visuelle du son », dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 2020, pp. . 10 478-10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei et YA Sheikh, « Openpose : estimation de pose 2D multi-personnes en temps réel à l'aide de champs d'affinité de pièces », IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019. .
[34] CSJ Doire et O. Okubadejo, « Apprentissage multitâche entrelacé pour la séparation des sources audio avec des bases de données indépendantes », ArXiv, vol. abs/1908.05182, 2019.
[35] F. Yu, V. Koltun et T. Funkhouser, « Réseaux résiduels dilatés », dans Computer Vision and Pattern Recognition (CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar et T. Weyde, « Singing voice séparation with deep U-Net convolutional Networks », dans la 18e conférence de la Société internationale pour la recherche d'informations musicales. , 2017, p. 23-27.
[37] O. Ronneberger, P. Fischer et T. Brox, « U-net : Réseaux convolutifs pour la segmentation d'images biomédicales », dans Conférence internationale sur le calcul d'images médicales et l'intervention assistée par ordinateur. Springer, 2015, p. 234-241.
[38] G. Liu, J. Si, Y. Hu et S. Li, « Synthèse d'images photographiques avec u-net amélioré », dans Tenth International Conference on Advanced Computational Intelligence (ICACI), mars 2018, pp. 402. –407.
[39] X. Mao, C. Shen et Y.-B. Yang, « Restauration d'images utilisant des réseaux de codeurs-décodeurs convolutifs très profonds avec des connexions à sauts symétriques », dans Advances in neural information Processing Systems, 2016, pp. 2802-2810.
[40] P. Isola, J.-Y. Zhu, T. Zhou et AA Efros, « Traduction d'image à image avec des réseaux contradictoires conditionnels », arxiv, 2016.
[41] DP Kingma et J. Ba, « Adam : Une méthode d'optimisation stochastique », CoRR, vol. abs/1412.6980, 2014.
[42] « Chapitre 7 - Traitement du domaine fréquentiel », dans Digital Signal Processing System Design (deuxième édition), deuxième édition, N. Kehtarnavaz, Ed. Burlington : Academic Press, 2008, pp. 175-196.
[43] E. Vincent, R. Gribonval et C. Fevotte, « Mesure des performances dans la séparation aveugle des sources audio », IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, non. 4, pages 1462 à 1469, 2006.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.