Autoren:
(1) Juan F. Montesinos, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};
(2) Olga Slizovskaia, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};
(3) Gloria Haro, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]}.
Wir haben Solos vorgestellt, einen neuen audiovisuellen Datensatz mit Musikaufnahmen von Solisten, der sich für verschiedene selbstüberwachte Lernaufgaben eignet, wie Quellentrennung mit der Mix-and-Separate-Strategie, Klanglokalisierung, modalübergreifende Generierung und das Finden audiovisueller Korrespondenzen. Der Datensatz enthält 13 verschiedene Instrumente; dabei handelt es sich um gängige Instrumente in Kammerorchestern und um solche, die im Datensatz Multi-Modal Music Performance (URMP) der University of Rochester [1] enthalten sind. Die Eigenschaften von URMP – ein kleiner Datensatz mit realen Aufführungen mit Ground-Truth-Einzelstämmen – machen ihn zu einem geeigneten Datensatz für Testzwecke, aber unseres Wissens nach gibt es bis heute keinen groß angelegten Datensatz mit denselben Instrumenten wie in URMP. Zwei verschiedene Netzwerke zur audiovisuellen Quellentrennung basierend auf der U-Net-Architektur wurden mit dem neuen Datensatz trainiert und in URMP weiter ausgewertet, was die Auswirkungen des Trainings auf denselben Instrumentensatz wie im Testsatz zeigt. Darüber hinaus bietet Solos Skelette und Zeitstempel für Videointervalle, in denen die Hände ausreichend sichtbar sind. Diese Informationen könnten für Schulungszwecke und auch zum Erlernen der Lösung der Aufgabe der Schalllokalisierung nützlich sein.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan und G. Sharma, „Erstellen eines mehrspurigen Datensatzes für klassische Musikdarbietungen für die multimodale Musikanalyse: Herausforderungen, Erkenntnisse und Anwendungen“, IEEE Transactions on Multimedia, Bd. 21, Nr. 2, S. 522–535, Februar 2019.
[2] B. Li, K. Dinesh, Z. Duan und G. Sharma, „Sehen und hören: Partiturbasierte Zuordnung von Tonspuren zu Spielern in Videos von Kammermusikaufführungen“, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, S. 2906–2910.
[3] EC Cherry, „Einige Experimente zur Spracherkennung mit einem und mit zwei Ohren“, The Journal of the acoustical society of America, Bd. 25, Nr. 5, S. 975–979, 1953.
[4] A. Hyvarinen und E. Oja, „Unabhängige Komponentenanalyse: Algorithmen und Anwendungen“, Neural Networks, Bd. 13, Nr. 4-5, S. 411–430, 2000.
[5] M. Zibulevsky und BA Pearlmutter, „Blind source separation by sparse decomposition in a signal dictionary“, Neural calculation, Bd. 13, Nr. 4, S. 863–882, 2001.
[6] T. Virtanen, „Monaurale Schallquellentrennung durch nichtnegative Matrixfaktorisierung mit Kriterien der zeitlichen Kontinuität und Spärlichkeit“, IEEE Transactions on Audio, Speech, and Language Processing, Bd. 15, Nr. 3, S. 1066–1074, 2007.
[7] DPW Ellis, „Prediction-driven computing auditory scene analysis“, Dissertation, Massachusetts Institute of Technology, 1996.
[8] P. Smaragdis, B. Raj und M. Shashanka, „Ein probabilistisches latentes Variablenmodell für die akustische Modellierung“, Fortschritte bei Modellen für die akustische Verarbeitung, NIPS, Bd. 148, S. 8–1, 2006.
[9] P. Chandna, M. Miron, J. Janer und E. Gomez, „Monoaurale Audioquellentrennung mithilfe tiefer Convolutional Neural Networks“, in Internationale Konferenz zur Analyse latenter Variablen und Signaltrennung, 2017, S. 258–266.
[10] D. Stoller, S. Ewert und S. Dixon, „Wave-u-net: Ein mehrskaliges neuronales Netzwerk zur End-to-End-Trennung von Audioquellen“, arXiv-Vorabdruck arXiv:1806.03185, 2018.
[11] JR Hershey und JR Movellan, „Audiovision: Verwendung audiovisueller Synchronizität zur Lokalisierung von Geräuschen“, in Advances in neural information processing systems, 2000, S. 813–819.
[12] E. Kidron, YY Schechner und M. Elad, „Pixels that sound“, in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Bd. 1, 2005, S. 88–95.
[13] T. Darrell, JW Fisher und P. Viola, „Audiovisuelle Segmentierung und der Cocktailparty-Effekt“, in Advances in Multimodal InterfacesICMI 2000, 2000, S. 32–40.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch und C. Jutten, „Trennung audiovisueller Sprachquellen: ein neuer Ansatz zur Ausnutzung der audiovisuellen Kohärenz von Sprachreizen“, EURASIP Journal on Advances in Signal Processing, Bd. 2002, Nr. 11, S. 382823, 2002.
[15] B. Rivet, L. Girin und C. Jutten, „Mischen audiovisueller Sprachverarbeitung und blinder Quellentrennung zur Extraktion von Sprachsignalen aus konvolutionären Mischungen“, IEEE Transactions on Audio, Speech, and Language Processing, Bd. 15, Nr. 1, S. 96–108, 2007.
[16] B. Li, C. Xu und Z. Duan, „Audiovisuelle Quellenassoziation für Streichensembles durch multimodale Vibratoanalyse“, Proc. Sound and Music Computing (SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez und G. Richard, „Guiding audio source separation by video object information“, in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017 IEEE Workshop on, 2017, S. 61–65.
[18] R. Gao und K. Grauman, „Co-separating sounds of visual objects“, in Proceedings of the IEEE International Conference on Computer Vision, 2019, S. 3879–3888.
[19] H. Zhao, C. Gan, W.-C. Ma und A. Torralba, „The sound of motions“, in Proceedings of the IEEE International Conference on Computer Vision, 2019, S. 1735–1744.
[20] X. Xu, B. Dai und D. Lin, „Rekursive visuelle Tontrennung mit Minus-Plus-Netz“, in Proceedings der IEEE International Conference on Computer Vision, 2019, S. 882–891.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma und Z. Duan, „Online audio-visual source association for chamber music performances“, Transactions of the International Society for Music Information Retrieval, Bd. 2, Nr. 1, 2019.
[22] R. Arandjelovic und A. Zisserman, „Objects that sound“, in: Proceedings der IEEE European Conference on Computer Vision, 2018.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott und A. Torralba, „The sound of pixels“, in der European Conference on Computer Vision (ECCV), September 2018.
[24] A. Owens und AA Efros, „Audiovisuelle Szenenanalyse mit selbstüberwachten multisensorischen Funktionen“, arXiv-Preprint arXiv:1804.03641, 2018.
[25] B. Korbar, D. Tran und L. Torresani, „Kooperatives Lernen von Audio- und Videomodellen durch selbstüberwachte Synchronisierung“, in Advances in Neural Information Processing Systems, 2018, S. 7763–7774.
[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein und W. Matusik, „Speech2face: Das Gesicht hinter einer Stimme lernen“, in Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, 2019, S. 7539–7548.
[27] L. Chen, S. Srivastava, Z. Duan und C. Xu, „Deep cross-modal audiovisual generation“, in Proceedings of the on Thematic Workshops of ACM Multimedia 2017, 2017, S. 349–357.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui und TL Berg, „Visual to Sound: Generieren von natürlichem Ton für Videos in der freien Wildbahn“, in Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, 2018, S. 3550–3558.
[29] E. Shlizerman, LM Dery, H. Schoen und I. Kemelmacher-Shlizerman, „Audio-to-Body-Dynamik“, CVPR, IEEE Computer Society-Konferenz zu Computer Vision und Mustererkennung, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens und J. Malik, „Erlernen individueller Stile von Konversationsgesten“, in Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, 2019, S. 3497–3506.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo und X. Wang, „Vision-infused deep audio inpainting“, in der IEEE International Conference on Computer Vision (ICCV), Oktober 2019.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum und A. Torralba, „Musikgeste zur visuellen Klangtrennung“, in Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, 2020, S. 10 478–10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei und YA Sheikh, „Openpose: Echtzeit-Schätzung der 2D-Pose mehrerer Personen unter Verwendung von Teilaffinitätsfeldern“, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[34] CSJ Doire und O. Okubadejo, „Interleaved multitask learning for audio source separation with independent databases“, ArXiv, vol. abs/1908.05182, 2019.
[35] F. Yu, V. Koltun und T. Funkhouser, „Dilated residual networks“, in Computer Vision and Pattern Recognition (CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar und T. Weyde, „Singing voice separation with deep U-Net convolutional networks“, in 18. International Society for Music Information Retrieval Conference, 2017, S. 23–27.
[37] O. Ronneberger, P. Fischer und T. Brox, „U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung“, in Internationale Konferenz für medizinisches Bildcomputing und computergestützte Intervention. Springer, 2015, S. 234–241.
[38] G. Liu, J. Si, Y. Hu und S. Li, „Fotografische Bildsynthese mit verbessertem u-net“, in 2018 Zehnte Internationale Konferenz für Advanced Computational Intelligence (ICACI), März 2018, S. 402–407.
[39] X. Mao, C. Shen und Y.-B. Yang, „Bildwiederherstellung mithilfe sehr tiefer Convolutional-Encoder-Decoder-Netzwerke mit symmetrischen Skip-Verbindungen“, in Advances in neural information processing systems, 2016, S. 2802–2810.
[40] P. Isola, J.-Y. Zhu, T. Zhou und AA Efros, „Bild-zu-Bild-Übersetzung mit bedingten kontradiktorischen Netzwerken“, arxiv, 2016.
[41] DP Kingma und J. Ba, „Adam: Eine Methode zur stochastischen Optimierung“, CoRR, vol. abs/1412.6980, 2014.
[42] „Kapitel 7 - Frequenzbereichsverarbeitung“, in Digital Signal Processing System Design (zweite Ausgabe), zweite Ausgabe, N. Kehtarnavaz, Hrsg. Burlington: Academic Press, 2008, S. 175 – 196.
[43] E. Vincent, R. Gribonval und C. Fevotte, „Leistungsmessung bei blinder Audioquellentrennung“, IEEE Transactions on Audio, Speech, and Language Processing, Bd. 14, Nr. 4, S. 1462–1469, 2006.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .