paint-brush
Solos: un conjunto de datos para el análisis de música audiovisual: conclusiones y referenciaspor@kinetograph
123 lecturas

Solos: un conjunto de datos para el análisis de música audiovisual: conclusiones y referencias

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan Solos, un conjunto de datos limpio de interpretaciones musicales en solitario para entrenar modelos de aprendizaje automático en diversas tareas audiovisuales.
featured image - Solos: un conjunto de datos para el análisis de música audiovisual: conclusiones y referencias
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};

(3) Gloria Haro, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]}.

Tabla de enlaces

V. CONCLUSIONES

Hemos presentado Solos, un nuevo conjunto de datos audiovisuales de grabaciones musicales de solistas, adecuado para diferentes tareas de aprendizaje autosupervisadas, como la separación de fuentes mediante la estrategia de mezclar y separar, localización de sonido, generación intermodal y búsqueda de material audiovisual. correspondencias. Hay 13 instrumentos diferentes en el conjunto de datos; Estos son instrumentos comunes en las orquestas de cámara y los incluidos en el conjunto de datos de interpretación musical multimodal (URMP) de la Universidad de Rochester [1]. Las características de URMP (pequeño conjunto de datos de actuaciones reales con tallos individuales reales) lo convierten en un conjunto de datos adecuado para fines de prueba, pero hasta donde sabemos, hasta la fecha no existe ningún conjunto de datos a gran escala con los mismos instrumentos que en URMP. En el nuevo conjunto de datos se entrenaron dos redes diferentes para la separación de fuentes audiovisuales basadas en la arquitectura U-Net y se evaluaron más a fondo en URMP, lo que muestra el impacto del entrenamiento en el mismo conjunto de instrumentos que el conjunto de prueba. Además, Solos proporciona esqueletos y marcas de tiempo para los intervalos de vídeo en los que las manos son suficientemente visibles. Esta información podría ser útil con fines formativos y también para aprender a resolver la tarea de localización de sonido.

REFERENCIAS

[1] B. Li, X. Liu, K. Dinesh, Z. Duan y G. Sharma, “Creación de un conjunto de datos de interpretación de música clásica multipista para análisis de música multimodal: desafíos, conocimientos y aplicaciones”, IEEE Transactions on Multimedia, vol. 21, núm. 2, págs. 522–535, febrero de 2019.


[2] B. Li, K. Dinesh, Z. Duan y G. Sharma, “Ver y escuchar: asociación informada por partituras de pistas sonoras con reproductores en videos de interpretación de música de cámara”, en la Conferencia Internacional IEEE sobre Acústica, Habla y Señal de 2017. Procesamiento (ICASSP). IEEE, 2017, págs. 2906–2910.


[3] EC Cherry, “Algunos experimentos sobre el reconocimiento del habla, con uno y dos oídos”, The Journal of the acústica Society of America, vol. 25, núm. 5, págs. 975–979, 1953.


[4] A. Hyvarinen y E. Oja, “Análisis de componentes independientes: algoritmos y aplicaciones”, Redes neuronales, vol. 13, núm. 4-5, págs. 411–430, 2000.


[5] M. Zibulevsky y BA Pearlmutter, “Separación ciega de fuentes por descomposición dispersa en un diccionario de señales”, Computación neuronal, vol. 13, núm. 4, págs. 863–882, 2001.


[6] T. Virtanen, “Separación de fuentes de sonido monoaural mediante factorización matricial no negativa con continuidad temporal y criterios de dispersión”, transacciones IEEE sobre procesamiento de audio, voz y lenguaje, vol. 15, núm. 3, págs. 1066-1074, 2007.


[7] DPW Ellis, “Análisis de escena auditiva computacional basado en predicción”, Ph.D. disertación, Instituto de Tecnología de Massachusetts, 1996.


[8] P. Smaragdis, B. Raj y M. Shashanka, “Un modelo probabilístico de variable latente para el modelado acústico”, Avances en modelos para procesamiento acústico, NIPS, vol. 148, págs. 8-1, 2006.


[9] P. Chandna, M. Miron, J. Janer y E. Gomez, “Separación de fuente de audio monoaural mediante redes neuronales convolucionales profundas”, en Conferencia internacional sobre análisis de variables latentes y separación de señales, 2017, págs. 266.


[10] D. Stoller, S. Ewert y S. Dixon, “Wave-u-net: una red neuronal multiescala para la separación de fuentes de audio de un extremo a otro”, preimpresión de arXiv arXiv:1806.03185, 2018.


[11] JR Hershey y JR Movellan, “Audiovisión: uso de sincronía audiovisual para localizar sonidos”, en Avances en sistemas de procesamiento de información neuronal, 2000, págs. 813–819.


[12] E. Kidron, YY Schechner y M. Elad, “Píxeles que suenan”, en Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 1, 2005, págs. 88–95.


[13] T. Darrell, JW Fisher y P. Viola, “Segmentación audiovisual y efecto cóctel”, en Advances in Multimodal InterfacesICMI 2000, 2000, págs.


[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch y C. Jutten, “Separación de fuentes audiovisuales del habla: un nuevo enfoque que explota la coherencia audiovisual de los estímulos del habla”, EURASIP Journal on Advances in Signal Processing, vol. 2002, núm. 11, pág. 382823, 2002.


[15] B. Rivet, L. Girin y C. Jutten, “Mezcla de procesamiento audiovisual del habla y separación ciega de fuentes para la extracción de señales de voz a partir de mezclas convolutivas”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, núm. 1, págs. 96-108, 2007.


[16] B. Li, C. Xu y Z. Duan, “Asociación de fuentes audiovisuales para conjuntos de cuerdas mediante análisis de vibrato multimodal”, Proc. Computación de Sonido y Música (SMC), 2017.


[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez y G. Richard, ´ “Guía de la separación de fuentes de audio mediante información de objetos de video”, en Aplicaciones de procesamiento de señales al audio y la acústica (WASPAA ), Taller IEEE de 2017, 2017, págs.


[18] R. Gao y K. Grauman, “Co-separación de sonidos de objetos visuales”, en Actas de la Conferencia Internacional IEEE sobre Visión por Computadora, 2019, págs.


[19] H. Zhao, C. Gan, W.-C. Ma y A. Torralba, “El sonido de los movimientos”, en Actas de la Conferencia Internacional IEEE sobre Visión por Computadora, 2019, págs. 1735–1744.


[20] X. Xu, B. Dai y D. Lin, “Separación recursiva de sonido visual usando red menos-más”, en Actas de la Conferencia Internacional IEEE sobre Visión por Computadora, 2019, págs.


[21] B. Li, K. Dinesh, C. Xu, G. Sharma y Z. Duan, “Asociación de fuentes audiovisuales en línea para interpretaciones de música de cámara”, Transactions of the International Society for Music Information Retrieval, vol. 2, núm. 1, 2019.


[22] R. Arandjelovic y A. Zisserman, “Objetos que suenan”, en 'Actas de la Conferencia europea IEEE sobre visión por computadora, 2018.


[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott y A. Torralba, “The sound of pixels”, en The European Conference on Computer Vision (ECCV), septiembre de 2018.


[24] A. Owens y AA Efros, “Análisis de escenas audiovisuales con funciones multisensoriales autosupervisadas”, preimpresión de arXiv arXiv:1804.03641, 2018.


[25] B. Korbar, D. Tran y L. Torresani, “Aprendizaje cooperativo de modelos de audio y video a partir de sincronización autosupervisada”, en Advances in Neural Information Processing Systems, 2018, págs.


[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein y W. Matusik, “Speech2face: Learning the face detrás de una voz”, en Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2019, págs. 7539–7548.


[27] L. Chen, S. Srivastava, Z. Duan y C. Xu, “Profunda generación audiovisual intermodal”, en Actas de los talleres temáticos de ACM Multimedia 2017, 2017, págs.


[28] Y. Zhou, Z. Wang, C. Fang, T. Bui y TL Berg, “Visual to sound: Generating natural sound for videos in the wild”, en Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. , 2018, págs. 3550–3558.


[29] E. Shlizerman, LM Dery, H. Schoen e I. Kemelmacher-Shlizerman, “Dinámica de audio a cuerpo”, CVPR, Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones, 2017.


[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens y J. Malik, “Aprendizaje de estilos individuales de gestos conversacionales”, en Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2019, págs. 3497–3506.


[31] H. Zhou, Z. Liu, X. Xu, P. Luo y X. Wang, “Vision-infused deep audio inpainting”, en la Conferencia Internacional IEEE sobre Visión por Computadora (ICCV), octubre de 2019.


[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum y A. Torralba, “Gesto musical para la separación del sonido visual”, en Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, 2020, págs. 10 478–10 487.


[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei y YA Sheikh, “Openpose: estimación de pose 2D para varias personas en tiempo real utilizando campos de afinidad parcial”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019 .


[34] CSJ Doire y O. Okubadejo, “Aprendizaje multitarea entrelazado para la separación de fuentes de audio con bases de datos independientes”, ArXiv, vol. abs/1908.05182, 2019.


[35] F. Yu, V. Koltun y T. Funkhouser, “Redes residuales dilatadas”, en Computer Vision and Pattern Recognition (CVPR), 2017.


[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar y T. Weyde, “Separación de voces cantando con redes convolucionales profundas U-Net”, en la 18ª Conferencia de la Sociedad Internacional para la Recuperación de Información Musical , 2017, págs. 23-27.


[37] O. Ronneberger, P. Fischer y T. Brox, “U-net: redes convolucionales para la segmentación de imágenes biomédicas”, en la Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora. Springer, 2015, págs. 234–241.


[38] G. Liu, J. Si, Y. Hu y S. Li, “Síntesis de imágenes fotográficas con u-net mejorado”, en 2018 Décima Conferencia Internacional sobre Inteligencia Computacional Avanzada (ICACI), marzo de 2018, págs. 402 –407.


[39] X. Mao, C. Shen e Y.-B. Yang, “Restauración de imágenes utilizando redes codificadoras-decodificadoras convolucionales muy profundas con conexiones de salto simétricas”, en Avances en sistemas de procesamiento de información neuronal, 2016, págs. 2802–2810.


[40] P. Isola, J.-Y. Zhu, T. Zhou y AA Efros, “Traducción de imagen a imagen con redes adversarias condicionales”, arxiv, 2016.


[41] DP Kingma y J. Ba, “Adam: Un método para la optimización estocástica”, CoRR, vol. abs/1412.6980, 2014.


[42] “Capítulo 7: procesamiento en el dominio de la frecuencia”, en Diseño de sistemas de procesamiento de señales digitales (segunda edición), segunda edición ed., N. Kehtarnavaz, Ed. Burlington: Academic Press, 2008, págs. 175 – 196.


[43] E. Vincent, R. Gribonval y C. Fevotte, “Medición del rendimiento en separación ciega de fuentes de audio”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, núm. 4, págs. 1462-1469, 2006.

Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.