Autores:
(1) Juan F. Montesinos, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(2) Olga Slizovskaia, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(3) Gloria Haro, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]}.
En este artículo, presentamos un nuevo conjunto de datos de videos de presentaciones musicales que se pueden usar para entrenar métodos de aprendizaje automático para múltiples tareas, como la separación y localización de fuentes audiovisuales ciegas, correspondencias intermodales, generación intermodal y, en general, cualquier tarea audiovisual autodirigida. Estos vídeos, recopilados de YouTube, consisten en interpretaciones musicales en solitario de 13 instrumentos diferentes. En comparación con los conjuntos de datos audiovisuales propuestos anteriormente, Solos es más limpio ya que una gran cantidad de sus grabaciones son audiciones y grabaciones revisadas manualmente, lo que garantiza que no haya ruido de fondo ni efectos agregados en el posprocesamiento del video. Además, es, hasta donde sabemos, el único conjunto de datos que contiene todo el conjunto de instrumentos presentes en el conjunto de datos URMP [1], un conjunto de datos de alta calidad de 44 grabaciones audiovisuales de piezas de música clásica multiinstrumental con pistas de audio. URMP estaba destinado a usarse para la separación de fuentes, por lo tanto, evaluamos el rendimiento en el conjunto de datos URMP de dos modelos diferentes de separación de fuentes entrenados en Solos. El conjunto de datos está disponible públicamente en https://juanfmontesinos.github.io/Solos/
Términos del índice : audiovisual, conjunto de datos, multimodal, música
Existe un interés creciente en técnicas multimodales para resolver problemas de recuperación de información musical (MIR). Las interpretaciones musicales tienen un contenido altamente multimodal y las diferentes modalidades involucradas están altamente correlacionadas: los sonidos son emitidos por el movimiento del intérprete y en las interpretaciones de música de cámara las partituras constituyen una codificación adicional que también puede aprovecharse para el análisis automático de la música. 2].
Por otro lado, al inspeccionar visualmente la escena podemos extraer información sobre el número de fuentes sonoras, su tipo, ubicación espacio-temporal y también el movimiento, que naturalmente se relaciona con el sonido emitido. Además, es posible realizar tareas autosupervisadas en las que una modalidad supervisa a la otra. Esto implica otro campo de investigación, la correspondencia intermodal (CMC). Podemos encontrar trabajos pioneros tanto para los problemas BSS como para CMC. [11], [12] utilizan datos audiovisuales para la localización del sonido y [13], [14], [15] para la separación del habla. En el contexto de la música, la información visual también ha demostrado ayudar a los métodos basados en modelos tanto en la separación de fuentes [16], [17] como en la localización [2]. Con el florecimiento de las técnicas de aprendizaje profundo, muchos trabajos recientes explotan contenido de audio y video para realizar la separación de fuentes musicales [18]-[20], asociación de fuentes [21], localización [22] o ambas [23]. Algunos trabajos de CMC exploran funciones generadas a partir de la sincronización [24], [25] y demuestran que estas funciones son reutilizables para la separación de fuentes. Estos trabajos utilizan redes que han sido entrenadas de forma autosupervisada utilizando pares de señales audiovisuales correspondientes/no correspondientes para fines de localización [22] o el enfoque de mezclar y separar para la separación de fuentes [18]–[20] , [23]. Si bien el aprendizaje profundo permitió resolver problemas clásicos de una manera diferente, también contribuyó a crear nuevos campos de investigación como la generación crossmodal, en la que el objetivo principal es generar vídeo a partir de audio [26], [27] o viceversa [28]. Trabajos más recientes relacionados con el movimiento humano utilizan el esqueleto como una representación interna del cuerpo que puede convertirse en video [29], [30] que muestra el potencial de los esqueletos. La principal contribución de este artículo es Solos, un nuevo conjunto de datos de grabaciones de interpretaciones musicales de solistas que se pueden utilizar para entrenar redes neuronales profundas para cualquiera de los campos antes mencionados. En comparación con un conjunto de datos similar de instrumentos musicales presentado en [23] y su versión extendida [31], nuestro conjunto de datos contiene el mismo tipo de instrumentos de orquesta de cámara presentes en el conjunto de datos URMP. Solos es un conjunto de datos de 755 grabaciones del mundo real recopiladas de YouTube que proporciona varias características que faltan en los conjuntos de datos antes mencionados: esqueletos y marcas de tiempo de alta calidad. La localización de fuentes suele ser aprendida indirectamente por las redes. Por lo tanto, proporcionar una verdad práctica sobre el terreno de localización no es sencillo. Sin embargo, las redes suelen señalar las manos de los jugadores como si fueran la fuente del sonido. Esperamos que la localización de manos pueda ayudar a proporcionar señales adicionales para mejorar el BSS audiovisual o que pueda usarse como localización de la verdad sobre el terreno. Para mostrar los beneficios de usar Solos, entrenamos algunas arquitecturas BSS populares y comparamos sus resultados.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.