Autores:
(1) Juan F. Montesinos, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(2) Olga Slizovskaia, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(3) Gloria Haro, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]}.
El conjunto de datos de interpretación musical multimodal (URMP) de la Universidad de Rochester [1] es un conjunto de datos con 44 grabaciones de vídeo multiinstrumental de piezas de música clásica. Cada instrumento presente en una pieza fue grabado por separado, tanto con video como con audio de alta calidad con un micrófono independiente, para tener pistas individuales reales. Aunque se tocaron por separado, los instrumentos se coordinaron mediante el uso de un vídeo de dirección con un pianista tocando para establecer el tiempo común para los diferentes intérpretes. Después de la sincronización, el audio de los vídeos individuales fue reemplazado por el audio de alta calidad del micrófono y luego se ensamblaron diferentes grabaciones para crear la mezcla: las grabaciones de audio individuales de alta calidad se sumaron para crear la mezcla de audio y el contenido visual. se compuso en un solo vídeo con un fondo común donde todos los jugadores estaban dispuestos en el mismo nivel de izquierda a derecha. Para cada pieza, el conjunto de datos proporciona la partitura musical en formato MIDI, las grabaciones de audio de instrumentos individuales de alta calidad y los vídeos de las piezas ensambladas. Los instrumentos presentes en el conjunto de datos, que se muestran en la Figura 1, son instrumentos comunes en las orquestas de cámara. A pesar de todas sus buenas características, es un conjunto de datos pequeño y, por lo tanto, no es apropiado para entrenar arquitecturas de aprendizaje profundo.
Recientemente se han presentado otros dos conjuntos de datos de grabaciones audiovisuales de interpretaciones de instrumentos musicales: Music [23] y MusicES [31]. La música consta de 536 grabaciones de solos y 149 vídeos de dúos en 11 categorías: acordeón, guitarra acústica, violonchelo, clarinete, erhu, flauta, saxofón, trompeta, tuba, violín y xilófono. Este conjunto de datos se recopiló consultando a YouTube. MusicES [31] es una extensión de MUSIC que ocupa alrededor del triple de su tamaño original con aproximadamente 1475 grabaciones, pero divididas en 9 categorías: acordeón, guitarra, violonchelo, flauta, saxofón, trompeta, tuba, violín y xilófono. Hay 7 categorías comunes en MÚSICA y Solos: violín, violonchelo, flauta, clarinete, saxofón, trompeta y tuba. Las categorías comunes entre MusicES y Solos son 6 (las primeras excepto clarinete). Solos y MusicES son complementarios. Sólo hay una pequeña intersección del 5% entre ambos, lo que significa que ambos conjuntos de datos se pueden combinar en uno más grande.
Podemos encontrar en la literatura varios ejemplos que muestran la utilidad de los conjuntos de datos audiovisuales. Sound of Pixels [23] realiza la separación de fuentes de audio generando componentes espectrales de audio que se seleccionan de manera inteligente mediante el uso de características visuales provenientes de la transmisión de video para obtener fuentes separadas. Esta idea se amplió aún más en [20] para separar los diferentes sonidos presentes en la mezcla de forma recursiva. En cada etapa, el sistema separa la fuente más saliente de las que quedan en la mezcla. The Sound of Motions [19] utiliza trayectorias densas obtenidas del flujo óptico para condicionar la separación de la fuente de audio, pudiendo
incluso para separar mezclas del mismo instrumento. El condicionamiento visual también se utiliza en [18] para separar diferentes instrumentos; Durante el entrenamiento, se utiliza una pérdida de clasificación en los sonidos separados para reforzar la coherencia del objeto y una pérdida de co-separación obliga a los sonidos individuales estimados a producir las mezclas originales una vez reensamblados. En [17], los autores desarrollaron un método basado en energía que minimiza un término de factorización de matriz no negativa con una matriz de activación que se ve obligada a alinearse con una matriz que contiene información de movimiento por fuente. Esta matriz de movimiento contiene las velocidades de magnitud promedio de las trayectorias de movimiento agrupadas en el cuadro delimitador de cada jugador.
Trabajos recientes muestran el creciente uso de esqueletos en tareas audiovisuales. En Audio to bodydynamics [29] los autores muestran que es posible predecir esqueletos que reproducen los movimientos de los músicos que tocan instrumentos como el piano o el violín. Los esqueletos han demostrado ser útiles para establecer correspondencias audiovisuales, como el movimiento del cuerpo o de los dedos con el inicio de notas o las fluctuaciones de tono, en interpretaciones de música de cámara [21]. Un trabajo reciente [32] aborda el problema de separación de fuentes de manera similar a Sound of Motions [19] pero reemplazando las trayectorias densas por información esquelética.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.