paint-brush
Solos: um conjunto de dados para análise musical audiovisual - Resumo e introduçãopor@kinetograph
160 leituras

Solos: um conjunto de dados para análise musical audiovisual - Resumo e introdução

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam Solos, um conjunto de dados limpo de performances musicais solo para treinar modelos de aprendizado de máquina em várias tarefas audiovisuais.
featured image - Solos: um conjunto de dados para análise musical audiovisual - Resumo e introdução
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(3) Gloria Haro, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]}.

Tabela de links


Abstrato

Neste artigo, apresentamos um novo conjunto de dados de vídeos de performance musical que pode ser usado para treinar métodos de aprendizado de máquina para múltiplas tarefas, como separação e localização cega de fontes audiovisuais, correspondências intermodais, geração intermodal e, em geral, qualquer tarefa audiovisual autosupervisionada. Esses vídeos, coletados no YouTube, consistem em apresentações musicais solo de 13 instrumentos diferentes. Comparado aos conjuntos de dados audiovisuais propostos anteriormente, Solos é mais limpo, pois grande parte de suas gravações são audições e gravações verificadas manualmente, garantindo que não haja ruído de fundo nem efeitos adicionados no pós-processamento do vídeo. Além disso, é, até onde sabemos, o único conjunto de dados que contém todo o conjunto de instrumentos presentes no conjunto de dados URMP [1], um conjunto de dados de alta qualidade de 44 gravações audiovisuais de peças de música clássica multiinstrumentais com faixas individuais. faixas de áudio. O URMP foi planejado para ser usado para separação de fontes, portanto, avaliamos o desempenho no conjunto de dados URMP de dois modelos diferentes de separação de fontes treinados em Solos. O conjunto de dados está disponível publicamente em https://juanfmontesinos.github.io/Solos/


Termos de indexação —audiovisual, conjunto de dados, multimodal, música

I. INTRODUÇÃO

Há um interesse crescente em técnicas multimodais para resolver problemas de recuperação de informação musical (MIR). As performances musicais têm um conteúdo altamente multimodal e as diferentes modalidades envolvidas estão altamente correlacionadas: os sons são emitidos pelo movimento do músico que interpreta e nas performances de música de câmara as partituras constituem uma codificação adicional que também pode ser aproveitada para a análise automática da música [ 2].



Por outro lado, através da inspecção visual da cena podemos extrair informação sobre o número de fontes sonoras, o seu tipo, localização espaço-temporal e também movimento, que naturalmente se relaciona com o som emitido. Além disso, é possível realizar tarefas autossupervisionadas em que uma modalidade supervisiona a outra. Isto implica outro campo de pesquisa, a correspondência cross-modal (CMC). Podemos encontrar trabalhos pioneiros tanto para os problemas BSS quanto para CMC. [11], [12] fazem uso de dados audiovisuais para localização de som e [13], [14], [15] para separação de fala. No contexto da música, a informação visual também provou ajudar os métodos baseados em modelos, tanto na separação da fonte [16], [17] quanto na localização [2]. Com o florescimento das técnicas de aprendizagem profunda, muitos trabalhos recentes exploram conteúdo de áudio e vídeo, para realizar separação de fontes musicais [18]–[20], associação de fontes [21], localização [22] ou ambos [23]. Alguns trabalhos do CMC exploram recursos gerados a partir da sincronização [24], [25] e provam que esses recursos são reutilizáveis para separação de fontes. Esses trabalhos usam redes que foram treinadas de forma auto-supervisionada usando pares de sinais audiovisuais correspondentes/não correspondentes para fins de localização [22] ou a abordagem mix-and-separate para separação de fontes [18]–[20] , [23]. Apesar da aprendizagem profunda ter permitido resolver problemas clássicos de uma forma diferente, também contribuiu para criar novos campos de investigação como a geração crossmodal, em que o objectivo principal é gerar vídeo a partir de áudio [26], [27] ou vice-versa [28]. Trabalhos mais recentes relacionados ao movimento humano fazem uso do esqueleto como uma representação interna do corpo que pode ser posteriormente convertida em vídeo [29], [30] que mostra o potencial dos esqueletos. A principal contribuição deste artigo é Solos, um novo conjunto de dados de gravações de performances musicais de solistas que pode ser usado para treinar redes neurais profundas para qualquer uma das áreas mencionadas. Comparado com um conjunto de dados semelhante de instrumentos musicais apresentado em [23] e sua versão estendida [31], nosso conjunto de dados contém o mesmo tipo de instrumentos de orquestra de câmara presentes no conjunto de dados URMP. Solos é um conjunto de dados de 755 gravações do mundo real coletadas do YouTube que fornece vários recursos ausentes nos conjuntos de dados mencionados acima: esqueletos e carimbos de data/hora de alta qualidade. A localização da fonte geralmente é aprendida indiretamente pelas redes. Assim, fornecer uma localização prática e verdadeira não é simples. No entanto, as redes muitas vezes apontam para as mãos dos jogadores como se fossem a fonte sonora. Esperamos que a localização das mãos possa ajudar a fornecer dicas adicionais para melhorar o BSS audiovisual ou que possa ser usada como localização de fonte verdadeira. Para mostrar os benefícios do uso do Solos treinamos algumas arquiteturas BSS populares e comparamos seus resultados.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.