paint-brush
Solos: um conjunto de dados para análise musical audiovisual - experimentospor@kinetograph
169 leituras

Solos: um conjunto de dados para análise musical audiovisual - experimentos

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam Solos, um conjunto de dados limpo de performances musicais solo para treinar modelos de aprendizado de máquina em várias tarefas audiovisuais.
featured image - Solos: um conjunto de dados para análise musical audiovisual - experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(3) Gloria Haro, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]}.

Tabela de links

4. EXPERIMENTOS

Para mostrar a adequação dos Solos, nos concentramos no problema de separação cega de fontes e treinamos os modelos The Sound of Pixels (SoP) [23] e Multi-head U-Net (MHUNet) [34] no novo conjunto de dados . Realizamos quatro experimentos: i) avaliamos o modelo pré-treinado do SoP fornecido pelos autores; ii) treinamos SoP do zero; iii) ajustamos o SoP em Solos a partir dos pesos do modelo pré-treinado em MUSIC e iv) treinamos o Multi-head U-Net do zero. A MHU-Net foi treinada para separar misturas com o número de fontes variando de duas a sete seguindo um procedimento de aprendizagem curricular, pois melhora os resultados. O SoP foi treinado de acordo com a estratégia ótima descrita em [23].


A avaliação é realizada no conjunto de dados URMP [1] usando as misturas reais que eles fornecem. As trilhas URMP são divididas sequencialmente em segmentos de duração de 6s. As métricas são obtidas de todas as divisões resultantes.


A. Arquiteturas e detalhes de treinamento


Escolhemos The Sound of Pixels como base porque seus pesos estão disponíveis publicamente e a rede é treinada de maneira direta. O SoP é composto por três sub-redes principais: uma ResNet dilatada [35] como rede de análise de vídeo, uma U-Net [36] como rede de processamento de áudio e uma rede de sintetizador de áudio. Também comparamos seus resultados com uma U-Net Multi-head [34].


U-Net [37] é uma arquitetura codificador-decodificador com conexões de salto entre eles. As conexões saltadas ajudam a recuperar a estrutura espacial original. MHU-Net é um avanço, pois consiste no maior número possível de decodificadores. Cada decodificador é especializado em uma única fonte, melhorando assim o desempenho.


O Sound of Pixels [23] não segue a arquitetura UNet original proposta para imagens biomédicas, mas sim a UNet descrita em [36], que foi ajustada para separação de voz cantada. Em vez de ter duas convoluções por bloco seguidas de max-pooling, eles usam uma única convolução com


Figura 2. Arquiteturas consideradas. À esquerda, Som de Pixels: A rede toma como entrada um espectrograma de mistura e retorna uma máscara binária dado o vetor de característica visual da fonte desejada. Certo, Multi-Head U-Net: recebe como entrada um espectrograma de mistura e retorna 13 máscaras de proporção, uma por decodificador.


um kernel maior e avanço. O trabalho original propõe um bloco central com parâmetros que podem ser aprendidos, enquanto o bloco central é um espaço latente estático em SoP. U-Net tem sido amplamente utilizado como espinha dorsal de diversas arquiteturas para tarefas como geração de imagens [38], supressão de ruído e super-resolução [39], tradução imagem para imagem [40], segmentação de imagens [37] ou fonte de áudio. separação [36]. SoP U-Net consiste em 7 blocos com 32, 64, 128, 256, 512, 512 e 512 canais respectivamente (6 blocos para MHU-Net). O espaço latente pode ser considerado a última saída do codificador. Dilated ResNet é uma arquitetura semelhante ao ResNet que faz uso de convoluções dilatadas para manter o campo receptivo enquanto aumenta a resolução espacial resultante. A saída do U-Net é um conjunto de 32 componentes espectrais (canais) que são do mesmo tamanho do espectrograma de entrada, no caso de SoP, e uma única fonte por decodificador no caso de MHU-Net. Dado um quadro representativo, os recursos visuais são obtidos usando o Dilated ResNet. Esses recursos visuais nada mais são do que um vetor de 32 elementos (que corresponde ao número de canais de saída da UNet) que são usados para selecionar os componentes espectrais adequados. Esta seleção é realizada pela rede de análise de áudio que consiste em 32 parâmetros que podem ser aprendidos, αk, mais um viés, β. Esta operação pode ser descrita matematicamente da seguinte forma:



onde Sk (t, f) é o k-ésimo componente espectral previsto no compartimento tempo-frequência (t, f).


A Figura 2 ilustra a configuração do SoP. É interessante destacar que fazer com que a rede visual selecione os componentes espectrais a força a aprender indiretamente a localização do instrumento, o que pode ser inferido através de mapas de ativação.




O cálculo da máscara de verdade para SoP e MHU-Net é descrito na Eq. (2) e Eq. (3), Seç. IV-C.


B. Pré-processamento de dados


Para treinar as arquiteturas mencionadas, o áudio é reamostrado para 11025 Hz e 16 bits. As amostras alimentadas na rede têm duração de 6s. Usamos a Transformada de Fourier de Curto Tempo (STFT) para obter representações tempo-frequência de formas de onda. Seguindo [23], o STFT é calculado usando a janela de Hanning de comprimento 1022 e comprimento de salto 256 para que obtenhamos um espectrograma de tamanho 512×256 para uma amostra de 6s. Posteriormente, aplicamos uma redimensionamento logarítmico no eixo de frequência, expandindo as frequências mais baixas e comprimindo as mais altas. Por último, convertemos os espectrogramas de magnitude em dB em relação ao valor mínimo de cada espectrograma e normalizamos entre -1 e 1.


C. Máscara da verdade fundamental


Antes de introduzir os cálculos da máscara da verdade básica, gostaríamos de apontar algumas considerações. O formato de áudio de ponto flutuante padrão impõe que uma forma de onda seja limitada entre -1 e 1. No momento da criação de misturas artificiais, as formas de onda resultantes podem estar fora desses limites. Isso pode ajudar as redes neurais a encontrar atalhos para o superajuste. Para evitar esse comportamento, os espectrogramas são fixados de acordo com os limites equivalentes no domínio tempo-frequência.


A Transformada Discreta de Fourier de Curto Tempo pode ser calculada conforme descrito em [42]:



TABELA II RESULTADOS DO BENCHMARK (MÉDIA ± DESVIO PADRÃO). SOP:SOM DE PIXELS PESOS ORIGINAIS, SOP-SOLOS: SOM DE PIXELS TREINADOS A PARTIR DE SCRATCH EM SOLOS. SOP-FT: SOM DE PIXELS AJUDADOS EM SOLOS. MHU-NET: U-NET MULTI-HEAD COM 13 DECODIFICADORES.


Para treinar o Sound of Pixels, usamos máscaras binárias complementares como máscaras de verdade, definidas como:



O Multi-head U-Net foi treinado com máscaras de proporção complementar, definidas como:



D. Resultados


Os resultados de benchmark para Razão Fonte-Distorção (SDR), Razão Fonte-Interferências (SIR), Razão Fontes-Artefatos (SAR) propostos em [43] são mostrados na Tabela II em termos de média e desvio padrão. Como pode ser observado, o Sound of Pixels avaliado com seus pesos originais tem o pior desempenho. Uma possível razão para isso poderia ser a ausência de algumas categorias URMP no conjunto de dados MUSIC. Se treinarmos a rede do zero em Solos, os resultados melhorarão quase 1 dB. Porém, é possível obter um resultado ainda melhor ajustando a rede, pré-treinada com MUSIC, em Solos. Nossa hipótese é que a melhoria ocorre à medida que a rede é exposta a muito mais dados de treinamento. Além disso, os resultados da tabela mostram como é possível alcançar maior desempenho utilizando arquiteturas mais poderosas como MHU-Net.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.