Авторы:
(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]}.
В этой статье мы представляем новый набор данных видео музыкальных исполнений, который можно использовать для обучения методам машинного обучения для решения множества задач, таких как слепое аудиовизуальное разделение и локализация источников, кросс-модальные соответствия, кросс-модальная генерация и, в целом, любая аудиовизуальная задача под самоконтролем. Эти видео, собранные на YouTube, состоят из сольных музыкальных исполнений на 13 различных инструментах. По сравнению с ранее предложенными наборами аудиовизуальных данных, Solos является более чистым, поскольку большая часть его записей представляет собой прослушивание и проверку вручную, что гарантирует отсутствие фонового шума и эффектов, добавленных при постобработке видео. Кроме того, насколько нам известно, это единственный набор данных, который содержит весь набор инструментов, присутствующий в наборе данных URMP [1], высококачественном наборе данных из 44 аудиовизуальных записей многоинструментальных произведений классической музыки с индивидуальными звуковые дорожки. URMP был предназначен для использования для разделения источников, поэтому мы оцениваем производительность на наборе данных URMP двух различных моделей разделения источников, обученных на Solos. Набор данных общедоступен по адресу https://juanfmontesinos.github.io/Solos/.
Индексные термины — аудиовизуальные данные, набор данных, мультимодальность, музыка.
Растет интерес к мультимодальным методам решения задач поиска музыкальной информации (MIR). Музыкальные исполнения имеют весьма мультимодальное содержание, и различные задействованные модальности тесно взаимосвязаны: звуки издаются в результате движения исполнителя, а в исполнениях камерной музыки партитуры представляют собой дополнительное кодирование, которое также можно использовать для автоматического анализа музыки. 2].
С другой стороны, визуально осматривая сцену, мы можем получить информацию о количестве источников звука, их типе, пространственно-временном расположении, а также движении, что, естественно, относится к издаваемому звуку. Кроме того, можно выполнять задачи с самоконтролем, при которых одна модальность контролирует другую. Это влечет за собой еще одну область исследований — кросс-модальное соответствие (CMC). Мы можем найти новаторские работы по обеим проблемам BSS и CMC. [11], [12] используют аудиовизуальные данные для локализации звука, а [13], [14], [15] — для разделения речи. В контексте музыки визуальная информация также доказала свою эффективность в методах, основанных на моделях, как при разделении источников [16], [17], так и при локализации [2]. С развитием методов глубокого обучения во многих недавних работах используется как аудио, так и видеоконтент для разделения музыкальных источников [18]–[20], ассоциации источников [21], локализации [22] или того и другого [23]. Некоторые работы CMC исследуют функции, сгенерированные в результате синхронизации [24], [25] и доказывают, что эти функции можно повторно использовать для разделения источников. В этих работах используются сети, обученные методом самоконтроля с использованием пар соответствующих/несоответствующих аудиовизуальных сигналов для целей локализации [22] или подхода «смешивание и разделение» для разделения источников [18]–[20]. , [23]. Несмотря на то, что глубокое обучение позволило решать классические проблемы по-другому, оно также способствовало созданию новых областей исследований, таких как кроссмодальная генерация, основной целью которой является создание видео из аудио [26], [27] или наоборот [28]. В более поздних работах, связанных с движением человека, скелет используется как внутреннее представление тела, которое в дальнейшем можно преобразовать в видео [29], [30], показывающее потенциал скелетов. Основным вкладом этой статьи является Solos, новый набор данных записей музыкальных выступлений солистов, который можно использовать для обучения глубоких нейронных сетей для любой из вышеупомянутых областей. По сравнению с аналогичным набором данных музыкальных инструментов, представленным в [23] и его расширенной версией [31], наш набор данных действительно содержит тот же тип инструментов камерного оркестра, что и в наборе данных URMP. Solos — это набор данных из 755 реальных записей, собранных с YouTube, который предоставляет несколько функций, отсутствующих в вышеупомянутых наборах данных: скелетоны и временные метки высокого качества. Локализация источника обычно изучается сетями косвенно. Таким образом, обеспечить практическую локализацию не так-то просто. Тем не менее, сети часто указывают на руки игрока, как если бы они были источником звука. Мы ожидаем, что локализация рук может помочь предоставить дополнительные подсказки для улучшения аудиовизуального BSS или может использоваться в качестве источника достоверной локализации. Чтобы показать преимущества использования Solos, мы обучили некоторые популярные архитектуры BSS и сравнили их результаты.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.