Авторы:
(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]}.
Мы представили Solos, новый аудиовизуальный набор данных музыкальных записей солистов, подходящий для различных задач самостоятельного обучения, таких как разделение источников с использованием стратегии смешивания и разделения, локализация звука, кросс-модальная генерация и поиск аудиовизуальных переписки. В наборе данных 13 различных инструментов; это обычные инструменты в камерных оркестрах, включенные в набор данных мультимодального музыкального исполнения (URMP) Рочестерского университета [1]. Характеристики URMP – небольшой набор данных о реальных характеристиках с достоверными отдельными основами – делают его подходящим набором данных для целей тестирования, но, насколько нам известно, на сегодняшний день не существует крупномасштабного набора данных с теми же инструментами, что и в URMP. Две разные сети для разделения аудиовизуальных источников на основе архитектуры U-Net были обучены в новом наборе данных и дополнительно оценены в URMP, что показывает влияние обучения на тот же набор инструментов, что и тестовый набор. Более того, Solos предоставляет скелетоны и временные метки для интервалов видео, где руки достаточно видны. Эта информация может быть полезна в учебных целях, а также для обучения решению задачи локализации звука.
[1] Б. Ли, К. Лю, К. Динеш, З. Дуан и Г. Шарма, «Создание многодорожечного набора данных исполнения классической музыки для мультимодального музыкального анализа: проблемы, идеи и приложения», IEEE Transactions on Multimedia, том. 21, нет. 2, стр. 522–535, февраль 2019 г.
[2] Б. Ли, К. Динеш, З. Дуан и Г. Шарма, «Смотрите и слушайте: объединение звуковых дорожек с исполнителями в видеороликах с камерной музыкой на основе оценки», Международная конференция IEEE по акустике, речи и сигналу, 2017 г. Обработка (ICASSP). IEEE, 2017, стр. 2906–2910.
[3] Э.К. Черри, «Некоторые эксперименты по распознаванию речи одним и двумя ушами», Журнал акустического общества Америки, том. 25, нет. 5, стр. 975–979, 1953.
[4] А. Хиваринен и Э. Оя, «Анализ независимых компонентов: алгоритмы и приложения», Нейронные сети, вып. 13, нет. 4–5, стр. 411–430, 2000.
[5] М. Зибулевский и Б. А. Перлмуттер, «Слепое разделение источников путем разреженной декомпозиции в словаре сигналов», Нейронные вычисления, том. 13, нет. 4, стр. 863–882, 2001.
[6] Т. Виртанен, «Монауральное разделение источников звука посредством неотрицательной матричной факторизации с критериями временной непрерывности и разреженности», Транзакции IEEE по обработке звука, речи и языка, том. 15, нет. 3, стр. 1066–1074, 2007.
[7] DPW Эллис, «Вычислительный анализ слуховой сцены на основе прогнозирования», Ph.D. диссертация, Массачусетский технологический институт, 1996 г.
[8] П. Смарагдис, Б. Радж и М. Шашанка, «Вероятностная модель скрытых переменных для акустического моделирования», Достижения в моделях акустической обработки, NIPS, том. 148, стр. 8–1, 2006.
[9] П. Чандна, М. Мирон, Дж. Джанер и Э. Гомес, «Моноауральное разделение источников звука с использованием глубоких сверточных нейронных сетей», Международная конференция по анализу скрытых переменных и разделению сигналов, 2017, стр. 258– 266.
[10] Д. Столлер, С. Эверт и С. Диксон, «Wave-u-net: многомасштабная нейронная сеть для сквозного разделения источников звука», препринт arXiv arXiv:1806.03185, 2018.
[11] Дж. Р. Херши и Дж. Р. Мовеллан, «Аудиовидение: использование аудиовизуальной синхронизации для определения местоположения звуков», в журнале «Достижения в области нейронных систем обработки информации», 2000, стр. 813–819.
[12] Э. Кидрон, Ю. Я. Шехнер и М. Элад, «Пиксели, которые звучат», в книге «Компьютерное зрение и распознавание образов», 2005. CVPR 2005. Конференция IEEE Computer Society, том. 1, 2005, стр. 88–95.
[13] Т. Даррелл, Дж. В. Фишер и П. Виола, «Аудиовизуальная сегментация и эффект коктейльной вечеринки», в «Достижениях в области мультимодальных интерфейсов» ICMI 2000, 2000, стр. 32–40.
[14] Д. Содойер, Ж.-Л. Шварц, Л. Гирин, Дж. Клинкиш и К. Юттен, «Разделение аудиовизуальных источников речи: новый подход, использующий аудиовизуальную когерентность речевых стимулов», Журнал EURASIP по достижениям в области обработки сигналов, том. 2002, нет. 11, с. 382823, 2002.
[15] Б. Ривет, Л. Гирин и К. Юттен, «Совмещение аудиовизуальной обработки речи и слепого разделения источников для извлечения речевых сигналов из сверточных смесей», IEEE Transactions on Audio, Speech and Language Processing, vol. 15, нет. 1, стр. 96–108, 2007.
[16] Б. Ли, К. Сюй и З. Дуань, «Ассоциация аудиовизуальных источников для струнных ансамблей посредством мультимодального анализа вибрато», Proc. Звуковые и музыкальные вычисления (SMC), 2017.
[17] С. Парех, С. Эссид, А. Озеров, Н. К. Дуонг, П. Перес и Г. Ричард, «Управление разделением источника звука по информации о видеообъекте», в книге «Приложения обработки сигналов для аудио и акустики» (WASPAA). ), Семинар IEEE, 2017 г., 2017 г., стр. 61–65.
[18] Р. Гао и К. Грауман, «Совместное разделение звуков визуальных объектов», в материалах Международной конференции IEEE по компьютерному зрению, 2019, стр. 3879–3888.
[19] Х. Чжао, К. Ган, В.-К. Ма и А. Торральба, «Звук движений», в материалах Международной конференции IEEE по компьютерному зрению, 2019 г., стр. 1735–1744.
[20] С. Сюй, Б. Дай и Д. Линь, «Рекурсивное визуальное разделение звука с использованием сети минус-плюс», в материалах Международной конференции IEEE по компьютерному зрению, 2019, стр. 882–891.
[21] Б. Ли, К. Динеш, К. Сюй, Г. Шарма и З. Дуань, «Онлайн-ассоциация аудиовизуальных источников для исполнений камерной музыки», Труды Международного общества поиска музыкальной информации, том. 2, нет. 1, 2019.
[22] Р. Аранджелович и А. Зиссерман, «Объекты, которые звучат», в «Материалах Европейской конференции IEEE по компьютерному зрению», 2018.
[23] Х. Чжао, К. Ган, А. Рудиченко, К. Вондрик, Дж. Макдермотт и А. Торралба, «Звук пикселей», на Европейской конференции по компьютерному зрению (ECCV), сентябрь 2018 г.
[24] А. Оуэнс и А. А. Эфрос, «Аудиовизуальный анализ сцены с помощью мультисенсорных функций с самоконтролем», препринт arXiv arXiv:1804.03641, 2018.
[25] Б. Корбар, Д. Тран и Л. Торресани, «Совместное обучение аудио- и видеомоделей с помощью самоконтролируемой синхронизации», в журнале «Достижения в области нейронных систем обработки информации», 2018, стр. 7763–7774.
[26] Т.-Х. О, Т. Декель, К. Ким, И. Моссери, В. Т. Фриман, М. Рубинштейн и В. Матусик, «Speech2face: изучение лица за голосом», в материалах конференции IEEE по компьютерному зрению и распознаванию образов, 2019, стр. 7539–7548.
[27] Л. Чен, С. Шривастава, З. Дуань и К. Сюй, «Глубокая кросс-модальная аудиовизуальная генерация», в материалах тематических семинаров ACM Multimedia 2017, 2017, стр. 349–357.
[28] Ю. Чжоу, З. Ван, К. Фанг, Т. Буй и Т. Л. Берг, «Визуальное преобразование в звук: создание естественного звука для видео в дикой природе», в материалах конференции IEEE по компьютерному зрению и распознаванию образов. , 2018. С. 3550–3558.
[29] Э. Шлизерман, Л. М. Дери, Х. Шон и И. Кемельмахер-Шлизерман, «Динамика звука в теле», CVPR, Конференция компьютерного общества IEEE по компьютерному зрению и распознаванию образов, 2017.
[30] С. Гиносар, А. Бар, Г. Кохави, К. Чан, А. Оуэнс и Дж. Малик, «Изучение отдельных стилей разговорных жестов», в материалах конференции IEEE по компьютерному зрению и распознаванию образов, 2019, стр. 3497–3506.
[31] Х. Чжоу, З. Лю, С. Сюй, П. Луо и X. Ван, «Глубокая обработка звука с использованием зрения», на Международной конференции IEEE по компьютерному зрению (ICCV), октябрь 2019 г.
[32] К. Ган, Д. Хуанг, Х. Чжао, Дж. Б. Тененбаум и А. Торральба, «Музыкальный жест для визуального разделения звука», в материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, 2020, стр. . 10 478–10 487.
[33] З. Цао, Г. Идальго Мартинес, Т. Саймон, С. Вей и Я. Шейх, «Openpose: двухмерная оценка позы нескольких человек в реальном времени с использованием полей сходства частей», Транзакции IEEE по анализу шаблонов и машинному интеллекту, 2019. .
[34] CSJ Doire и O. Okubadejo, «Перемежающееся многозадачное обучение для разделения аудиоисточников с помощью независимых баз данных», ArXiv, vol. абс/1908.05182, 2019.
[35] Ф. Ю., Колтун В., Фанкхаузер Т., «Расширенные остаточные сети», в книге «Компьютерное зрение и распознавание образов (CVPR), 2017».
[36] А. Янссон, Э. Хамфри, Н. Монтеккио, Р. Биттнер, А. Кумар и Т. Вейде, «Разделение певческих голосов с помощью глубоких сверточных сетей U-Net», на 18-й конференции Международного общества по поиску музыкальной информации. , 2017. С. 23–27.
[37] О. Роннебергер, П. Фишер и Т. Брокс, «U-net: сверточные сети для сегментации биомедицинских изображений», Международная конференция по вычислениям медицинских изображений и компьютерному вмешательству. Спрингер, 2015, стр. 234–241.
[38] Г. Лю, Дж. Си, Ю. Ху и С. Ли, «Синтез фотографических изображений с помощью улучшенной u-net», Десятая международная конференция по передовому вычислительному интеллекту (ICACI), март 2018 г., стр. 402. –407.
[39] С. Мао, К. Шэнь, Ю.-Б. Ян, «Восстановление изображений с использованием очень глубоких сверточных сетей кодировщика-декодера с симметричными пропускающими соединениями», в журнале «Достижения в области нейронных систем обработки информации», 2016, стр. 2802–2810.
[40] П. Изола, Ж.-Ю. Чжу, Т. Чжоу и А.А. Эфрос, «Перевод изображения в изображение с помощью условно-состязательных сетей», arxiv, 2016.
[41] Д. П. Кингма и Дж. Ба, «Адам: метод стохастической оптимизации», CoRR, том. абс/1412.6980, 2014.
[42] «Глава 7 – обработка в частотной области», в книге «Проектирование системы цифровой обработки сигналов» (второе издание), второе издание, Н. Кехтарнаваз, ред. Берлингтон: Academic Press, 2008, стр. 175–196.
[43] Э. Винсент, Р. Грибонваль и К. Февотт, «Измерение производительности при слепом разделении источников звука», IEEE Transactions on Audio, Speech and Language Processing, vol. 14, нет. 4, стр. 1462–1469, 2006.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.