Авторы:
(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]}.
Solos[1] был разработан с учетом тех же категорий, что и набор данных URMP [1], так что URMP можно использовать в качестве набора данных для тестирования в реальном сценарии. Таким образом, мы стремимся установить стандартный способ оценки производительности алгоритмов разделения источников, избегая использования метода «смешивай и разделяй» при тестировании. Соло состоит из 755 записей, распределенных по 13 категориям, как показано на рисунке 1, со средним количеством записей 58 на категорию и средней продолжительностью 5:16 минут. Интересно отметить, что для 8 из 13 категорий медианное разрешение — HD, несмотря на то, что это набор данных, собранный на YouTube. Статистику по категориям можно найти в Таблице I. Эти записи были собраны путем запроса YouTube с использованием тегов «соло» и прослушиваний на нескольких языках, таких как английский, испанский, французский, итальянский, китайский или русский.
А. Скелеты OpenPose
Solos – это не только набор записей. Помимо идентификаторов видео, мы также предоставляем: i) скелеты тела и рук, оцененные OpenPose [33] в каждом кадре каждой записи, и ii) временные метки, указывающие полезные части. OpenPose - система, способная прогнозировать скелет тела и скелеты рук.
используя две разные нейронные сети. Для этого они прогнозируют карту достоверности уверенности в том, что определенная часть тела может быть расположена в любом заданном пикселе, а также поля сходства частей, которые кодируют степень связи между различными частями тела. Наконец, он прогнозирует 2D-скелеты и достоверность каждого сустава посредством жадного вывода. На практике скелет тела оценивается с помощью первой сети. Затем положение запястий в скелете тела используется для оценки положения обеих рук. Вторая нейронная сеть получает скелет каждой руки независимо. Обратите внимание: поскольку каждая часть тела оценивается независимо, OpenPose не делает никаких предположений относительно конечностей, которые нужно найти. Он просто вычисляет наиболее вероятный скелет с учетом карт достоверности и полей сходства частей. Весь процесс осуществляется по кадрам. Это приводит к небольшому мерцанию и неточностям между кадрами.
B. Оценка временных меток и уточнение скелета
OpenPose сопоставляет неправильно предсказанные суставы с началом координат. Мы эмпирически установили, что такой большой скачок положения сустава вызывает шум. Использование интерполированных координат помогает решить эту проблему.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
[1] Набор данных доступен по адресу https://juanfmontesinos.github.io/Solos/.