Autores:
(1) Juan F. Montesinos, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(2) Olga Slizovskaia, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};
(3) Gloria Haro, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]}.
Solos[1] fue diseñado para tener las mismas categorías que el conjunto de datos URMP [1], de modo que URMP pueda usarse como conjunto de datos de prueba en un escenario del mundo real. De esta manera pretendemos establecer una forma estándar de evaluar el rendimiento de los algoritmos de separación de fuentes evitando el uso de mezclar y separar en las pruebas. Solos consta de 755 grabaciones distribuidas en 13 categorías como se muestra en la Figura 1, con una cantidad promedio de 58 grabaciones por categoría y una duración promedio de 5:16 min. Es interesante resaltar que, para 8 de 13 categorías, la resolución media es HD, a pesar de ser un conjunto de datos recopilado por YouTube. Las estadísticas por categoría se pueden encontrar en la Tabla I. Estas grabaciones se recopilaron consultando YouTube utilizando las etiquetas solo y audiciones en varios idiomas, como inglés, español, francés, italiano, chino o ruso.
A. Esqueletos OpenPose
Solos no es sólo un conjunto de grabaciones. Además de los identificadores de videos, también proporcionamos: i) esqueletos de cuerpos y manos estimados por OpenPose [33] en cada cuadro de cada grabación y ii) marcas de tiempo que indican partes útiles. OpenPose es un sistema capaz de predecir el esqueleto del cuerpo y de las manos
haciendo uso de dos redes neuronales diferentes. Para hacerlo, predicen un mapa de confianza de la creencia de que una parte específica del cuerpo puede estar ubicada en cualquier píxel determinado, así como campos de afinidad de partes que codifican el grado de asociación entre diferentes partes del cuerpo. Finalmente, predice esqueletos 2D y confianza por articulación mediante inferencia codiciosa. En la práctica, el esqueleto corporal se estima con una primera red. Luego, la posición de las muñecas en el esqueleto del cuerpo se utiliza para estimar la posición de ambas manos. Una segunda red neuronal obtiene el esqueleto de cada mano de forma independiente. Tenga en cuenta que, dado que cada parte del cuerpo se estima de forma independiente, OpenPose no hace suposiciones sobre las extremidades que se van a encontrar. Simplemente calcula el esqueleto más probable dados los mapas de confianza y los campos de afinidad de partes. Todo el proceso se lleva a cabo por marcos. Esto provoca pequeños parpadeos y predicciones erróneas entre fotogramas.
B. Estimación de marcas de tiempo y refinamiento del esqueleto
OpenPose asigna uniones mal predichas al origen de las coordenadas. Hemos descubierto empíricamente que un salto tan grande en la posición de una articulación induce ruido. El uso de coordenadas interpoladas ayuda a abordar este problema.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.
[1] Conjunto de datos disponible en https://juanfmontesinos.github.io/Solos/