Autores:
(1) Kedan Li, Universidad de Illinois en Urbana-Champaign;
(2) Min Jin Chong, Universidad de Illinois en Urbana-Champaign;
(3) Jingen Liu, JD Investigación de IA;
(4) David Forsyth, Universidad de Illinois en Urbana-Champaign.
Síntesis de imágenes : las redes de transformadores espaciales estiman transformaciones geométricas utilizando redes neuronales [23]. Trabajos posteriores [28,39] muestran cómo deformar un objeto a otro. La deformación se puede utilizar para producir imágenes de objetos rígidos [26,30] y objetos no rígidos (por ejemplo, ropa) [17,12,45]. A diferencia de trabajos anteriores, utilizamos múltiples deformaciones espaciales.
Nuestras deformaciones deben combinarse en una sola imagen, y nuestra U-Net para producir esta imagen sigue las tendencias en pintura (métodos que completan las partes faltantes de una imagen, ver [48,31,50,49]). Han et al. [16,52] muestran que los métodos de pintura pueden completar las prendas que faltan en las personas.
En nuestro trabajo, utilizamos FID∞ para evaluar cuantitativamente nuestro método. Esto se basa en la distancia de inicio de Frchet (FID) [18], una métrica común en el modelado de imágenes generativas [5,54,29]. Chong et al. [9] demostraron recientemente que la FID está sesgada; la extrapolación elimina el sesgo, hasta una puntuación insesgada (FID∞).
Generando personas vestidas: Zhu et al. [57] utilizaron una GAN condicional para generar imágenes basadas en poses de esqueletos y descripciones de texto de prendas de vestir. SwapNet [38] aprende a transferir ropa de la persona A a la persona B desenredando la ropa y posando rasgos. Hsiao et al. [20] aprendieron una red de síntesis de modelos de moda que utiliza codificaciones por prenda para permitir una edición mínima conveniente de artículos específicos. Por el contrario, deformamos productos en imágenes de modelos reales.
La coincidencia de formas es la base de nuestro método para hacer coincidir el producto con el modelo. Tsiao et al. [19] construyeron una forma incrustada para permitir la combinación entre el cuerpo humano y prendas de vestir que le queden bien. Trabajos anteriores estimaron la forma del cuerpo humano [4,27], las prendas de vestir [10,25] y ambas [35,40], a través de imágenes 2D. El descriptor DensePose [1] ayuda a modelar la deformación y el sombreado de la tela y, por lo tanto, ha sido adoptado en trabajos recientes [36,13,47,51,7,52].
La prueba virtual (VTO) asigna un producto a una imagen de modelo. VITON [17] utiliza un U-Net para generar una síntesis aproximada y una máscara en el modelo donde se presenta el producto. Se aprende un mapeo de la máscara del producto a la máscara del modelo mediante la transformación Thin plate spline (TPS) [3]. El mapeo aprendido se aplica a la imagen del producto para crear una deformación. Siguiendo su trabajo, Wang et al. [45] mejoraron la arquitectura utilizando un módulo de coincidencia geométrica [39] para estimar los parámetros de transformaciones de TPS directamente a partir de pares de imagen de producto y persona objetivo. Entrenan una red de refinamiento separada para combinar la deformación y la imagen de destino. VTNFP [53] amplía el trabajo incorporando la predicción de segmentos corporales y trabajos posteriores siguen un procedimiento similar [37,24,42,22,2]. Sin embargo, la transformación TPS no logra producir deformaciones razonables debido al ruido de las máscaras generadas en nuestro conjunto de datos, como se muestra en la Figura 6 a la derecha. En cambio, adoptamos transformaciones afines que hemos descubierto que son más resistentes a las imperfecciones en lugar de la transformación TPS. Un grupo de trabajo siguiente amplió la tarea a múltiples posturas. Warping-GAN [11] combinó el entrenamiento adversario con GMM y generó publicaciones y texturas por separado utilizando una red de dos etapas. MG-VTON [12] perfecciona aún más el método de generación utilizando una red de generación de tres etapas. Otros trabajos [21,55,51,7,46] siguieron un procedimiento similar. Han et al. [15] argumentó que la transformación TPS tiene un bajo grado de libertad y propuso un método basado en flujo para crear la deformación.
Gran parte del trabajo de prueba virtual existente [17,12,21,47,55,53,24,37] se evalúa en conjuntos de datos que solo tienen partes superiores (camiseta, camisa, etc.). Tener solo tapas reduce en gran medida la probabilidad de que las formas no coincidan, ya que las tapas tienen formas simples y similares. En nuestro trabajo, ampliamos el problema para incluir prendas de vestir de todas las categorías (camiseta, camisa, pantalones, pantalones cortos, vestidos, faldas, batas, chaquetas, abrigos, etc.) y proponemos un método para hacer coincidir la forma entre el producto original. y el modelo objetivo. La evaluación muestra que el uso de pares que coincidan en forma aumenta significativamente la calidad de la generación tanto para nuestro trabajo como para el anterior (tabla 4.3).
Además, los trajes de estudio reales a menudo están cubiertos por prendas exteriores con cremalleras o botones desabrochados, lo que tampoco se presentó en trabajos anteriores [17,12,21,47,55,53,37]. Esto puede causar partición u oclusión grave de la prenda y no se soluciona mediante trabajos previos, como se muestra en la Figura 6. Mostramos que nuestro módulo de generación de deformaciones múltiples mejora estas dificultades.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.