paint-brush
आकृति मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: सार और परिचयद्वारा@polyframe
290 रीडिंग

आकृति मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: सार और परिचय

द्वारा Polyframe Peer Reviewed Publication5m2024/06/08
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।
featured image - आकृति मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: सार और परिचय
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

अमूर्त

वर्चुअल ट्राई-ऑन विधि उत्पाद की छवि और मॉडल की छवि लेती है और उत्पाद पहने हुए मॉडल की छवि बनाती है। अधिकांश विधियाँ अनिवार्य रूप से उत्पाद छवि से मॉडल छवि तक के ताने-बाने की गणना करती हैं और छवि निर्माण विधियों का उपयोग करके संयोजित करती हैं। हालाँकि, यथार्थवादी छवि प्राप्त करना चुनौतीपूर्ण है क्योंकि परिधानों की गतिकी जटिल है और क्योंकि छवि में रूपरेखा, बनावट और छायांकन संकेत मानव दर्शकों को त्रुटियाँ दिखाते हैं। परिधान में उपयुक्त ड्रेप्स होने चाहिए; ड्रेप किए गए परिधान के आकार के अनुरूप बनावट को ताना-बाना होना चाहिए; छोटे विवरण (बटन, कॉलर, लैपल, जेब, आदि) परिधान पर उचित रूप से रखे जाने चाहिए, इत्यादि। मूल्यांकन विशेष रूप से कठिन है और आमतौर पर गुणात्मक होता है।


यह शोधपत्र चुनौतीपूर्ण, नए डेटासेट पर मात्रात्मक मूल्यांकन का उपयोग करके यह प्रदर्शित करता है कि (ए) किसी भी वॉर्पिंग विधि के लिए, कोई व्यक्ति परिणामों को बेहतर बनाने के लिए स्वचालित रूप से लक्ष्य मॉडल चुन सकता है, और (बी) कई समन्वित विशेष वॉर्पर सीखने से परिणामों में और सुधार होता है। लक्ष्य मॉडल सीखी गई एम्बेडिंग प्रक्रिया द्वारा चुने जाते हैं जो मॉडल द्वारा पहने जाने वाले उत्पादों के प्रतिनिधित्व की भविष्यवाणी करता है। इस भविष्यवाणी का उपयोग उत्पादों को मॉडल से मिलाने के लिए किया जाता है। विशेष वॉर्पर को एक ऐसी विधि द्वारा प्रशिक्षित किया जाता है जो दूसरे वॉर्पर को उन स्थानों पर अच्छा प्रदर्शन करने के लिए प्रोत्साहित करती है जहाँ पहला खराब काम करता है। फिर वॉर्प को यू-नेट का उपयोग करके संयोजित किया जाता है। गुणात्मक मूल्यांकन पुष्टि करता है कि ये सुधार रूपरेखा, बनावट छायांकन और परिधान विवरण पर पूरी तरह से हैं।


कीवर्ड: फैशन, वर्चुअल ट्राई-ऑन, छवि निर्माण, छवि विरूपण

1 परिचय

ई-कॉमर्स का मतलब है किसी उत्पाद को ट्राई न कर पाना, जो फैशन उपभोक्ताओं के लिए मुश्किल है [44]। साइट्स अब नियमित रूप से उत्पादों को पहने हुए मॉडल के फोटोशूट डालती हैं, लेकिन वॉल्यूम और टर्नओवर का मतलब है कि ऐसा करना बहुत महंगा और समय लेने वाला है [34]। कपड़ों के अलग-अलग सेट पहने हुए फैशन मॉडल की यथार्थवादी और सटीक छवियां बनाने की आवश्यकता है। कोई व्यक्ति मुद्रा के 3D मॉडल का उपयोग कर सकता है [8,14]। विकल्प - 3D माप के बिना उत्पाद-मॉडल छवियों को संश्लेषित करना [17,45,39,11,15] - वर्चुअल ट्राई-ऑन के रूप में जाना जाता है। इन विधियों में आमतौर पर दो घटक होते हैं: 1) उत्पाद को विकृत करने के लिए एक स्थानिक ट्रांसफार्मर


चित्र 1. किसी उत्पाद को गलत तरीके से चुने गए मॉडल में बदलने से मुश्किलें आती हैं (यादृच्छिक मॉडल; ध्यान दें कि ब्लेज़र को बाईं ओर कैसे दबाया गया है, और जर्सी को दाईं ओर फैलाया गया है)। हमारी विधि किसी दिए गए उत्पाद के लिए एक अच्छा लक्ष्य मॉडल चुन सकती है, जिससे स्थानांतरण में महत्वपूर्ण गुणात्मक और मात्रात्मक सुधार होता है (चुना हुआ मॉडल)। इसके अलावा, हम कई वॉरपर्स को समन्वित तरीके से काम करने के लिए प्रशिक्षित करते हैं, जो आगे चलकर उत्पादन परिणामों को बेहतर बनाता है (बढ़ाया हुआ; जैकेट पर बटनहोल बाईं ओर सही जगह पर हैं, और कार्डिगन पर बटनों की पंक्ति संभवतः दाईं ओर है)। चित्र दिखाता है कि (ए) वॉरप करने के लिए मॉडल को सावधानीपूर्वक चुनना और (बी) कई विशेष वॉरपर्स का उपयोग करने से स्थानांतरण में काफी सुधार होता है। तालिका 4.3 में मात्रात्मक परिणाम दृढ़ता से बताए गए दो बिंदुओं का समर्थन करते हैं।


2) एक छवि निर्माण नेटवर्क जो मोटे तौर पर संरेखित, विकृत उत्पाद को मॉडल छवि के साथ संयोजित करता है ताकि उत्पाद पहने हुए मॉडल की यथार्थवादी छवि तैयार की जा सके।


टी-शर्ट जैसे सरल कपड़ों के साथ इसे स्थानांतरित करना बहुत आसान है, जिस पर साहित्य में जोर दिया गया है। सामान्य वस्त्र (टी-शर्ट के विपरीत) सामने से खुल सकते हैं; परिष्कृत ड्रेप्स हो सकते हैं; कॉलर और कफ जैसी आकार की संरचनाएं हो सकती हैं; बटन हो सकते हैं; और इसी तरह। ये प्रभाव मौजूदा तरीकों को गंभीर रूप से चुनौती देते हैं (पूरक सामग्रियों में उदाहरण)। यदि कोई उत्पाद छवि का उपयोग उस परिधान के लिए उपयुक्त मॉडल छवि चुनने के लिए करता है तो ताना-बाना काफी हद तक बेहतर हो जाता है (चित्र 1)।


कम से कम आंशिक रूप से, यह इस बात का परिणाम है कि छवि निर्माण नेटवर्क कैसे प्रशिक्षित होते हैं। हम युग्मित छवियों का उपयोग करके प्रशिक्षण देते हैं - एक उत्पाद और एक उत्पाद पहने हुए मॉडल [17,45,53]। इसका मतलब यह है कि निर्माण नेटवर्क हमेशा लक्ष्य छवि को उत्पाद के लिए उपयुक्त होने की उम्मीद करता है (इसलिए इसे प्रशिक्षित नहीं किया जाता है, उदाहरण के लिए, एक पोशाक पहने हुए मॉडल पर स्वेटर डालना, चित्र 1)। एक विकल्प प्रतिकूल प्रशिक्षण [11,12,38,13,37] का उपयोग करना है; लेकिन इस ढांचे में विशिष्ट उत्पाद विवरण (उदाहरण के लिए, बटन की एक विशेष शैली; टी-शर्ट पर एक डिकल) को संरक्षित करना कठिन है। इस कठिनाई से निपटने के लिए, हम उत्पाद-मॉडल जोड़े चुनने के लिए एक एम्बेडिंग स्पेस सीखते हैं जिसके परिणामस्वरूप उच्च गुणवत्ता वाले स्थानान्तरण होंगे (चित्र 2)। एम्बेडिंग यह अनुमान लगाना सीखती है कि मॉडल छवि में एक परिधान क्या आकार लेगा चूंकि मॉडल्स आमतौर पर कई परिधान पहनते हैं, इसलिए हम परिधान की प्रत्येक श्रेणी (टॉप, बॉटम, आउटरवियर, पूरे शरीर का परिधान, आदि) को पार्स करने के लिए एक स्थानिक ध्यान दृश्य एनकोडर का उपयोग करते हैं और प्रत्येक को अलग से एम्बेड करते हैं।


एक और समस्या तब उत्पन्न होती है जब कोई परिधान खुला होता है (उदाहरण के लिए, एक बिना बटन वाला कोट)। इस मामले में, ताने के लक्ष्य में एक से अधिक जुड़े हुए घटक हो सकते हैं। ताने के निशाने पर एक क्षेत्र को अच्छी तरह से और दूसरे को खराब तरीके से फिट करके प्रतिक्रिया करते हैं, जिसके परिणामस्वरूप गलत विवरण (चित्र 1 के बटन) होते हैं। ऐसी त्रुटियाँ प्रशिक्षण हानि में बहुत कम योगदान दे सकती हैं, लेकिन बहुत स्पष्ट हैं और वास्तविक उपयोगकर्ताओं द्वारा गंभीर समस्याएँ मानी जाती हैं। हम दिखाते हैं कि कई समन्वित विशेषीकृत ताने का उपयोग करने से ताने में पर्याप्त मात्रात्मक और गुणात्मक सुधार होता है। हमारा ताना कई ताने बनाता है, जिन्हें एक दूसरे के साथ समन्वय करने के लिए प्रशिक्षित किया जाता है। इनपेंटिंग नेटवर्क ताने और मास्क किए गए मॉडल को जोड़ता है, और एक संश्लेषित छवि बनाता है। इनपेंटिंग नेटवर्क अनिवार्य रूप से ताने के बीच चयन करना सीखता है, जबकि ताने को मार्गदर्शन भी प्रदान करता है, क्योंकि उन्हें संयुक्त रूप से प्रशिक्षित किया जाता है। गुणात्मक मूल्यांकन पुष्टि करता है कि सुधार का एक महत्वपूर्ण हिस्सा बटन, जेब, लेबल और इसी तरह की बेहतर भविष्यवाणियों से होता है।


हम वर्चुअल ट्राई-ऑन के बड़े पैमाने पर मात्रात्मक मूल्यांकन दिखाते हैं। हमने फैशन ई-कॉमर्स साइटों से माइनिंग करके उत्पाद छवियों और स्टूडियो फ़ोटो के 422,756 जोड़े का एक नया डेटासेट एकत्र किया। डेटासेट में कई उत्पाद श्रेणियाँ हैं। हम स्थापित VITON डेटासेट [17] पर पिछले काम के साथ मात्रात्मक और गुणात्मक दोनों तरह से तुलना करते हैं। मात्रात्मक परिणाम दिखाता है कि हमारे आकार एम्बेडिंग का उपयोग करके उत्पाद मॉडल जोड़े चुनने से सभी छवि निर्माण पाइपलाइनों (तालिका 4.3) के लिए महत्वपूर्ण सुधार मिलते हैं। कई वॉर्प का उपयोग करने से भी लगातार एकल वॉर्प बेसलाइन से बेहतर प्रदर्शन होता है, जो मात्रात्मक (तालिका 4.3, चित्र 5) और गुणात्मक (चित्र 7) दोनों परिणामों के माध्यम से प्रदर्शित होता है। पिछले काम के साथ गुणात्मक तुलना से पता चलता है कि हमारा सिस्टम पिछले काम की तुलना में अधिक सटीकता से टूचेंज गारमेंट और लक्ष्य मॉडल दोनों के विवरण को संरक्षित करता है। हमने ई-कॉमर्स के लिए वास्तविक मॉडल को संश्लेषित मॉडल से बदलने की लागत का अनुकरण करते हुए एक उपयोगकर्ता अध्ययन किया। परिणाम दिखाता है कि हमारे संश्लेषित मॉडल का 40% वास्तविक मॉडल माना जाता है।


हमारे योगदान का सारांश:


- हम एक मिलान प्रक्रिया शुरू करते हैं जिसके परिणामस्वरूप वर्चुअल ट्राई-ऑन में महत्वपूर्ण गुणात्मक और मात्रात्मक सुधार होता है, चाहे जो भी वॉर्पर उपयोग किया जाए।


- हम एक वॉर्पिंग मॉडल प्रस्तुत करते हैं जो कई समन्वित-वॉर्प्स सीखता है और सभी परीक्षण सेटों पर लगातार बेसलाइन से बेहतर प्रदर्शन करता है।

- हमारे द्वारा उत्पन्न परिणाम विवरणों को सटीक और यथार्थवादी ढंग से संरक्षित करते हैं, जिससे खरीदारों को लगता है कि कुछ संश्लेषित छवियां वास्तविक हैं।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।