नमस्ते! आर्टलैब्स के शोध और इंजीनियरिंग ब्लॉग 'इनसाइड द लैब' में आपका स्वागत है। इस सप्ताह का विषय है कि कैसे 3डी सामग्री को एआई पद्धतियों द्वारा प्रस्तुत और नियंत्रित किया जाता है, कैसे एआई 3डी सामग्री निर्माण के लिए इन अभ्यावेदन का उपयोग करता है, साथ ही साथ इन तकनीकों के पेशेवरों और विपक्षों को भी।
मशीन लर्निंग मॉडल को विभिन्न 3D सामग्री अभ्यावेदन जैसे वोक्सल्स, पॉइंट क्लाउड्स, साइन्ड डिस्टेंस फील्ड्स, न्यूरल रेडिएशन फील्ड्स (NeRF), पॉलीगोनल मेश का उपयोग करके प्रशिक्षित किया जाता है ... हम इस पोस्ट में वोक्सेल, पॉइंट क्लाउड, NeRF और पॉलीगॉन प्रतिनिधित्व के बारे में बात करेंगे। आइए, एक-एक करके इनके बारे में जानें।
स्वर
आप पिक्चर एलिमेंट्स (उर्फ पिक्सल्स) के बारे में जानते हैं लेकिन क्या आपने कभी वॉल्यूम एलिमेंट्स (उर्फ वोक्सल्स) के बारे में सुना है? अब तुमने किया! पिक्सेल को x और y निर्देशांक द्वारा दर्शाए गए 2D ग्रिड पर 0 और 255 के बीच अतिरिक्त अपारदर्शिता मान के साथ लाल, हरे और नीले रंग की तीव्रता वाले मानों के रूप में दर्शाया जाता है। वोक्सल्स, इसी तरह एक 3डी ग्रिड पर लाल, हरे, नीले और अपारदर्शिता मूल्यों से मिलकर बनता है। एआई मॉडल का उद्देश्य प्रत्येक स्वर के लिए इन 4 मूल्यों को सीखना है ताकि कुशलतापूर्वक दृश्य का प्रतिनिधित्व किया जा सके।
मशीन लर्निंग मॉडल जैसे कि 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020), और EVoIT (2021) वोक्सल प्रतिनिधित्व की सादगी का लाभ उठाते हैं और उस ऑब्जेक्ट को वोक्सल के रूप में पुनर्निर्माण करने के लिए ऑब्जेक्ट की बहु-दृश्य छवियों का उपयोग करते हैं। जाल।
स्वर प्रतिनिधित्व के लाभ
- 3D सामग्री के लिए सरलतम संभव प्रतिनिधित्व। ग्रिड के भीतर प्रत्येक घन के लिए प्रतिनिधित्व केवल लाल, हरा, नीला और अस्पष्टता मान है।
- मशीन लर्निंग मॉडल बनाना आसान है। जैसा कि प्रतिनिधित्व सरल है, मॉडल के बारे में सीखना आसान है।
स्वर प्रतिनिधित्व के नुकसान
- संकल्प, और वह एक बड़ा है! 512 किनारे की लंबाई वाली वोक्सल ग्रिड में वास्तव में 134 मिलियन से अधिक डेटा बिंदु होते हैं, जबकि एक 4096x4096 छवि में केवल 16 मिलियन से ऊपर होते हैं, और हम जानते हैं कि 4K छवि का फ़ाइल आकार कितना बड़ा हो सकता है। वोक्सेल फ़ाइलों को उनके फ़ाइल आकार को कम करने के लिए संपीड़ित करने के कई तरीके हैं। हालाँकि, वर्तमान मशीन लर्निंग मॉडल अभी भी इतनी जानकारी रखने के लिए संघर्ष कर रहे हैं। बेशक, स्मृति में खाली स्वरों को संग्रहीत न करके या आगे जाकर और अधिक संपीड़ित करके इस सीमा को पार किया जा सकता है। लेकिन मशीन लर्निंग के दौरान इन कंप्रेशन्स को लागू नहीं किया जा सकता है क्योंकि वोक्सल ग्रिड के निर्माण के बाद कंप्रेशन्स किए जा सकते हैं, और मशीन लर्निंग के साथ जो किया जा रहा है वह अभी भी "निर्माण" है।
- प्रतिपादन। जीपीयू को पॉलीगॉन रेंडर करने के लिए अनुकूलित किया गया है, और उच्च-रिज़ॉल्यूशन वोक्सल्स को कुशलतापूर्वक रेंडर करने के लिए कोई विशिष्ट हार्डवेयर नहीं है।
संभावित उद्योग उपयोग मामले
यदि आप घन आकृतियों का प्रतिनिधित्व करना चाहते हैं तो वोक्सल्स हेला अच्छे हैं। जैसे पिक्सेल कला है, स्वरों पर आधारित 3डी कला भी है। इसके अलावा, कौन Minecraft जैसी दुनिया उत्पन्न नहीं करना चाहता है?! सैंडबॉक्स जैसे मेटावर्स भी स्वर अभ्यावेदन का उपयोग करते हैं, और एआई-आधारित स्वर निर्माण उन्हें बेहतर बनाने में भी मदद कर सकता है।
बिंदु बादल
ठीक है, आपने यह अनुमान लगाया: बिंदु बादल 3D अंतरिक्ष में रंगीन बिंदुओं से बने बादल हैं। स्वरों के विपरीत, वे एक ग्रिड के भीतर समाहित नहीं होते हैं, इसलिए आप बिंदु बादलों के साथ वस्तुओं की एक विस्तृत श्रृंखला का बेहतर प्रतिनिधित्व कर सकते हैं। हालाँकि, चूंकि कोई ग्रिड नहीं है, इसलिए आपको 3D अंतरिक्ष में प्रत्येक बिंदु की स्थिति पर विचार करने की भी आवश्यकता है। इसका मतलब है कि आपको प्रत्येक डेटा बिंदु के लिए स्वरों की तुलना में अधिक डेटा रखने की आवश्यकता है।
OpenAI के पॉइंट-ई (2022) जैसे मॉडल ने पॉइंट क्लाउड-आधारित 3D सामग्री निर्माण में सफलता प्रदर्शित की है। हालाँकि, जैसा कि दुनिया में सब कुछ अच्छा है, बिंदु बादलों के अपने फायदे और नुकसान हैं।
पॉइंट क्लाउड प्रतिनिधित्व के लाभ
- वोक्सल्स की तुलना में फाइन डिटेल्स को बेहतर तरीके से हैंडल करना। बिंदु बादल घने या विरल हो सकते हैं। विरल होने पर, अधिकांश विवरणों को याद करना आसान होता है, लेकिन जब एक बिंदु बादल सघन होता है, तो कोई मूल वस्तु/आकृति का बहुत अच्छी तरह से प्रतिनिधित्व कर सकता है।
- बड़े दृश्यों का प्रतिनिधित्व करने में बढ़िया! LiDAR, पॉइंट क्लाउड प्राप्त करने का एक शानदार तरीका है, और स्मार्ट वाहनों में इनका व्यापक रूप से उपयोग किया जाता है। जंगलों, कारखानों, स्टेडियमों, शहर के चौराहों आदि सहित पूरे क्षेत्र को स्कैन करने वाले ड्रोन के कई उदाहरण हैं। उन्होंने डसेलडोर्फ के पूरे शहर का एक बिंदु बादल भी बनाया!
पॉइंट क्लाउड प्रतिनिधित्व के नुकसान
- कोई मात्रा नहीं। यहां तक कि जब एक बिंदु बादल घना होता है, तो यह बिंदुओं से निर्मित होता है, और बिंदु एक आयतन का प्रतिनिधित्व नहीं कर सकते हैं।
- प्रतिपादन। चूँकि पॉइंट क्लाउड पर कोई पॉलीगॉन नहीं होता है, इसलिए मौजूदा जीपीयू पॉइंट क्लाउड को बिल्कुल भी रेंडर नहीं कर सकते हैं। इनका उपयोग मैन्युफैक्चरिंग के लिए भी नहीं किया जा सकता है। पॉइंट क्लाउड्स को पॉलीगॉनल मेश में बदला जा सकता है, हालांकि, वर्तमान एल्गोरिदम ढेलेदार आउटपुट को फिर से बनाते हैं।
संभावित उद्योग उपयोग मामले
बिंदु बादल वास्तव में कई उद्योगों में व्यापक रूप से उपयोग किए जाते हैं। उन्हें ड्रोन या स्मार्ट कारों पर स्थापित LiDARs द्वारा अधिग्रहित किया जा सकता है। बेहतर चालक रहित वाहनों के लिए चलाए जा रहे एल्गोरिदम को बेहतर बनाने के लिए सिमुलेशन के भीतर उपयोग किए जाने वाले एआई के साथ पॉइंट क्लाउड ऑब्जेक्ट्स और वातावरण बना सकते हैं। इसके अलावा, उनका उपयोग मेडिकल इमेजिंग में भी किया जाता है। एआई-आधारित चिकित्सा बिंदु बादलों के निर्माण से रोगियों में रोग और शारीरिक आघात का पता लगाने में भी सुधार हो सकता है।
न्यूरल रेडियंस फील्ड्स (एनईआरएफ)
छवियों के एक सेट और संबंधित कैमरा पोज़ जानकारी को देखते हुए, एक NeRF एक 3D दृश्य का पुनर्निर्माण कर सकता है, यह पता लगाकर कि छवि पर प्रत्येक पिक्सेल 3D स्थान से मेल खाता है। एक बार दृश्य के पुनर्निर्माण के बाद, एक एनईआरएफ अनदेखे कोणों से भी दृश्य का पूर्ण 3डी दृश्य प्रदान कर सकता है। इसके अलावा, प्रतिनिधित्व ही एआई है! मूल रूप से, यह एक तंत्रिका नेटवर्क है जिसमें 3D दृश्य प्रस्तुत करने के लिए आवश्यक संपूर्ण जानकारी होती है। दृश्य को तंत्रिका नेटवर्क के भीतर दर्शाया गया है और जब एक नए कैमरा पोज़ के साथ पूछताछ की जाती है, तो तंत्रिका नेटवर्क उस दृश्य के नए रेंडर के साथ प्रतिक्रिया कर सकता है। जबकि मूल एनईआरएफ नेटवर्क को घंटों (कुछ अवसरों पर दिनों) के लिए प्रशिक्षित किया जाना था, कई उपन्यास एनईआरएफ वेरिएंट केवल सेकंड के भीतर एक उच्च गुणवत्ता वाले 3डी दृश्य का पुनर्निर्माण कर सकते हैं।
एनईआरएफ प्रतिनिधित्व के लाभ
- दृश्य को उसी रूप में प्रस्तुत किया जाता है जैसा हम इसे अपने कैमरे से अनुभव करते हैं, और हम इसे पहले अनदेखे कोणों से देख सकते हैं। यह आसानी से कहा जा सकता है कि आप एनईआरएफ के साथ सूक्ष्म विवरण प्राप्त कर सकते हैं।
- प्रतिपादन। मॉडल का पूरा उद्देश्य दृश्य को एक नए दृश्य कोण से प्रस्तुत करना है।
एनईआरएफ प्रतिनिधित्व के नुकसान
- कोई मात्रा नहीं। न्यूरल रेडियंस फील्ड द्वारा पुनर्निर्मित 3 डी दृश्य वास्तव में एक रेंडर है। इसलिए, उनका उपयोग भौतिकी सिमुलेशन, निर्माण आदि के लिए नहीं किया जा सकता है।
- वे एक 3D दृश्य के पुनर्निर्माण हैं, लेकिन वे दृश्य संपादन की अनुमति नहीं देते हैं। किसी वस्तु को पृष्ठभूमि से अलग करने के तरीके हैं लेकिन फिर भी, आप अभी तक एक NeRF को दूसरे NeRF के भीतर नहीं रख सकते हैं जैसा कि आप बहुभुज, स्वर या बिंदु बादलों के साथ कर सकते हैं।
संभावित उद्योग उपयोग मामले
न्यूरल रेडिएंस फील्ड्स किसी भी कोण से दृश्यों को प्रस्तुत कर सकते हैं, और वे संभावित रूप से सिनेमाई कलाओं द्वारा व्यापक रूप से उपयोग किए जा सकते हैं। यह व्यापक रूप से ज्ञात है कि छायांकन में कैमरा कोण और गति बहुत महत्वपूर्ण हैं, और एनईआरएफ ऐसे कोणों से रेंडर बना सकते हैं जिनसे कैमरा व्यक्ति को परेशानी हो सकती है।
बहुभुज जाल
बहुभुज जाल में बिंदु (अर्थात्, कोने), रेखाएँ होती हैं जो इन बिंदुओं को एक दूसरे से जोड़ती हैं (अर्थात्, किनारे), और बहुभुज जो इन किनारों के बीच में निर्मित होते हैं। कार्यक्षेत्रों को उनके निर्देशांकों द्वारा दर्शाया जाता है; किनारों को दर्शाया जाता है कि वे किस कोने से जुड़ रहे हैं, और बहुभुजों का प्रतिनिधित्व उन किनारों से होता है जिन पर उनका निर्माण किया जा रहा है। इसके अलावा, मेष पर रंग का प्रतिनिधित्व करने के कई तरीके हैं, जिसमें प्रत्येक शीर्ष को लाल, हरे और नीले तीव्रता के मूल्यों के साथ रंगने से लेकर यह तय करना है कि वह रंग प्रसार, स्पेक्युलैरिटी, अपारदर्शिता, अपवर्तक जैसे भौतिक गुण प्रदान करके किसी दिए गए प्रकाश के साथ कैसे इंटरैक्ट करेगा। सूचकांक, सतह सामान्य, आदि।
छवि सेट का उपयोग करके NVDiffrec-MC (2022) जैसे तरीके एक जाल, प्रकाश और सामग्री ट्रिपलेट का अनुमान लगा सकते हैं। हाल ही में, पाठ या छवि इनपुट से जाल और बनावट के पुनर्निर्माण के लिए कई और तरीके विकसित किए गए हैं: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …
बहुभुज जाल प्रतिनिधित्व के लाभ
- जीपीयू हार्डवेयर बहुभुज प्रस्तुतियों के लिए अनुकूलित है, इसलिए बहुभुज जाल प्रस्तुत करने और देखने में सबसे आसान हैं। वे गेमिंग, सीजीआई, वीएफएक्स, एआर/वीआर के लिए व्यापक रूप से उपयोग किए जाते हैं ... आप इसे नाम दें!
- डिजाइनर बहुत बारीक विवरण के साथ बहुत ही अनूठी डिजाइन बनाने के लिए विभिन्न जाल और भौतिक मानकों के साथ खेल सकते हैं।
- शीर्षों और बहुभुजों की संख्या को बदलकर विस्तार के स्तर को आसानी से नियंत्रित किया जा सकता है।
- मेष संपादन के लिए बहुत उन्नत उपकरण हैं, और आजकल मेषों को अपेक्षाकृत आसानी से संशोधित किया जा सकता है।
बहुभुज जाल प्रतिनिधित्व के नुकसान
- संरचना जटिल है। एआई मॉडल के लिए जाल बनाने के लिए, तंत्रिका मॉडल को कोने, किनारों, बहुभुज, सामग्री और रंग उत्पन्न करने में सक्षम होना चाहिए।
- एआई के बिना स्क्रैच से मेश का डिजाइन और निर्माण विशेष रूप से समय लेने वाला होता है और बड़े पैमाने पर इसे संभालना बहुत मुश्किल होता है।
संभावित उद्योग उपयोग मामले
पॉलीगॉनल मेश पहले से ही गेमिंग, सिनेमैटिक आर्ट्स, वेब3 और XR में उपयोग किए जा रहे हैं। ई-कॉमर्स जैसे कई उद्योग 3डी में अपने उत्पादों की कल्पना करके बहुभुज जाल से अत्यधिक लाभान्वित होते हैं। एआई के साथ सामग्री का निर्माण करके, ये सभी उद्योग बड़े पैमाने पर सामग्री उत्पन्न कर सकते हैं और अपने दर्शकों को प्रभावित कर सकते हैं।
आर्टलैब्स में, हम अपनी पाइपलाइन के विभिन्न वर्गों में इन सभी अभ्यावेदन और एआई का उपयोग करते हैं। आर्टलैब्स बड़े पैमाने पर सामग्री बनाने के लिए एआई का उपयोग कैसे करता है, इसे यहां देखें।
पढ़ने के लिए धन्यवाद! मिलते हैं "इनसाइड द लैब" 👋🏻 की अगली पोस्ट में
लेखक: Doğancan Kebude , आर्टलैब्स में R&D लीड