paint-brush
AI-आधारित 3D सामग्री कैसे बनाएँद्वारा@artlabs
2,071 रीडिंग
2,071 रीडिंग

AI-आधारित 3D सामग्री कैसे बनाएँ

द्वारा artlabs7m2023/03/03
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

हमारी टीम ने आकर्षक दुनिया में तल्लीन कर लिया है कि एआई कार्यप्रणाली 3डी सामग्री का प्रतिनिधित्व और प्रबंधन कैसे करती है, और एआई 3डी सामग्री निर्माण के लिए इन प्रतिनिधित्वों का लाभ कैसे उठाती है। हमने इन तकनीकों के लाभ और कमियों का भी पता लगाया है।
featured image - AI-आधारित 3D सामग्री कैसे बनाएँ
artlabs HackerNoon profile picture

नमस्ते! आर्टलैब्स के शोध और इंजीनियरिंग ब्लॉग 'इनसाइड द लैब' में आपका स्वागत है। इस सप्ताह का विषय है कि कैसे 3डी सामग्री को एआई पद्धतियों द्वारा प्रस्तुत और नियंत्रित किया जाता है, कैसे एआई 3डी सामग्री निर्माण के लिए इन अभ्यावेदन का उपयोग करता है, साथ ही साथ इन तकनीकों के पेशेवरों और विपक्षों को भी।


मशीन लर्निंग मॉडल को विभिन्न 3D सामग्री अभ्यावेदन जैसे वोक्सल्स, पॉइंट क्लाउड्स, साइन्ड डिस्टेंस फील्ड्स, न्यूरल रेडिएशन फील्ड्स (NeRF), पॉलीगोनल मेश का उपयोग करके प्रशिक्षित किया जाता है ... हम इस पोस्ट में वोक्सेल, पॉइंट क्लाउड, NeRF और पॉलीगॉन प्रतिनिधित्व के बारे में बात करेंगे। आइए, एक-एक करके इनके बारे में जानें।

स्वर

छवि मथियास हम्ट द्वारा वोक्सल ग्रिड से ली गई है


आप पिक्चर एलिमेंट्स (उर्फ पिक्सल्स) के बारे में जानते हैं लेकिन क्या आपने कभी वॉल्यूम एलिमेंट्स (उर्फ वोक्सल्स) के बारे में सुना है? अब तुमने किया! पिक्सेल को x और y निर्देशांक द्वारा दर्शाए गए 2D ग्रिड पर 0 और 255 के बीच अतिरिक्त अपारदर्शिता मान के साथ लाल, हरे और नीले रंग की तीव्रता वाले मानों के रूप में दर्शाया जाता है। वोक्सल्स, इसी तरह एक 3डी ग्रिड पर लाल, हरे, नीले और अपारदर्शिता मूल्यों से मिलकर बनता है। एआई मॉडल का उद्देश्य प्रत्येक स्वर के लिए इन 4 मूल्यों को सीखना है ताकि कुशलतापूर्वक दृश्य का प्रतिनिधित्व किया जा सके।

छवि EVoIT पेपर के चित्र 2 से ली गई है


मशीन लर्निंग मॉडल जैसे कि 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020), और EVoIT (2021) वोक्सल प्रतिनिधित्व की सादगी का लाभ उठाते हैं और उस ऑब्जेक्ट को वोक्सल के रूप में पुनर्निर्माण करने के लिए ऑब्जेक्ट की बहु-दृश्य छवियों का उपयोग करते हैं। जाल।

स्वर प्रतिनिधित्व के लाभ

  1. 3D सामग्री के लिए सरलतम संभव प्रतिनिधित्व। ग्रिड के भीतर प्रत्येक घन के लिए प्रतिनिधित्व केवल लाल, हरा, नीला और अस्पष्टता मान है।
  2. मशीन लर्निंग मॉडल बनाना आसान है। जैसा कि प्रतिनिधित्व सरल है, मॉडल के बारे में सीखना आसान है।

स्वर प्रतिनिधित्व के नुकसान

  1. संकल्प, और वह एक बड़ा है! 512 किनारे की लंबाई वाली वोक्सल ग्रिड में वास्तव में 134 मिलियन से अधिक डेटा बिंदु होते हैं, जबकि एक 4096x4096 छवि में केवल 16 मिलियन से ऊपर होते हैं, और हम जानते हैं कि 4K छवि का फ़ाइल आकार कितना बड़ा हो सकता है। वोक्सेल फ़ाइलों को उनके फ़ाइल आकार को कम करने के लिए संपीड़ित करने के कई तरीके हैं। हालाँकि, वर्तमान मशीन लर्निंग मॉडल अभी भी इतनी जानकारी रखने के लिए संघर्ष कर रहे हैं। बेशक, स्मृति में खाली स्वरों को संग्रहीत न करके या आगे जाकर और अधिक संपीड़ित करके इस सीमा को पार किया जा सकता है। लेकिन मशीन लर्निंग के दौरान इन कंप्रेशन्स को लागू नहीं किया जा सकता है क्योंकि वोक्सल ग्रिड के निर्माण के बाद कंप्रेशन्स किए जा सकते हैं, और मशीन लर्निंग के साथ जो किया जा रहा है वह अभी भी "निर्माण" है।
  2. प्रतिपादन। जीपीयू को पॉलीगॉन रेंडर करने के लिए अनुकूलित किया गया है, और उच्च-रिज़ॉल्यूशन वोक्सल्स को कुशलतापूर्वक रेंडर करने के लिए कोई विशिष्ट हार्डवेयर नहीं है।

संभावित उद्योग उपयोग मामले

यदि आप घन आकृतियों का प्रतिनिधित्व करना चाहते हैं तो वोक्सल्स हेला अच्छे हैं। जैसे पिक्सेल कला है, स्वरों पर आधारित 3डी कला भी है। इसके अलावा, कौन Minecraft जैसी दुनिया उत्पन्न नहीं करना चाहता है?! सैंडबॉक्स जैसे मेटावर्स भी स्वर अभ्यावेदन का उपयोग करते हैं, और एआई-आधारित स्वर निर्माण उन्हें बेहतर बनाने में भी मदद कर सकता है।

बिंदु बादल

छवि मथायस हम्ट द्वारा प्वाइंट क्लाउड से ली गई है


ठीक है, आपने यह अनुमान लगाया: बिंदु बादल 3D अंतरिक्ष में रंगीन बिंदुओं से बने बादल हैं। स्वरों के विपरीत, वे एक ग्रिड के भीतर समाहित नहीं होते हैं, इसलिए आप बिंदु बादलों के साथ वस्तुओं की एक विस्तृत श्रृंखला का बेहतर प्रतिनिधित्व कर सकते हैं। हालाँकि, चूंकि कोई ग्रिड नहीं है, इसलिए आपको 3D अंतरिक्ष में प्रत्येक बिंदु की स्थिति पर विचार करने की भी आवश्यकता है। इसका मतलब है कि आपको प्रत्येक डेटा बिंदु के लिए स्वरों की तुलना में अधिक डेटा रखने की आवश्यकता है।

छवि पॉइंट-ई पेपर के चित्र 2 से ली गई है।


OpenAI के पॉइंट-ई (2022) जैसे मॉडल ने पॉइंट क्लाउड-आधारित 3D सामग्री निर्माण में सफलता प्रदर्शित की है। हालाँकि, जैसा कि दुनिया में सब कुछ अच्छा है, बिंदु बादलों के अपने फायदे और नुकसान हैं।

पॉइंट क्लाउड प्रतिनिधित्व के लाभ

  1. वोक्सल्स की तुलना में फाइन डिटेल्स को बेहतर तरीके से हैंडल करना। बिंदु बादल घने या विरल हो सकते हैं। विरल होने पर, अधिकांश विवरणों को याद करना आसान होता है, लेकिन जब एक बिंदु बादल सघन होता है, तो कोई मूल वस्तु/आकृति का बहुत अच्छी तरह से प्रतिनिधित्व कर सकता है।
  2. बड़े दृश्यों का प्रतिनिधित्व करने में बढ़िया! LiDAR, पॉइंट क्लाउड प्राप्त करने का एक शानदार तरीका है, और स्मार्ट वाहनों में इनका व्यापक रूप से उपयोग किया जाता है। जंगलों, कारखानों, स्टेडियमों, शहर के चौराहों आदि सहित पूरे क्षेत्र को स्कैन करने वाले ड्रोन के कई उदाहरण हैं। उन्होंने डसेलडोर्फ के पूरे शहर का एक बिंदु बादल भी बनाया!

पॉइंट क्लाउड प्रतिनिधित्व के नुकसान

  1. कोई मात्रा नहीं। यहां तक कि जब एक बिंदु बादल घना होता है, तो यह बिंदुओं से निर्मित होता है, और बिंदु एक आयतन का प्रतिनिधित्व नहीं कर सकते हैं।
  2. प्रतिपादन। चूँकि पॉइंट क्लाउड पर कोई पॉलीगॉन नहीं होता है, इसलिए मौजूदा जीपीयू पॉइंट क्लाउड को बिल्कुल भी रेंडर नहीं कर सकते हैं। इनका उपयोग मैन्युफैक्चरिंग के लिए भी नहीं किया जा सकता है। पॉइंट क्लाउड्स को पॉलीगॉनल मेश में बदला जा सकता है, हालांकि, वर्तमान एल्गोरिदम ढेलेदार आउटपुट को फिर से बनाते हैं।

संभावित उद्योग उपयोग मामले

बिंदु बादल वास्तव में कई उद्योगों में व्यापक रूप से उपयोग किए जाते हैं। उन्हें ड्रोन या स्मार्ट कारों पर स्थापित LiDARs द्वारा अधिग्रहित किया जा सकता है। बेहतर चालक रहित वाहनों के लिए चलाए जा रहे एल्गोरिदम को बेहतर बनाने के लिए सिमुलेशन के भीतर उपयोग किए जाने वाले एआई के साथ पॉइंट क्लाउड ऑब्जेक्ट्स और वातावरण बना सकते हैं। इसके अलावा, उनका उपयोग मेडिकल इमेजिंग में भी किया जाता है। एआई-आधारित चिकित्सा बिंदु बादलों के निर्माण से रोगियों में रोग और शारीरिक आघात का पता लगाने में भी सुधार हो सकता है।

न्यूरल रेडियंस फील्ड्स (एनईआरएफ)

छवियों के एक सेट और संबंधित कैमरा पोज़ जानकारी को देखते हुए, एक NeRF एक 3D दृश्य का पुनर्निर्माण कर सकता है, यह पता लगाकर कि छवि पर प्रत्येक पिक्सेल 3D स्थान से मेल खाता है। एक बार दृश्य के पुनर्निर्माण के बाद, एक एनईआरएफ अनदेखे कोणों से भी दृश्य का पूर्ण 3डी दृश्य प्रदान कर सकता है। इसके अलावा, प्रतिनिधित्व ही एआई है! मूल रूप से, यह एक तंत्रिका नेटवर्क है जिसमें 3D दृश्य प्रस्तुत करने के लिए आवश्यक संपूर्ण जानकारी होती है। दृश्य को तंत्रिका नेटवर्क के भीतर दर्शाया गया है और जब एक नए कैमरा पोज़ के साथ पूछताछ की जाती है, तो तंत्रिका नेटवर्क उस दृश्य के नए रेंडर के साथ प्रतिक्रिया कर सकता है। जबकि मूल एनईआरएफ नेटवर्क को घंटों (कुछ अवसरों पर दिनों) के लिए प्रशिक्षित किया जाना था, कई उपन्यास एनईआरएफ वेरिएंट केवल सेकंड के भीतर एक उच्च गुणवत्ता वाले 3डी दृश्य का पुनर्निर्माण कर सकते हैं।

एनईआरएफ प्रतिनिधित्व के लाभ

  1. दृश्य को उसी रूप में प्रस्तुत किया जाता है जैसा हम इसे अपने कैमरे से अनुभव करते हैं, और हम इसे पहले अनदेखे कोणों से देख सकते हैं। यह आसानी से कहा जा सकता है कि आप एनईआरएफ के साथ सूक्ष्म विवरण प्राप्त कर सकते हैं।
  2. प्रतिपादन। मॉडल का पूरा उद्देश्य दृश्य को एक नए दृश्य कोण से प्रस्तुत करना है।

एनईआरएफ प्रतिनिधित्व के नुकसान

  1. कोई मात्रा नहीं। न्यूरल रेडियंस फील्ड द्वारा पुनर्निर्मित 3 डी दृश्य वास्तव में एक रेंडर है। इसलिए, उनका उपयोग भौतिकी सिमुलेशन, निर्माण आदि के लिए नहीं किया जा सकता है।
  2. वे एक 3D दृश्य के पुनर्निर्माण हैं, लेकिन वे दृश्य संपादन की अनुमति नहीं देते हैं। किसी वस्तु को पृष्ठभूमि से अलग करने के तरीके हैं लेकिन फिर भी, आप अभी तक एक NeRF को दूसरे NeRF के भीतर नहीं रख सकते हैं जैसा कि आप बहुभुज, स्वर या बिंदु बादलों के साथ कर सकते हैं।

संभावित उद्योग उपयोग मामले

न्यूरल रेडिएंस फील्ड्स किसी भी कोण से दृश्यों को प्रस्तुत कर सकते हैं, और वे संभावित रूप से सिनेमाई कलाओं द्वारा व्यापक रूप से उपयोग किए जा सकते हैं। यह व्यापक रूप से ज्ञात है कि छायांकन में कैमरा कोण और गति बहुत महत्वपूर्ण हैं, और एनईआरएफ ऐसे कोणों से रेंडर बना सकते हैं जिनसे कैमरा व्यक्ति को परेशानी हो सकती है।

बहुभुज जाल

छवि UPenn 3D ग्राफ़िक्स ट्यूटोरियल से ली गई है


बहुभुज जाल में बिंदु (अर्थात्, कोने), रेखाएँ होती हैं जो इन बिंदुओं को एक दूसरे से जोड़ती हैं (अर्थात्, किनारे), और बहुभुज जो इन किनारों के बीच में निर्मित होते हैं। कार्यक्षेत्रों को उनके निर्देशांकों द्वारा दर्शाया जाता है; किनारों को दर्शाया जाता है कि वे किस कोने से जुड़ रहे हैं, और बहुभुजों का प्रतिनिधित्व उन किनारों से होता है जिन पर उनका निर्माण किया जा रहा है। इसके अलावा, मेष पर रंग का प्रतिनिधित्व करने के कई तरीके हैं, जिसमें प्रत्येक शीर्ष को लाल, हरे और नीले तीव्रता के मूल्यों के साथ रंगने से लेकर यह तय करना है कि वह रंग प्रसार, स्पेक्युलैरिटी, अपारदर्शिता, अपवर्तक जैसे भौतिक गुण प्रदान करके किसी दिए गए प्रकाश के साथ कैसे इंटरैक्ट करेगा। सूचकांक, सतह सामान्य, आदि।

इमेज Magic3D प्रोजेक्ट पेज से ली गई है


छवि सेट का उपयोग करके NVDiffrec-MC (2022) जैसे तरीके एक जाल, प्रकाश और सामग्री ट्रिपलेट का अनुमान लगा सकते हैं। हाल ही में, पाठ या छवि इनपुट से जाल और बनावट के पुनर्निर्माण के लिए कई और तरीके विकसित किए गए हैं: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D

बहुभुज जाल प्रतिनिधित्व के लाभ

  1. जीपीयू हार्डवेयर बहुभुज प्रस्तुतियों के लिए अनुकूलित है, इसलिए बहुभुज जाल प्रस्तुत करने और देखने में सबसे आसान हैं। वे गेमिंग, सीजीआई, वीएफएक्स, एआर/वीआर के लिए व्यापक रूप से उपयोग किए जाते हैं ... आप इसे नाम दें!
  2. डिजाइनर बहुत बारीक विवरण के साथ बहुत ही अनूठी डिजाइन बनाने के लिए विभिन्न जाल और भौतिक मानकों के साथ खेल सकते हैं।
  3. शीर्षों और बहुभुजों की संख्या को बदलकर विस्तार के स्तर को आसानी से नियंत्रित किया जा सकता है।
  4. मेष संपादन के लिए बहुत उन्नत उपकरण हैं, और आजकल मेषों को अपेक्षाकृत आसानी से संशोधित किया जा सकता है।

बहुभुज जाल प्रतिनिधित्व के नुकसान

  1. संरचना जटिल है। एआई मॉडल के लिए जाल बनाने के लिए, तंत्रिका मॉडल को कोने, किनारों, बहुभुज, सामग्री और रंग उत्पन्न करने में सक्षम होना चाहिए।
  2. एआई के बिना स्क्रैच से मेश का डिजाइन और निर्माण विशेष रूप से समय लेने वाला होता है और बड़े पैमाने पर इसे संभालना बहुत मुश्किल होता है।

संभावित उद्योग उपयोग मामले

पॉलीगॉनल मेश पहले से ही गेमिंग, सिनेमैटिक आर्ट्स, वेब3 और XR में उपयोग किए जा रहे हैं। ई-कॉमर्स जैसे कई उद्योग 3डी में अपने उत्पादों की कल्पना करके बहुभुज जाल से अत्यधिक लाभान्वित होते हैं। एआई के साथ सामग्री का निर्माण करके, ये सभी उद्योग बड़े पैमाने पर सामग्री उत्पन्न कर सकते हैं और अपने दर्शकों को प्रभावित कर सकते हैं।

आर्टलैब्स में, हम अपनी पाइपलाइन के विभिन्न वर्गों में इन सभी अभ्यावेदन और एआई का उपयोग करते हैं। आर्टलैब्स बड़े पैमाने पर सामग्री बनाने के लिए एआई का उपयोग कैसे करता है, इसे यहां देखें।


पढ़ने के लिए धन्यवाद! मिलते हैं "इनसाइड द लैब" 👋🏻 की अगली पोस्ट में


लेखक: Doğancan Kebude , आर्टलैब्स में R&D लीड