हमने बड़े भाषा मॉडल (एलएलएम) की उल्लेखनीय क्षमताओं को देखा है, लेकिन हमारे आस-पास की दुनिया की उनकी समझ में एक अंतर है - एक गायब हिस्सा। उन्होंने पाठ, कोड और छवियों में उत्कृष्टता हासिल की है, फिर भी उन्हें वास्तव में हमारी वास्तविकता से जुड़ने के लिए संघर्ष करना पड़ा है। यानी अब तक. यहां एआई परिदृश्य में एक अभूतपूर्व छलांग है: 3डी-एलएलएम।
3डी-एलएलएम एक नया मॉडल है जो भाषा और हमारे रहने वाले 3डी क्षेत्र के बीच अंतर को पाटता है। हालाँकि यह हमारी पूरी दुनिया को कवर नहीं करता है, लेकिन यह हमारे जीवन को आकार देने वाले महत्वपूर्ण आयामों और पाठ को समझने में एक महत्वपूर्ण प्रगति है। जैसा कि आप वीडियो में देखेंगे, 3डी-एलएलएम न केवल दुनिया को देखता है बल्कि उसके साथ बातचीत भी करता है। आप पर्यावरण के बारे में प्रश्न पूछ सकते हैं, वस्तुओं की तलाश कर सकते हैं या स्थानों के माध्यम से नेविगेट कर सकते हैं, और इसके सामान्य ज्ञान के तर्क को देख सकते हैं - जो विस्मयकारी करतबों की याद दिलाता है जो हमने चैटजीपीटी के साथ अनुभव किया है।
दिलचस्प बात यह है कि यह जो दुनिया देखता है वह पारंपरिक रूप से सुंदर नहीं हो सकती है, लेकिन इसकी समझ बिंदु बादलों और भाषा में गहरी है। प्वाइंट क्लाउड, 3डी डेटा प्रतिनिधित्व का आधार, वस्तुओं और वातावरण के स्थानिक निर्देशांक को एनकोड करता है, जिससे एआई वास्तविक दुनिया के साथ मूर्त तरीके से बातचीत करने में सक्षम होता है। स्वायत्त ड्राइविंग, रोबोटिक्स और संवर्धित वास्तविकता में उनकी भूमिका के बारे में सोचें- 3डी-एलएलएम इस क्षेत्र में आता है।
उत्सुकतावश, आपको आश्चर्य हो सकता है कि ऐसे मॉडल को 3-आयामी डेटा और भाषा को समझने के लिए कैसे प्रशिक्षित किया गया था। यह प्रक्रिया नवीन और जटिल थी, जिसमें लेखकों ने एक अद्वितीय 3डी-टेक्स्ट डेटासेट का निर्माण किया था। उन्होंने इस डेटा को तीन अलग-अलग तरीकों से इकट्ठा करने के लिए चैटजीपीटी की क्षमता का उपयोग किया, जिनके बारे में आप सीखेंगे, प्रत्येक दृश्य के लिए कार्यों और उदाहरणों का एक व्यापक भंडार तैयार किया।
इस समृद्ध डेटासेट से, लेखकों ने एक एआई मॉडल तैयार किया जो टेक्स्ट और 3डी पॉइंट क्लाउड दोनों को संसाधित करने में सक्षम है। मॉडल दृश्य को लेता है, विभिन्न दृष्टिकोणों के माध्यम से महत्वपूर्ण विशेषताओं को निकालता है, और इसे ऐसे रूप में पुनर्निर्मित करता है जो मॉडल की समझ के साथ प्रतिध्वनित होता है।
परिणाम? पहले 3डी-एलएलएम का जन्म, एक ऐसा मॉडल जो वास्तव में हमारी दुनिया को देखता और समझता है-एआई के विकास में एक दिलचस्प झलक पेश करता है। वीडियो यात्रा का एक स्नैपशॉट प्रस्तुत करता है, लेकिन मैं आपको इस नवाचार के पीछे प्रभावशाली इंजीनियरिंग उपलब्धियों के बारे में गहराई से जानने के लिए पेपर का अध्ययन करने के लिए प्रोत्साहित करता हूं। लिंक नीचे संदर्भ में दिया गया है।
शो का आनंद लो!
सन्दर्भ:
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/3d-llm/
►वीडियो डेमो के साथ प्रोजेक्ट पेज: https://vis-www.cs.umass.edu/3dllm/ ►कोड: https://github.com/UMass-Foundation-Model/3D-LLM
►पेपर: होंग एट अल., 2023: 3डी-एलएलएम, https://arxiv.org/pdf/2307.12981.pdf
►ट्विटर: https://twitter.com/Whats_AI
►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया जाता है!): https://www.louisbouchard.ai/newsletter/
►Patreon पर मेरा समर्थन करें: https://www.patreon.com/whatsai
►हमारे एआई डिस्कॉर्ड से जुड़ें: https://discord.gg/learnaitogether