एआई चालाक हो रहा है, दोस्तों। वे दिन गए जब केवल कृत्रिम बुद्धि से ही निपटा जा सकता था
मैं इस दुस्साहसी परियोजना के माध्यम से ठोकर खा गया
इसलिए, स्वाभाविक रूप से, मैंने गहराई से गोता लगाने के लिए बाध्य महसूस किया
तो, CoDi में ऐसा क्या खास है? सबसे पहले, यह AI पावरहाउस अब तक देखे गए किसी भी जनरेटिव मॉडल की तुलना में अधिक बहुमुखी है। यह इमेज-टू-इमेज या टेक्स्ट-टू-टेक्स्ट जैसे विशिष्ट तौर-तरीकों से बंधा नहीं है। अरे नहीं, CoDi एक मुक्त भावना है, क्योंकि यह "किसी भी-से-किसी" मॉडल है।
यह बुरा लड़का आप जो कुछ भी देते हैं - भाषा, छवि, वीडियो, ऑडियो - लेता है और इसे एक अलग तरीके से प्रसारित करता है।
चैपल हिल में उत्तरी कैरोलिना विश्वविद्यालय के शोधकर्ताओं और Microsoft Azure Cognitive Services Research ने CoDi को न केवल एक साथ कई तौर-तरीकों का प्रबंधन करने के लिए तैयार किया है, बल्कि ऐसे आउटपुट भी उत्पन्न करते हैं जो मूल प्रशिक्षण डेटा में भी नहीं हैं।
अब, इसे ही हम आपके वजन के ऊपर मुक्का मारना कहते हैं।
इससे भी अच्छी बात यह है कि यह सब एक नई रचना योग्य पीढ़ी की रणनीति द्वारा संभव बनाया गया है, जो आपस में जुड़े तौर-तरीकों की सिंक्रनाइज़ पीढ़ी को सक्षम करता है। एक मशीन द्वारा निर्मित पूरी तरह से सिंक किए गए ऑडियो के साथ एक वीडियो की कल्पना करें जो अनिवार्य रूप से अनुमान लगा रहा है कि वे एक साथ कैसे फिट होते हैं।
यह किसी तरह के एआई रीमिक्स कलाकार की तरह है।
उन लोगों के लिए जिन्हें तकनीकी बारीकियों की प्यास है, CoDi एक बहु-स्तरीय प्रशिक्षण योजना का उपयोग करता है, जिसका अर्थ है कि यह इनपुट और आउटपुट के सभी प्रकार के संयोजनों का उल्लेख करते हुए विभिन्न प्रकार के कार्यों को प्रशिक्षित कर सकता है। ऐसा लगता है कि इसमें मल्टीटास्क करने की क्षमता है।
मॉडल की उपयोगिता इसकी वास्तुकला में प्रदर्शित होती है। निम्नलिखित खंड उन प्रमुख तरीकों का कुछ-कुछ तकनीकी सारांश है, जिनका उपयोग निर्माता मॉडल को उस तरह से काम करने के लिए करते हैं, जैसा वे चाहते थे।
CoDi की नींव एक प्रसार मॉडल है, विशेष रूप से एक अव्यक्त प्रसार मॉडल (LDM)। जनरेटिव एआई का यह रूप समय के साथ सूचना के प्रसार की नकल करके डेटा वितरण सीखता है।
प्रशिक्षण के दौरान, यह लगातार इनपुट डेटा में यादृच्छिक शोर जोड़ता है, इस प्रक्रिया को उल्टा करना सीखता है और डेटा को उसके मूल रूप में वापस साफ करता है। जब यह नया डेटा उत्पन्न कर रहा होता है, तो यह सरल शोर लेता है और प्रशिक्षण डेटा की तरह दिखने वाली चीज़ का उत्पादन करने के लिए इसे अस्वीकार कर देता है।
एलडीएम के मामले में, एक ऑटोएन्कोडर- एक प्रकार का एआई मॉडल जो अपने इनपुट को फिर से बना सकता है- का उपयोग डेटा को एक छोटे "अव्यक्त" रूप में संपीड़ित करने के लिए किया जाता है, जो कि समय के साथ फैल जाता है। यह प्रक्रिया कम्प्यूटेशनल लागत को काफी कम कर देती है और मॉडल की दक्षता में सुधार करती है।
CoDi का अनूठा पहलू इसकी रचना योग्य मल्टीमॉडल कंडीशनिंग में निहित है। यह घटक इसे इनपुट के रूप में तौर-तरीकों-पाठ, छवि, वीडियो और ऑडियो-के किसी भी संयोजन को स्वीकार करने की अनुमति देता है।
यह इन सभी तौर-तरीकों से इनपुट को एक ही स्थान पर संरेखित करके प्राप्त किया जाता है, जिसे उनके अभ्यावेदन को प्रक्षेपित करके आसानी से वातानुकूलित किया जा सकता है।
कुशल कम्प्यूटेशनल संचालन सुनिश्चित करने के लिए, "ब्रिजिंग एलाइनमेंट" नामक एक सरल तकनीक का उपयोग किया जाता है। टेक्स्ट को "ब्रिजिंग" मोडैलिटी के रूप में चुना जाता है क्योंकि यह आमतौर पर टेक्स्ट-इमेज, टेक्स्ट-वीडियो और टेक्स्ट-ऑडियो जोड़े जैसे अन्य तौर-तरीकों के साथ जोड़ा जाता है।
यह विधि मॉडल को फ़ीचर स्पेस में सभी चार तौर-तरीकों को संरेखित करने की अनुमति देती है, तब भी जब छवि-ऑडियो जोड़े जैसे दोहरे तौर-तरीके विरल हों।
एक मॉडल को प्रशिक्षित करना जो किसी भी इनपुट को किसी भी आउटपुट में बदल सकता है, एक मांगलिक कार्य है जिसके लिए विविध डेटा संसाधनों पर पर्याप्त सीखने की आवश्यकता होती है।
इससे निपटने के लिए, CoDi को कंपोजेबल और इंटीग्रेटिव होने के लिए डिज़ाइन किया गया है, जिसका अर्थ है कि प्रत्येक मॉडेलिटी के लिए अलग-अलग मॉडल स्वतंत्र रूप से बनाए जा सकते हैं और फिर बाद में सुचारू रूप से एकीकृत किए जा सकते हैं।
उदाहरण के लिए, एक छवि प्रसार मॉडल का उपयोग बड़े पैमाने पर, उच्च-गुणवत्ता वाले छवि डेटासेट पर प्रशिक्षित स्थापित मॉडल के ज्ञान और पीढ़ी की निष्ठा को स्थानांतरित करने के लिए किया जा सकता है।
इसी तरह, एक वीडियो प्रसार मॉडल वीडियो के अस्थायी गुणों को मॉडल करने के लिए अस्थायी मॉड्यूल के साथ छवि विसारक का विस्तार कर सकता है।
इसके अलावा, ऑडियो डिफ्यूज़र देखता है
पहेली का अंतिम भाग इन स्वतंत्र रूप से प्रशिक्षित मॉडलों को एक साथ कई तौर-तरीके बनाने में एक साथ काम करने की अनुमति देना है। यह मॉडल में क्रॉस-मोडल अटेंशन सबलेयर जोड़कर हासिल किया जाता है।
यह "अव्यक्त संरेखण" तकनीक प्रत्येक मॉडेलिटी-विशिष्ट मॉडल को दूसरों पर ध्यान देने देती है, उनके अव्यक्त चर को एक साझा स्थान में पेश करती है जिसे वे सभी एक्सेस कर सकते हैं।
यह डिज़ाइन तौर-तरीकों के किसी भी संयोजन की सहज संयुक्त पीढ़ी के लिए अनुमति देता है। उदाहरण के लिए, भले ही केवल A और B, और B और C के तौर-तरीकों की संयुक्त पीढ़ी के लिए प्रशिक्षित किया गया हो, CoDi बिना किसी अतिरिक्त प्रशिक्षण के तौर-तरीकों A और C की संयुक्त पीढ़ी को प्राप्त कर सकता है!
इसके अलावा, यह तौर-तरीकों ए, बी और सी की संयुक्त पीढ़ी को समवर्ती रूप से संभाल सकता है। यह बहुमुखी प्रतिभा संभव है क्योंकि मॉडल ने विभिन्न तौर-तरीकों के बीच क्रॉस-अटेंड करना सीख लिया है।
संक्षेप में, इन विधियों के माध्यम से, CoDi किसी भी प्रकार के इनपुट को आउटपुट के किसी अन्य रूप में परिवर्तित करना सीख सकता है, सभी संश्लेषण प्रवाह के लिए उच्च पीढ़ी की गुणवत्ता बनाए रखता है। नतीजतन, यह मल्टीमॉडल एआई इंटरैक्शन के लिए संभावनाओं का एक बिल्कुल नया क्षेत्र खोलता है।
उदाहरण के लिए, CoDi को टेक्स्ट इनपुट "स्केटबोर्ड पर टेडी बियर, 4k, उच्च रिज़ॉल्यूशन" प्रदान करें, और यह ध्वनि के साथ एक वीडियो आउटपुट कर सकता है। या इसे "साइबरपंक वाइब" के साथ पाठ और एक छवि खिलाएं, और यह दिए गए विषय के लिए पाठ और एक छवि फिटिंग उत्पन्न कर सकता है।
उदाहरण पीढ़ियों को नीचे दिखाया गया है -
CoDi की किसी भी-से-किसी भी पीढ़ी के निहितार्थ विशाल हैं। एक ऐसी दुनिया में जो तेजी से डिजिटल होती जा रही है, CoDi जैसे टूल का मतलब है कि प्रौद्योगिकी के साथ और भी अधिक बहुमुखी, प्राकृतिक और मानव-समान तरीके से बातचीत करने में सक्षम होना। यह वर्चुअल असिस्टेंट से लेकर कंटेंट क्रिएशन और एक्सेसिबिलिटी टूल्स से लेकर मनोरंजन तक सब कुछ बदल सकता है।
लेकिन हमेशा की तरह, निहितार्थ विशुद्ध यूटोपियन नहीं हैं। जैसे-जैसे एआई यथार्थवादी, मल्टीमॉडल आउटपुट उत्पन्न करने में बेहतर होता जाता है, एआई-जनित सामग्री से वास्तविक को समझने की आवश्यकता और अधिक महत्वपूर्ण हो जाती है। गलत सूचना अधिक ठोस और डीपफेक अधिक प्रचलित हो सकती है।
लेकिन चलो परेड पर बारिश नहीं करते हैं। कोडी एआई तकनीक में एक महत्वपूर्ण कदम है, यह दर्शाता है कि हम मानव संचार की समृद्ध टेपेस्ट्री को समझने और फिर से बनाने के लिए प्रशिक्षण मशीनों में कितनी दूर आ गए हैं।
यदि आप कोडी के यांत्रिकी में गहरी खुदाई करना चाहते हैं, या यहां तक कि स्वयं के साथ प्रयोग भी कर सकते हैं, तो आप ओपन-सोर्स की जांच कर सकते हैं I
अंत में, जो CoDi को वास्तव में क्रांतिकारी बनाता है, वह विभिन्न प्रकार के डेटा को मूल रूप से मिश्रित करने और आउटपुट उत्पन्न करने की क्षमता है जो पहले असंभव माना जाता था। यह एक कीमियागर को काम करते हुए देखने जैसा है, जो सीसे को सोने में बदल रहा है।
इस मामले को छोड़कर, यह किसी भी प्रकार के इनपुट को किसी भी प्रकार के आउटपुट में बदल रहा है। यह वास्तव में एआई का एक उल्लेखनीय युग है जिसमें हम रह रहे हैं।