2,542 रीडिंग

यह AI किसी भी इनपुट को किसी भी आउटपुट में ट्रांसलेट कर सकता है: यहां बताया गया है कि यह एक बड़ी डील क्यों है

द्वारा aimodels446m2023/05/27

बहुत लंबा; पढ़ने के लिए

CoDi एक गेम-चेंजिंग जेनेरेटिव मॉडल है जो इनपुट के मिश्रित बैग को संभाल सकता है। यह टेक्स्ट, ऑडियो, वीडियो, छवियों को संभाल सकता है और उन्हें आउटपुट के किसी अन्य संयोजन में परिवर्तित कर सकता है। CoDi एक बहु-स्तरीय प्रशिक्षण योजना का उपयोग करता है, जिसका अर्थ है कि यह विभिन्न प्रकार के कार्यों को प्रशिक्षित कर सकता है।

featured image - यह AI किसी भी इनपुट को किसी भी आउटपुट में ट्रांसलेट कर सकता है: यहां बताया गया है कि यह एक बड़ी डील क्यों है

एआई चालाक हो रहा है, दोस्तों। वे दिन गए जब केवल कृत्रिम बुद्धि से ही निपटा जा सकता था एक प्रकार का इनपुट और एक ही प्रकार का आउटपुट थूकना . यह का युग है कोडी : एक गेम-चेंजिंग जेनेरेटिव मॉडल जो इनपुट के मिश्रित बैग को संभाल सकता है (टेक्स्ट, ऑडियो, वीडियो, इमेज सोचें) और उन्हें आउटपुट के किसी अन्य संयोजन में ट्रांसम्यूट करें।

मैं इस दुस्साहसी परियोजना के माध्यम से ठोकर खा गया करें एवी शिफमैन द्वारा, एक एआई उत्साही जिसकी जिज्ञासा कोई सीमा नहीं है।

इसलिए, स्वाभाविक रूप से, मैंने गहराई से गोता लगाने के लिए बाध्य महसूस किया कागज़ जो इस रोमांचक सफलता का विवरण देता है। में पट्टा, क्योंकि यह एक जंगली सवारी है।

पार्टी में आपका स्वागत है, CoDi

तो, CoDi में ऐसा क्या खास है? सबसे पहले, यह AI पावरहाउस अब तक देखे गए किसी भी जनरेटिव मॉडल की तुलना में अधिक बहुमुखी है। यह इमेज-टू-इमेज या टेक्स्ट-टू-टेक्स्ट जैसे विशिष्ट तौर-तरीकों से बंधा नहीं है। अरे नहीं, CoDi एक मुक्त भावना है, क्योंकि यह "किसी भी-से-किसी" मॉडल है।

यह बुरा लड़का आप जो कुछ भी देते हैं - भाषा, छवि, वीडियो, ऑडियो - लेता है और इसे एक अलग तरीके से प्रसारित करता है।

चैपल हिल में उत्तरी कैरोलिना विश्वविद्यालय के शोधकर्ताओं और Microsoft Azure Cognitive Services Research ने CoDi को न केवल एक साथ कई तौर-तरीकों का प्रबंधन करने के लिए तैयार किया है, बल्कि ऐसे आउटपुट भी उत्पन्न करते हैं जो मूल प्रशिक्षण डेटा में भी नहीं हैं।

अब, इसे ही हम आपके वजन के ऊपर मुक्का मारना कहते हैं।

इससे भी अच्छी बात यह है कि यह सब एक नई रचना योग्य पीढ़ी की रणनीति द्वारा संभव बनाया गया है, जो आपस में जुड़े तौर-तरीकों की सिंक्रनाइज़ पीढ़ी को सक्षम करता है। एक मशीन द्वारा निर्मित पूरी तरह से सिंक किए गए ऑडियो के साथ एक वीडियो की कल्पना करें जो अनिवार्य रूप से अनुमान लगा रहा है कि वे एक साथ कैसे फिट होते हैं।

यह किसी तरह के एआई रीमिक्स कलाकार की तरह है।

लेकिन ये कैसे काम करता है?

उन लोगों के लिए जिन्हें तकनीकी बारीकियों की प्यास है, CoDi एक बहु-स्तरीय प्रशिक्षण योजना का उपयोग करता है, जिसका अर्थ है कि यह इनपुट और आउटपुट के सभी प्रकार के संयोजनों का उल्लेख करते हुए विभिन्न प्रकार के कार्यों को प्रशिक्षित कर सकता है। ऐसा लगता है कि इसमें मल्टीटास्क करने की क्षमता है।

मॉडल की उपयोगिता इसकी वास्तुकला में प्रदर्शित होती है। निम्नलिखित खंड उन प्रमुख तरीकों का कुछ-कुछ तकनीकी सारांश है, जिनका उपयोग निर्माता मॉडल को उस तरह से काम करने के लिए करते हैं, जैसा वे चाहते थे।

प्रारंभिक: अव्यक्त प्रसार मॉडल

CoDi की नींव एक प्रसार मॉडल है, विशेष रूप से एक अव्यक्त प्रसार मॉडल (LDM)। जनरेटिव एआई का यह रूप समय के साथ सूचना के प्रसार की नकल करके डेटा वितरण सीखता है।

प्रशिक्षण के दौरान, यह लगातार इनपुट डेटा में यादृच्छिक शोर जोड़ता है, इस प्रक्रिया को उल्टा करना सीखता है और डेटा को उसके मूल रूप में वापस साफ करता है। जब यह नया डेटा उत्पन्न कर रहा होता है, तो यह सरल शोर लेता है और प्रशिक्षण डेटा की तरह दिखने वाली चीज़ का उत्पादन करने के लिए इसे अस्वीकार कर देता है।

एलडीएम के मामले में, एक ऑटोएन्कोडर- एक प्रकार का एआई मॉडल जो अपने इनपुट को फिर से बना सकता है- का उपयोग डेटा को एक छोटे "अव्यक्त" रूप में संपीड़ित करने के लिए किया जाता है, जो कि समय के साथ फैल जाता है। यह प्रक्रिया कम्प्यूटेशनल लागत को काफी कम कर देती है और मॉडल की दक्षता में सुधार करती है।

संगत मल्टीमॉडल कंडीशनिंग

CoDi का अनूठा पहलू इसकी रचना योग्य मल्टीमॉडल कंडीशनिंग में निहित है। यह घटक इसे इनपुट के रूप में तौर-तरीकों-पाठ, छवि, वीडियो और ऑडियो-के किसी भी संयोजन को स्वीकार करने की अनुमति देता है।

यह इन सभी तौर-तरीकों से इनपुट को एक ही स्थान पर संरेखित करके प्राप्त किया जाता है, जिसे उनके अभ्यावेदन को प्रक्षेपित करके आसानी से वातानुकूलित किया जा सकता है।

कुशल कम्प्यूटेशनल संचालन सुनिश्चित करने के लिए, "ब्रिजिंग एलाइनमेंट" नामक एक सरल तकनीक का उपयोग किया जाता है। टेक्स्ट को "ब्रिजिंग" मोडैलिटी के रूप में चुना जाता है क्योंकि यह आमतौर पर टेक्स्ट-इमेज, टेक्स्ट-वीडियो और टेक्स्ट-ऑडियो जोड़े जैसे अन्य तौर-तरीकों के साथ जोड़ा जाता है।

यह विधि मॉडल को फ़ीचर स्पेस में सभी चार तौर-तरीकों को संरेखित करने की अनुमति देती है, तब भी जब छवि-ऑडियो जोड़े जैसे दोहरे तौर-तरीके विरल हों।

रचना योग्य प्रसार

एक मॉडल को प्रशिक्षित करना जो किसी भी इनपुट को किसी भी आउटपुट में बदल सकता है, एक मांगलिक कार्य है जिसके लिए विविध डेटा संसाधनों पर पर्याप्त सीखने की आवश्यकता होती है।

इससे निपटने के लिए, CoDi को कंपोजेबल और इंटीग्रेटिव होने के लिए डिज़ाइन किया गया है, जिसका अर्थ है कि प्रत्येक मॉडेलिटी के लिए अलग-अलग मॉडल स्वतंत्र रूप से बनाए जा सकते हैं और फिर बाद में सुचारू रूप से एकीकृत किए जा सकते हैं।

उदाहरण के लिए, एक छवि प्रसार मॉडल का उपयोग बड़े पैमाने पर, उच्च-गुणवत्ता वाले छवि डेटासेट पर प्रशिक्षित स्थापित मॉडल के ज्ञान और पीढ़ी की निष्ठा को स्थानांतरित करने के लिए किया जा सकता है।

इसी तरह, एक वीडियो प्रसार मॉडल वीडियो के अस्थायी गुणों को मॉडल करने के लिए अस्थायी मॉड्यूल के साथ छवि विसारक का विस्तार कर सकता है।

इसके अलावा, ऑडियो डिफ्यूज़र देखता है mel-spectrogram एक चैनल के साथ एक छवि के रूप में ऑडियो का, और एक पाठ प्रसार मॉडल पाठ डेटा को अन्य मॉडलों की तरह छोटे अव्यक्त रूप में संपीड़ित करने के लिए एक परिवर्तनशील ऑटोएन्कोडर का उपयोग करता है।

अव्यक्त संरेखण द्वारा संयुक्त मल्टीमॉडल जनरेशन

पहेली का अंतिम भाग इन स्वतंत्र रूप से प्रशिक्षित मॉडलों को एक साथ कई तौर-तरीके बनाने में एक साथ काम करने की अनुमति देना है। यह मॉडल में क्रॉस-मोडल अटेंशन सबलेयर जोड़कर हासिल किया जाता है।

यह "अव्यक्त संरेखण" तकनीक प्रत्येक मॉडेलिटी-विशिष्ट मॉडल को दूसरों पर ध्यान देने देती है, उनके अव्यक्त चर को एक साझा स्थान में पेश करती है जिसे वे सभी एक्सेस कर सकते हैं।

यह डिज़ाइन तौर-तरीकों के किसी भी संयोजन की सहज संयुक्त पीढ़ी के लिए अनुमति देता है। उदाहरण के लिए, भले ही केवल A और B, और B और C के तौर-तरीकों की संयुक्त पीढ़ी के लिए प्रशिक्षित किया गया हो, CoDi बिना किसी अतिरिक्त प्रशिक्षण के तौर-तरीकों A और C की संयुक्त पीढ़ी को प्राप्त कर सकता है!

इसके अलावा, यह तौर-तरीकों ए, बी और सी की संयुक्त पीढ़ी को समवर्ती रूप से संभाल सकता है। यह बहुमुखी प्रतिभा संभव है क्योंकि मॉडल ने विभिन्न तौर-तरीकों के बीच क्रॉस-अटेंड करना सीख लिया है।

संक्षेप में, इन विधियों के माध्यम से, CoDi किसी भी प्रकार के इनपुट को आउटपुट के किसी अन्य रूप में परिवर्तित करना सीख सकता है, सभी संश्लेषण प्रवाह के लिए उच्च पीढ़ी की गुणवत्ता बनाए रखता है। नतीजतन, यह मल्टीमॉडल एआई इंटरैक्शन के लिए संभावनाओं का एक बिल्कुल नया क्षेत्र खोलता है।

उदाहरण के लिए, CoDi को टेक्स्ट इनपुट "स्केटबोर्ड पर टेडी बियर, 4k, उच्च रिज़ॉल्यूशन" प्रदान करें, और यह ध्वनि के साथ एक वीडियो आउटपुट कर सकता है। या इसे "साइबरपंक वाइब" के साथ पाठ और एक छवि खिलाएं, और यह दिए गए विषय के लिए पाठ और एक छवि फिटिंग उत्पन्न कर सकता है।

उदाहरण पीढ़ियों को नीचे दिखाया गया है - कागज की जाँच करें इंटरैक्टिव उदाहरणों के लिए।

हमारे लिए इसका क्या मतलब है?

CoDi की किसी भी-से-किसी भी पीढ़ी के निहितार्थ विशाल हैं। एक ऐसी दुनिया में जो तेजी से डिजिटल होती जा रही है, CoDi जैसे टूल का मतलब है कि प्रौद्योगिकी के साथ और भी अधिक बहुमुखी, प्राकृतिक और मानव-समान तरीके से बातचीत करने में सक्षम होना। यह वर्चुअल असिस्टेंट से लेकर कंटेंट क्रिएशन और एक्सेसिबिलिटी टूल्स से लेकर मनोरंजन तक सब कुछ बदल सकता है।

लेकिन हमेशा की तरह, निहितार्थ विशुद्ध यूटोपियन नहीं हैं। जैसे-जैसे एआई यथार्थवादी, मल्टीमॉडल आउटपुट उत्पन्न करने में बेहतर होता जाता है, एआई-जनित सामग्री से वास्तविक को समझने की आवश्यकता और अधिक महत्वपूर्ण हो जाती है। गलत सूचना अधिक ठोस और डीपफेक अधिक प्रचलित हो सकती है।

लेकिन चलो परेड पर बारिश नहीं करते हैं। कोडी एआई तकनीक में एक महत्वपूर्ण कदम है, यह दर्शाता है कि हम मानव संचार की समृद्ध टेपेस्ट्री को समझने और फिर से बनाने के लिए प्रशिक्षण मशीनों में कितनी दूर आ गए हैं।

यदि आप कोडी के यांत्रिकी में गहरी खुदाई करना चाहते हैं, या यहां तक कि स्वयं के साथ प्रयोग भी कर सकते हैं, तो आप ओपन-सोर्स की जांच कर सकते हैं I codebase गिटहब पर। कौन जानता है कि CoDi का उपयोग करके आप किस तरह के जंगली परिवर्तन कर सकते हैं?

अंत में, जो CoDi को वास्तव में क्रांतिकारी बनाता है, वह विभिन्न प्रकार के डेटा को मूल रूप से मिश्रित करने और आउटपुट उत्पन्न करने की क्षमता है जो पहले असंभव माना जाता था। यह एक कीमियागर को काम करते हुए देखने जैसा है, जो सीसे को सोने में बदल रहा है।

इस मामले को छोड़कर, यह किसी भी प्रकार के इनपुट को किसी भी प्रकार के आउटपुट में बदल रहा है। यह वास्तव में एआई का एक उल्लेखनीय युग है जिसमें हम रह रहे हैं।