1,918 रीडिंग

क्या ओपनएआई का सोरा अभी भी संकट में है?

द्वारा Lukasz Wronski7m2024/06/17

बहुत लंबा; पढ़ने के लिए

लूमा ड्रीम मशीन जनरेटिव एआई की दुनिया में नवीनतम सनसनी है। यह छवियों से वीडियो बनाने के लिए सबसे अच्छा उपकरण है, जो पिका और रनवे एमएल जैसे प्रतिस्पर्धियों को पछाड़ता है। लेकिन इसकी तुलना रहस्यमय सोरा से कैसे की जा सकती है? चूँकि हम सोरा का उपयोग नहीं कर सकते, इसलिए हम ओपनएआई के सार्वजनिक डेमो की तुलना लूमा ड्रीम मशीन से करेंगे।

featured image - क्या ओपनएआई का सोरा अभी भी संकट में है?

क्या आपने जनरेटिव AI की दुनिया में सबसे नई सनसनी, लूमा ड्रीम मशीन के बारे में सुना है? इसे OpenAI के सोरा का सबसे बड़ा प्रतिद्वंद्वी कहा जा रहा है। लेकिन क्या यह वाकई इतनी अच्छी है?

उनकी तुलना करना मुश्किल है क्योंकि ड्रीम मशीन सभी के लिए उपलब्ध है, जबकि सोरा नहीं है। लेकिन आइए देखें कि हम क्या पता लगा सकते हैं। इस बात से इनकार करना मुश्किल है कि अभी ड्रीम मशीन सबसे आगे है क्योंकि हम वास्तव में इसका उपयोग कर सकते हैं। यह छवियों से वीडियो बनाने के लिए सबसे अच्छा उपकरण है, जो पिका और रनवे एमएल जैसे प्रतिस्पर्धियों को पछाड़ता है। लेकिन इसकी तुलना रहस्यमय सोरा से कैसे की जा सकती है?

चूँकि हम सोरा का उपयोग नहीं कर सकते, इसलिए हम OpenAI के सार्वजनिक डेमो की तुलना Luma Dream Machine से करेंगे। यहाँ योजना है: हम OpenAI के डेमो वीडियो से पहला फ्रेम लेंगे और Luma की Dream Machine के साथ उसी प्रॉम्प्ट का उपयोग करेंगे। यह हमें दिखाएगा कि Dream Machine, Sora के समान भौतिकी, गति और स्थान की कितनी अच्छी तरह से नकल कर सकती है। भले ही OpenAI के डेमो को चुनिंदा रूप से चुना गया हो, फिर भी हम विवरणों की तुलना कर सकते हैं और देख सकते हैं कि दोनों मॉडल कैसे प्रदर्शन करते हैं।

नीचे, मैंने कुछ वीडियो तुलनाएँ एक साथ रखी हैं। प्रत्येक सेट में तीन उदाहरण हैं। पहला वीडियो सोरा की वेबसाइट पर OpenAI के डेमो से है। दूसरा ड्रीम मशीन की इमेज-टू-वीडियो सुविधा के साथ बनाया गया है, जिसमें उसी प्रॉम्प्ट और सोरा के डेमो के पहले फ्रेम को गाइड के रूप में इस्तेमाल किया गया है। तीसरा दिखाता है कि लूमा का टूल सिर्फ़ प्रॉम्प्ट के साथ कैसे काम करता है। यह दिलचस्प है क्योंकि सोरा और ड्रीम मशीन दोनों ही टेक्स्ट-टू-वीडियो का उपयोग करते हैं, इसलिए हम उनकी रचनात्मकता की तुलना कर सकते हैं और देख सकते हैं कि वे प्रॉम्प्ट का कितनी अच्छी तरह पालन करते हैं।

तो, बिना किसी देरी के, आइए उदाहरणों पर नजर डालें और देखें कि कौन सा टूल शीर्ष पर आता है।

टोक्यो वॉक

आइए ओपनएआई के डेमो की तुलना लूमा ड्रीम मशीन से करें। पहली तुलना में, ड्रीम मशीन प्रभावशाली कैमरा मूवमेंट दिखाती है, और मुख्य व्यक्ति की हरकतें सहज और स्वाभाविक हैं। हालाँकि, क्लिप में अप्राकृतिक कलाकृतियों और वस्तुओं और लोगों के असंगत दिखने की समस्याएँ हैं। ओपनएआई के वीडियो के विपरीत, वीडियो के आगे बढ़ने के साथ पृष्ठभूमि की भीड़ पिघलती और आकार बदलती दिखती है।

मुख्य पात्र का चेहरा भी अस्वाभाविक रूप से बदल जाता है, जिससे वीडियो स्पष्ट रूप से नकली लगता है, यह समस्या सोरा के साथ नहीं है।

टेक्स्ट-टू-वीडियो उदाहरण में, ड्रीम मशीन का वीडियो खराब नहीं है, लेकिन वस्तुओं की अप्राकृतिक मॉर्फिंग ध्यान देने योग्य है। उदाहरण के लिए, एक पैदल यात्री के हाथ में कहीं से एक छाता दिखाई देता है, जो स्पष्ट रूप से AI पीढ़ी का संकेत देता है। यह रॉयल्टी-फ्री स्टॉक क्लिप के लिए कोई प्रतिस्पर्धा नहीं है। एक ऐसी चीज जो सोरा की पीढ़ियाँ शायद हो सकती हैं।

हालांकि, ड्रीम मशीन प्रॉम्प्ट का अच्छी तरह से पालन करती है: काली जैकेट, लाल पोशाक, लिपस्टिक, धूप का चश्मा, रिफ्लेक्टिव स्ट्रीट, पैदल यात्री और नियॉन लाइट सभी मौजूद हैं। तो, विवरणों का पालन करने के लिए बधाई!

स्वर्ण दौड़

लूमा के इमेज-टू-वीडियो परिणाम की तुलना ओपनएआई से करने पर, यह भयानक नहीं है। हालाँकि, टोक्यो वीडियो की तरह कैमरा मूवमेंट उतना सहज नहीं है, जो अचानक रुक जाता है और दृश्य को कठोर बना देता है। सबसे खराब हिस्सा क्लिप के अंत में चरित्र की हरकत है, जो अप्राकृतिक और बेतरतीब लगती है। इसके अतिरिक्त, बाईं ओर की इमारतें प्रत्येक फ्रेम के साथ यथार्थवाद में गिरावट करती हैं, एक समस्या जो सोरा के उदाहरण में नहीं देखी गई।

पिछली क्लिप की तरह, इसमें स्थिरता और एकरूपता की कमी है, और बहुत सारी कलाकृतियाँ हैं। सोरा ने कम फ्रेम दर और कुल मिलाकर पुराने स्कूल की गुणवत्ता के साथ क्लिप को विंटेज लुक देने में भी उत्कृष्टता हासिल की है, जिससे पता चलता है कि यह प्रॉम्प्ट के अनुसार अपने आउटपुट को स्टाइल कर सकता है, जिसे ड्रीम मशीन ने यहाँ हासिल नहीं किया।

संक्षिप्त और खुले अंत वाले प्रॉम्प्ट के साथ टेक्स्ट-टू-वीडियो उदाहरण में, लूमा के मॉडल ने गोल्ड रश इतिहास से एक अलग दृश्य चुना। यह सही रंगों और प्रकाश व्यवस्था का उपयोग करते हुए, उस युग के साथ अधिक शैली में लगता है। हालाँकि, मॉर्फिंग प्रभाव और अप्राकृतिक गति पूरी क्लिप को बर्बाद कर देती है, जिससे यह वीडियो प्रोजेक्ट में अनुपयोगी हो जाती है।

धूल में एसयूवी

यह वीडियो OpenAI की वेबसाइट पर मेरा पसंदीदा है। कार बहुत ही स्वाभाविक तरीके से चलती है, जिसमें बेहतरीन रोशनी, छाया और गतिशीलता है। यह एक वास्तविक वीडियो से अलग नहीं है, जो इसे कंटेंट क्रिएटर्स के लिए एकदम सही बनाता है। इसके विपरीत, ड्रीम मशीन का कैमरा मूवमेंट सही है, लेकिन ऑब्जेक्ट्स अस्वाभाविक रूप से कुचले और क्षतिग्रस्त हो जाते हैं। क्लिप के दूसरे भाग में, परिप्रेक्ष्य बहुत विकृत हो जाता है, जो स्पष्ट रूप से AI पीढ़ी जैसा दिखता है।

टेक्स्ट-टू-वीडियो उदाहरण के लिए, परिणाम वास्तव में काफी अच्छा है - लूमा के उत्पाद से मुझे जो सबसे अच्छा मिला है, उनमें से एक। यह पहले वाले से कम गतिशील है, लेकिन काफी स्वाभाविक दिखता है। हालाँकि, यह एक अलग समस्या से ग्रस्त है। प्रॉम्प्ट विस्तृत था, जिसमें निर्दिष्ट किया गया था कि एसयूवी को टायरों से धूल उड़ते हुए पीछे से देखा जाना चाहिए। ड्रीम मशीन ने इसे अलग तरह से समझा।

यह एआई सामग्री जनरेटर के एक प्रमुख पहलू पर प्रकाश डालता है: सटीक त्वरित व्याख्या के बिना, हम उन विविधताओं को उत्पन्न करने में घंटों बर्बाद कर सकते हैं जो हमारी दृष्टि या आवश्यकताओं के अनुरूप नहीं हैं।

संग्रहालय

संग्रहालय का उदाहरण एक अलग तरह का जानवर है। खैर, वास्तव में जानवर नहीं - यह अधिक सूक्ष्म, शांत और कम गतिशील है। स्थिर कैमरे के साथ बस एक साधारण सैर। OpenAI का संस्करण सटीक है। यह रोमांचक नहीं है, लेकिन इसमें यथार्थवाद की कमी नहीं है। लूमा का संस्करण एक अलग कैमरा मूवमेंट प्रस्तुत करता है, लेकिन यह अन्य क्लिप में देखी गई विकृतियों के बिना भी अच्छा दिखता है। मुख्य मुद्दा यह है कि जो तस्वीरें मूल छवि का हिस्सा नहीं हैं, वे धुंधली दिखाई देती हैं और उनमें परिभाषा की कमी होती है। कुल मिलाकर, वीडियो ठीक है, और कुछ बदलावों के साथ, हम एक उचित परिणाम प्राप्त कर सकते हैं।

दूसरे वीडियो में भी कोई स्पष्ट दृश्य दोष नहीं है। गैलरी ठीक दिखती है। मेरी सबसे बड़ी समस्या पहले भाग में कैमरा मूवमेंट का चुनाव है, जो बहुत यथार्थवादी नहीं है। दिलचस्प बात यह है कि ड्रीम मशीन ने एक प्रॉम्प्ट के लिए दो दृश्य बनाए, बीच में एक कट के साथ संग्रहालय में एक अलग कमरा दिखाया। यह दिलचस्प है कि मॉडल ने ऐसा करने का फैसला किया। दूसरे भाग में बेहतर कैमरा मूवमेंट है, जो इसे आंखों के लिए अधिक सुखद बनाता है।

बैकवर्ड जॉगर

यह उदाहरण दिलचस्प है क्योंकि सोरा के पेज पर इसे मॉडल की समस्याओं में से एक के रूप में दिखाया गया है: जॉगर गलत तरीके से दौड़ रहा है। कोई भी ट्रेडमिल इस तरह से काम नहीं करता है, लेकिन AI की दुनिया में, कुछ भी संभव है। क्या इस ड्रीम मशीन के चमकने का मौका है? इमेज-टू-वीडियो परिणाम वास्तव में बहुत अच्छा है।

जॉगर अभी भी पीछे की ओर दौड़ता है, जैसा कि इनपुट इमेज में है, लेकिन कैमरा मूवमेंट और जॉगर का व्यवहार लगभग सही है। कुछ छोटी-मोटी विकृतियाँ हैं, और समय के साथ कैमरे का परिप्रेक्ष्य थोड़ा अजीब हो जाता है, लेकिन थोड़ी-बहुत चेरी-पिकिंग के साथ, हम अपने प्रोडक्शन के लिए एक अच्छा परिणाम प्राप्त कर सकते हैं।

सिर्फ़ प्रॉम्प्ट से तैयार किया गया वर्शन भी दिलचस्प है। यह बहुत गतिशील और थोड़ा विकृत है, लेकिन यह कुछ खास प्रस्तुतियों के लिए उपयुक्त हो सकता है, खासकर अगर एक अस्थिर, स्केच जैसा सौंदर्यबोध वांछित हो। बिल्कुल भी बुरा नहीं है। आखिरकार, लूमा का मॉडल अपने भावी प्रतिद्वंद्वी के करीब पहुंच रहा है।

इटालियन पिल्ला

ओपनएआई साइट पर आखिरी मुख्य उदाहरण में एक रंगीन इतालवी शहर में एक डालमेशियन दिखाया गया है। सोरा के साथ बनाया गया मूल वीडियो सही नहीं है। एक लंबी क्लिप में, कुत्ता थोड़ा अजीब तरह से व्यवहार करना शुरू कर देता है, और इसका एनीमेशन अन्य शोकेस किए गए वीडियो की तरह स्वाभाविक नहीं है। लूमा का नवीनतम AI इसे कैसे संभालता है?

बिलकुल भी अच्छा नहीं। शायद ऐसा इसलिए है क्योंकि उनके पास केवल एक ही टेक था (और जनरेटर काफी सीमित दर पर है), लेकिन हम जो देखते हैं वह गड़बड़ियों और अवास्तविक छवियों का एक उत्सव है। जैसे-जैसे वीडियो आगे बढ़ता है, कुत्ते की बनावट बदलती जाती है, इमारतें ऐसी दिखती हैं जैसे वे प्लेडॉ से बनी हों, और अंत में एक और कुत्ते जैसी घृणित चीज़ दिखाई देती है, जिससे यह एक वास्तविक वीडियो की तुलना में साल्वाडोर डाली के काम जैसा अधिक लगता है। यह निश्चित रूप से अब तक का सबसे खराब उदाहरण है।

ड्रीम मशीन की अपनी रचना भी इससे बेहतर नहीं है। इसमें प्रॉम्प्ट का पालन नहीं किया गया, डेलमेटियन को शामिल करने में विफल रहा। कुत्ते के बैठने के लिए कोई खिड़की नहीं है, इमारतें कार्टून जैसी दिखती हैं, और कुल मिलाकर वास्तुकला निरर्थक है। सबसे बुरी बात यह है कि साइकिल चालक भारी विकृत बाइक पर सवार हैं, विकृत जीव नहर में गाड़ी चला रहे हैं, या बिना किसी कारण के अन्य साइकिल चालकों में बदल रहे हैं। यह उम्मीदों से बहुत कम है।

निर्णय?

अब जो भी उपलब्ध है, उसके लिए लूमा का नया AI वाकई प्रभावशाली है। यह सीमाओं को आगे बढ़ाता है, वास्तव में अच्छा कैमरा मोशन और अक्सर लोगों और वस्तुओं की बहुत यथार्थवादी हरकतें उत्पन्न करता है। ऐसा लगता है कि यह संदर्भ छवि प्रदान किए जाने पर बेहतर काम करता है, अपने मौजूदा प्रतिस्पर्धियों की तुलना में बेहतर प्रभाव उत्पन्न करता है।

लेकिन क्या यह सोरा जितना अच्छा है? कम से कम अभी तो ऐसा नहीं लगता। सोरा की कृतियों को पहली नज़र में असली वीडियो समझने की भूल की जा सकती है। शोकेस से पता चलता है कि सोरा स्टॉक वीडियो से प्रतिस्पर्धा कर सकता है और फिल्म निर्माताओं और कंटेंट क्रिएटर्स के लिए काम आसान बना सकता है। दूसरी ओर, ड्रीम मशीन अक्सर गड़बड़ियाँ पैदा करती है और हमेशा संकेतों का सही तरीके से पालन नहीं करती है।

यह मॉडल सुधार की दिशा में एक और कदम है, लेकिन व्यापक उपयोग के लिए अभी भी यह विश्वसनीय और स्थिर नहीं है।

क्या यह सोरा का सच्चा प्रतिद्वंद्वी है? अभी नहीं। हालाँकि, हमने सोरा के साथ सीधे बातचीत नहीं की है, और ओपनएआई का शोकेस सावधानी से क्यूरेट किया जा सकता है। सोरा संभावित रूप से लूमा के मॉडल जैसी ही गलतियाँ कर सकता है। जब तक सोरा सार्वजनिक रूप से उपलब्ध नहीं हो जाता, हम निश्चित नहीं हो सकते।

व्यक्तिगत रूप से, मुझे खुशी है कि हमारे पास ड्रीम मशीन है। यह हमें सही AI वीडियो जनरेटर के करीब लाता है। यह कुछ मामलों में उपयोगी है और समय के साथ इसमें सुधार होने की संभावना है। मैं लूमा द्वारा इस टूल को जारी करने की सराहना करता हूं, जो हमें वीडियो क्लिप के लिए जेनरेटिव AI का आनंद लेने का एक और तरीका देता है।

दूसरी ओर, मुझे उम्मीद है कि सोरा शोकेस में दिखाए अनुसार काम करेगा। अगर ऐसा होता है, तो यह एक महत्वपूर्ण छलांग होगी। मैं इसके सार्वजनिक रूप से उपलब्ध होने का बेसब्री से इंतजार कर रहा हूं ताकि मैं खुद परिणामों की तुलना कर सकूं।