टेक्स्ट-टू-इमेज मॉडल जैसे डेल या स्थिर डिफ्यूजन वास्तव में अच्छे हैं और हमें एक साधारण टेक्स्ट इनपुट के साथ शानदार चित्र बनाने की अनुमति देते हैं। लेकिन क्या उन्हें आपकी एक तस्वीर देना और उसे पेंटिंग में बदलने के लिए कहना और भी अच्छा होगा? किसी वस्तु, व्यक्ति, या यहां तक कि अपनी बिल्ली की कोई भी तस्वीर भेजने में सक्षम होने की कल्पना करें, और मॉडल को इसे किसी अन्य शैली में बदलने के लिए कहें, जैसे कि अपने आप को अपनी पसंदीदा कलात्मक शैली में साइबोर्ग में बदलना या इसे एक नए दृश्य में जोड़ना।
मूल रूप से, डैल का एक संस्करण होना कितना अच्छा होगा जिसका उपयोग हम यादृच्छिक पीढ़ियों के बजाय अपने चित्रों को फोटोशॉप करने के लिए कर सकते हैं? एक व्यक्तिगत DALLE होने के साथ-साथ पीढ़ी को नियंत्रित करने के लिए इसे और अधिक सरल बनाते हुए "एक छवि एक हजार शब्दों के लायक है"। यह एक डैल मॉडल की तरह होगा जो टिकटॉक एल्गोरिथम की तरह ही वैयक्तिकृत और व्यसनी है।
खैर, तेल अवीव विश्वविद्यालय और एनवीआईडीआईए के शोधकर्ताओं ने इसी पर काम किया। उन्होंने टेक्स्ट-टू-इमेज मॉडल की कंडीशनिंग के लिए एक दृष्टिकोण विकसित किया, जैसे कि स्थिर प्रसार मैंने पिछले सप्ताह कवर किया, कुछ छवियों के साथ किसी भी वस्तु या अवधारणा का प्रतिनिधित्व करने के लिए शब्दों के माध्यम से आप अपनी छवियों के साथ भेजेंगे। अपनी इनपुट छवियों की वस्तु को जो कुछ भी आप चाहते हैं उसे बदलना! वीडियो में और जानें...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/imageworthoneword/
पेपर: गैल, आर।, अलालुफ, वाई।, एट्ज़मोन, वाई।, पटाशनिक, ओ।, बरमानो, एएच,
चेचिक, जी। और कोहेन-ओर, डी।, 2022। एक छवि एक शब्द के लायक है:
टेक्स्ट-टू-इमेज जेनरेशन को टेक्स्टुअल इनवर्जन का उपयोग करके निजीकृत करना। https://arxiv.org/pdf/2208.01618v1.pdf
कोड: https://textual-inversion.github.io/
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
टेक्स्ट-टू-इमेज मॉडल जैसे डाली या स्थिर
0:02
प्रसार वास्तव में अच्छा है और हमें अनुमति दें
0:04
a . के साथ शानदार चित्र बनाने के लिए
0:07
सरल पाठ इनपुट लेकिन क्या यह सम होगा
0:09
कूलर उन्हें आपकी एक तस्वीर देने के लिए और
0:11
इसे पेंटिंग में बदलने के लिए कहें
0:13
किसी भी तस्वीर को भेजने में सक्षम होने की कल्पना करें
0:15
किसी वस्तु व्यक्ति या यहां तक कि आपकी बिल्ली और
0:18
मॉडल से इसे बदलने के लिए कहें
0:20
एक और शैली जैसे खुद को बदलना
0:22
अपने पसंदीदा कलात्मक में एक सायबोर्ग
0:24
शैली या इसे एक नए दृश्य में जोड़ना
0:27
मूल रूप से यह कितना अच्छा होगा कि a
0:30
डाली का संस्करण हम फोटोशॉप के लिए उपयोग कर सकते हैं
0:32
हमारे चित्र यादृच्छिक होने के बजाय
0:35
पीढ़ियों
0:36
बनाते समय एक व्यक्तिगत डॉली रखना
0:39
इसे नियंत्रित करना बहुत आसान है
0:41
एक छवि के रूप में पीढ़ियों के लायक है
0:44
हजार शब्द यह एक होने जैसा होगा
0:46
डाली मॉडल जो बिल्कुल वैयक्तिकृत है
0:49
और टिक टीएसी एल्गोरिथ्म के रूप में नशे की लत
0:52
यह वही है जो दूरभाष के शोधकर्ताओं ने किया है
0:54
अवीव विश्वविद्यालय और एनवीडिया ने काम किया
0:57
उन्होंने इसके लिए एक दृष्टिकोण विकसित किया
0:58
कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल जैसे
1:01
स्थिर प्रसार मैंने पिछले सप्ताह कवर किया था
1:03
कुछ छवियों के साथ किसी का प्रतिनिधित्व करने के लिए
1:05
आप शब्दों के माध्यम से वस्तु या अवधारणा
1:08
आपकी छवियों को बदलने के साथ भेज देगा
1:11
आपकी इनपुट छवियों का उद्देश्य
1:13
जो कुछ भी आप चाहते हैं निश्चित रूप से परिणाम
1:15
अभी भी काम की जरूरत है लेकिन यह सिर्फ
1:17
इस तरह के एक अद्भुत से निपटने वाला पहला पेपर
1:19
कार्य जो डिजाइन में क्रांति ला सकता है
1:22
एक शानदार यूट्यूबर के रूप में उद्योग
1:24
सहकर्मी कहेंगे बस दो और कल्पना कीजिए
1:26
कागज नीचे लाइन तो हम कैसे ले सकते हैं
1:29
किसी वस्तु की मुट्ठी भर तस्वीरें और
1:31
एक पाठ के बाद एक नई छवि उत्पन्न करें
1:33
शैली जोड़ने के लिए शर्त इनपुट or
1:35
इसका उत्तर देने के लिए परिवर्तन विवरण
1:38
जटिल प्रश्न आइए एक नजर डालते हैं
1:40
रेनॉल्ड गैल और उनकी टीम क्या सामने आई
1:42
इनपुट छवियों के साथ एन्कोड किया गया है
1:44
वे बेतुका शब्द क्या कहते हैं जिसे आप कर सकते हैं
1:47
फिर अपनी टेक्स्ट पीढ़ी के भीतर उपयोग करें
1:50
इस प्रकार कागज का नाम एक छवि के लायक है
1:52
एक शब्द लेकिन वे इस प्रकार कैसे प्राप्त करते हैं
1:55
शब्द का और यह क्या है
1:57
वे तीन से पांच छवियों के साथ शुरू करते हैं
2:00
एक विशिष्ट वस्तु जिसका वे भी उपयोग करते हैं a
2:02
इसमें छवि मॉडल के लिए पूर्व-प्रशिक्षित पाठ
2:04
मामले में वे अव्यक्त प्रसार मॉडल का उपयोग करते हैं
2:07
मैंने एक सप्ताह पहले भी कवर नहीं किया था जो
2:09
छवियों या जैसे किसी भी प्रकार के इनपुट लेता है
2:12
पाठ और नई छवियों को उत्पन्न करता है
2:15
उन्हें आप कूलर और खुले के रूप में देख सकते हैं
2:18
स्रोत डेली अगर आपने my . नहीं देखा है
2:20
वीडियो फिर भी आपको इसे रोक देना चाहिए
2:23
इस मॉडल के बारे में जानें और वापस आएं
2:25
यहाँ आप वीडियो को पसंद करेंगे और सीखेंगे
2:27
के सबसे गर्म वास्तुकला के बारे में
2:29
पल तो आपके पास आपकी इनपुट छवियां हैं और
2:32
छवियों को उत्पन्न करने के लिए आधार मॉडल
2:34
वातानुकूलित और इनपुट जैसे टेक्स्ट या
2:37
अन्य छवियां लेकिन आप इसके साथ क्या करते हैं
2:39
किसी वस्तु के आपके तीन से पांच चित्र
2:42
और आप मॉडल को कैसे नियंत्रित करते हैं
2:43
परिणाम इतने सटीक रूप से कि आपकी वस्तु
2:46
पीढ़ियों में प्रकट होता है यह सब
2:48
आपके प्रशिक्षण की प्रक्रिया के दौरान किया गया
2:51
दूसरा मॉडल टेक्स्ट एन्कोडर का उपयोग करके आपका
2:54
पूर्व-प्रशिक्षित और निश्चित छवि जनरेटर
2:56
इस मामले में मॉडल अव्यक्त प्रसार
2:59
पहले से ही एक तस्वीर लेने में सक्षम और
3:00
इसे फिर से बनाएं जिसे आप सिखाना चाहते हैं
3:02
बेतुका मिलान करने के लिए टेक्स्ट एन्कोडर मोडल
3:05
आपकी एन्कोडेड छवियों या अन्य शब्दों में शब्द
3:08
शब्द आपके अभ्यावेदन . से लिए गए हैं
3:11
आपकी पांच छवियां ताकि आप अपने को खिलाएं
3:13
आपके छवि जनरेटर नेटवर्क के लिए छवियां
3:16
और अपने टेक्स्ट एन्कोडर को रिवर्स में प्रशिक्षित करें
3:19
पता लगाने के लिए क्या नकली शब्द या निश्चित
3:22
शब्द आपके सभी का सबसे अच्छा प्रतिनिधित्व करेगा
3:24
एन्कोडेड छवियां मूल रूप से पता लगाती हैं कि कैसे
3:27
में अपनी अवधारणा का सही ढंग से प्रतिनिधित्व करते हैं
3:29
वही स्थान जहाँ छवि निर्माण
3:32
प्रक्रिया जो मैंने अपने पिछले वीडियो में वर्णित की थी
3:34
ह ाेती है
3:36
फिर उसमें से एक नकली शब्द निकालें
3:38
भविष्य की पीढ़ियों को इस तरह मार्गदर्शन करें
3:41
किसी भी भविष्य में आपकी अवधारणा को इंजेक्ट कर सकता है
3:44
पीढ़ियों और कुछ और शब्द जोड़ें
3:46
पीढ़ी को और भी आगे की स्थिति
3:49
उसी पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज का उपयोग करना
3:51
मॉडल तो आप बस प्रशिक्षण देंगे a
3:54
छोटा मॉडल यह समझने के लिए कि आपका
3:56
छवियां अव्यक्त स्थान में होती हैं
3:58
उपयोग करने के लिए उन्हें एक नकली शब्द में परिवर्तित करें
4:00
उनका नियमित छवि निर्माण मॉडल आप
4:03
छवि को छूना भी नहीं है
4:05
जनरेशन मॉडल और यह काफी बड़ा है
4:07
सौदा यह देखते हुए कि वे कितने महंगे हैं
4:09
प्रशिक्षित करने और वॉयला करने के लिए आप इस तरह से कर सकते हैं
4:12
छवि उत्पन्न करने के लिए एक समान मॉडल सिखाएं
4:14
आपकी पसंदीदा वस्तु के रूपांतर या
4:17
शक्तिशाली शैली स्थानान्तरण करें
4:19
बेशक यह सिर्फ का एक सिंहावलोकन है
4:21
यह नई विधि बहुत ही निपटने वाली है
4:24
दिलचस्प काम और मैं आपको आमंत्रित करता हूं
4:26
a . के लिए नीचे लिंक किए गए उनके पेपर को पढ़ें
4:28
दृष्टिकोण की गहरी समझ और
4:30
चुनौतियां यह एक बहुत ही जटिल कार्य है
4:33
और अभी भी बहुत सी सीमाएँ हैं
4:35
जैसे समय को समझने में लगता है
4:37
एक नकली शब्द में ऐसी अवधारणा जो है
4:39
लगभग दो घंटे अभी भी नहीं हुए हैं
4:42
को पूरी तरह से समझने में सक्षम
4:44
अवधारणा लेकिन बहुत करीब है
4:47
इस तरह के होने में भी बहुत सारे जोखिम हैं
4:49
उत्पाद सुलभ है जिसकी हमें आवश्यकता है
4:51
को एम्बेड करने में सक्षम होने की कल्पना पर विचार करें
4:54
एक विशिष्ट व्यक्ति की अवधारणा और
4:56
व्यक्ति को शामिल करते हुए कुछ भी उत्पन्न करें
4:58
कुछ ही सेकंड में यह काफी डरावना है और
5:01
इस तरह की तकनीक बस के आसपास है
5:03
कोना
5:04
मुझे आपके विचार सुनना अच्छा लगेगा
5:06
टिप्पणी अनुभाग या इस पर चर्चा करें
5:09
कलह सर्वर
5:10
वीडियो देखने के लिए धन्यवाद और मैं
5:12
अगले हफ्ते दूसरे के साथ मिलेंगे
5:14
अद्भुत कागज
5:22
[संगीत]