paint-brush
NVIDIA और तेल अवीव विश्वविद्यालय की कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल के लिए दृष्टिकोणद्वारा@whatsai
735 रीडिंग
735 रीडिंग

NVIDIA और तेल अवीव विश्वविद्यालय की कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल के लिए दृष्टिकोण

द्वारा Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

टेक्स्ट-टू-इमेज मॉडल जैसे डेल या स्थिर प्रसार वास्तव में अच्छे हैं और हमें एक साधारण टेक्स्ट इनपुट के साथ शानदार चित्र बनाने की अनुमति देते हैं। लेकिन क्या उन्हें आपकी एक तस्वीर देना और उसे पेंटिंग में बदलने के लिए कहना और भी अच्छा होगा? किसी वस्तु, व्यक्ति, या यहां तक कि अपनी बिल्ली की कोई भी तस्वीर भेजने में सक्षम होने की कल्पना करें, और मॉडल को इसे किसी अन्य शैली में बदलने के लिए कहें, जैसे कि अपने आप को अपनी पसंदीदा कलात्मक शैली में साइबोर्ग में बदलना या इसे एक नए दृश्य में जोड़ना।

Company Mentioned

Mention Thumbnail
featured image - NVIDIA और तेल अवीव विश्वविद्यालय की कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल के लिए दृष्टिकोण
Louis Bouchard HackerNoon profile picture

टेक्स्ट-टू-इमेज मॉडल जैसे डेल या स्थिर डिफ्यूजन वास्तव में अच्छे हैं और हमें एक साधारण टेक्स्ट इनपुट के साथ शानदार चित्र बनाने की अनुमति देते हैं। लेकिन क्या उन्हें आपकी एक तस्वीर देना और उसे पेंटिंग में बदलने के लिए कहना और भी अच्छा होगा? किसी वस्तु, व्यक्ति, या यहां तक कि अपनी बिल्ली की कोई भी तस्वीर भेजने में सक्षम होने की कल्पना करें, और मॉडल को इसे किसी अन्य शैली में बदलने के लिए कहें, जैसे कि अपने आप को अपनी पसंदीदा कलात्मक शैली में साइबोर्ग में बदलना या इसे एक नए दृश्य में जोड़ना।

मूल रूप से, डैल का एक संस्करण होना कितना अच्छा होगा जिसका उपयोग हम यादृच्छिक पीढ़ियों के बजाय अपने चित्रों को फोटोशॉप करने के लिए कर सकते हैं? एक व्यक्तिगत DALLE होने के साथ-साथ पीढ़ी को नियंत्रित करने के लिए इसे और अधिक सरल बनाते हुए "एक छवि एक हजार शब्दों के लायक है"। यह एक डैल मॉडल की तरह होगा जो टिकटॉक एल्गोरिथम की तरह ही वैयक्तिकृत और व्यसनी है।

खैर, तेल अवीव विश्वविद्यालय और एनवीआईडीआईए के शोधकर्ताओं ने इसी पर काम किया। उन्होंने टेक्स्ट-टू-इमेज मॉडल की कंडीशनिंग के लिए एक दृष्टिकोण विकसित किया, जैसे कि स्थिर प्रसार मैंने पिछले सप्ताह कवर किया, कुछ छवियों के साथ किसी भी वस्तु या अवधारणा का प्रतिनिधित्व करने के लिए शब्दों के माध्यम से आप अपनी छवियों के साथ भेजेंगे। अपनी इनपुट छवियों की वस्तु को जो कुछ भी आप चाहते हैं उसे बदलना! वीडियो में और जानें...

संदर्भ

►पूरा लेख पढ़ें: https://www.louisbouchard.ai/imageworthoneword/
पेपर: गैल, आर।, अलालुफ, वाई।, एट्ज़मोन, वाई।, पटाशनिक, ओ।, बरमानो, एएच,
चेचिक, जी। और कोहेन-ओर, डी।, 2022। एक छवि एक शब्द के लायक है:
टेक्स्ट-टू-इमेज जेनरेशन को टेक्स्टुअल इनवर्जन का उपयोग करके निजीकृत करना। https://arxiv.org/pdf/2208.01618v1.pdf
कोड: https://textual-inversion.github.io/
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

टेक्स्ट-टू-इमेज मॉडल जैसे डाली या स्थिर

0:02

प्रसार वास्तव में अच्छा है और हमें अनुमति दें

0:04

a . के साथ शानदार चित्र बनाने के लिए

0:07

सरल पाठ इनपुट लेकिन क्या यह सम होगा

0:09

कूलर उन्हें आपकी एक तस्वीर देने के लिए और

0:11

इसे पेंटिंग में बदलने के लिए कहें

0:13

किसी भी तस्वीर को भेजने में सक्षम होने की कल्पना करें

0:15

किसी वस्तु व्यक्ति या यहां तक कि आपकी बिल्ली और

0:18

मॉडल से इसे बदलने के लिए कहें

0:20

एक और शैली जैसे खुद को बदलना

0:22

अपने पसंदीदा कलात्मक में एक सायबोर्ग

0:24

शैली या इसे एक नए दृश्य में जोड़ना

0:27

मूल रूप से यह कितना अच्छा होगा कि a

0:30

डाली का संस्करण हम फोटोशॉप के लिए उपयोग कर सकते हैं

0:32

हमारे चित्र यादृच्छिक होने के बजाय

0:35

पीढ़ियों

0:36

बनाते समय एक व्यक्तिगत डॉली रखना

0:39

इसे नियंत्रित करना बहुत आसान है

0:41

एक छवि के रूप में पीढ़ियों के लायक है

0:44

हजार शब्द यह एक होने जैसा होगा

0:46

डाली मॉडल जो बिल्कुल वैयक्तिकृत है

0:49

और टिक टीएसी एल्गोरिथ्म के रूप में नशे की लत

0:52

यह वही है जो दूरभाष के शोधकर्ताओं ने किया है

0:54

अवीव विश्वविद्यालय और एनवीडिया ने काम किया

0:57

उन्होंने इसके लिए एक दृष्टिकोण विकसित किया

0:58

कंडीशनिंग टेक्स्ट-टू-इमेज मॉडल जैसे

1:01

स्थिर प्रसार मैंने पिछले सप्ताह कवर किया था

1:03

कुछ छवियों के साथ किसी का प्रतिनिधित्व करने के लिए

1:05

आप शब्दों के माध्यम से वस्तु या अवधारणा

1:08

आपकी छवियों को बदलने के साथ भेज देगा

1:11

आपकी इनपुट छवियों का उद्देश्य

1:13

जो कुछ भी आप चाहते हैं निश्चित रूप से परिणाम

1:15

अभी भी काम की जरूरत है लेकिन यह सिर्फ

1:17

इस तरह के एक अद्भुत से निपटने वाला पहला पेपर

1:19

कार्य जो डिजाइन में क्रांति ला सकता है

1:22

एक शानदार यूट्यूबर के रूप में उद्योग

1:24

सहकर्मी कहेंगे बस दो और कल्पना कीजिए

1:26

कागज नीचे लाइन तो हम कैसे ले सकते हैं

1:29

किसी वस्तु की मुट्ठी भर तस्वीरें और

1:31

एक पाठ के बाद एक नई छवि उत्पन्न करें

1:33

शैली जोड़ने के लिए शर्त इनपुट or

1:35

इसका उत्तर देने के लिए परिवर्तन विवरण

1:38

जटिल प्रश्न आइए एक नजर डालते हैं

1:40

रेनॉल्ड गैल और उनकी टीम क्या सामने आई

1:42

इनपुट छवियों के साथ एन्कोड किया गया है

1:44

वे बेतुका शब्द क्या कहते हैं जिसे आप कर सकते हैं

1:47

फिर अपनी टेक्स्ट पीढ़ी के भीतर उपयोग करें

1:50

इस प्रकार कागज का नाम एक छवि के लायक है

1:52

एक शब्द लेकिन वे इस प्रकार कैसे प्राप्त करते हैं

1:55

शब्द का और यह क्या है

1:57

वे तीन से पांच छवियों के साथ शुरू करते हैं

2:00

एक विशिष्ट वस्तु जिसका वे भी उपयोग करते हैं a

2:02

इसमें छवि मॉडल के लिए पूर्व-प्रशिक्षित पाठ

2:04

मामले में वे अव्यक्त प्रसार मॉडल का उपयोग करते हैं

2:07

मैंने एक सप्ताह पहले भी कवर नहीं किया था जो

2:09

छवियों या जैसे किसी भी प्रकार के इनपुट लेता है

2:12

पाठ और नई छवियों को उत्पन्न करता है

2:15

उन्हें आप कूलर और खुले के रूप में देख सकते हैं

2:18

स्रोत डेली अगर आपने my . नहीं देखा है

2:20

वीडियो फिर भी आपको इसे रोक देना चाहिए

2:23

इस मॉडल के बारे में जानें और वापस आएं

2:25

यहाँ आप वीडियो को पसंद करेंगे और सीखेंगे

2:27

के सबसे गर्म वास्तुकला के बारे में

2:29

पल तो आपके पास आपकी इनपुट छवियां हैं और

2:32

छवियों को उत्पन्न करने के लिए आधार मॉडल

2:34

वातानुकूलित और इनपुट जैसे टेक्स्ट या

2:37

अन्य छवियां लेकिन आप इसके साथ क्या करते हैं

2:39

किसी वस्तु के आपके तीन से पांच चित्र

2:42

और आप मॉडल को कैसे नियंत्रित करते हैं

2:43

परिणाम इतने सटीक रूप से कि आपकी वस्तु

2:46

पीढ़ियों में प्रकट होता है यह सब

2:48

आपके प्रशिक्षण की प्रक्रिया के दौरान किया गया

2:51

दूसरा मॉडल टेक्स्ट एन्कोडर का उपयोग करके आपका

2:54

पूर्व-प्रशिक्षित और निश्चित छवि जनरेटर

2:56

इस मामले में मॉडल अव्यक्त प्रसार

2:59

पहले से ही एक तस्वीर लेने में सक्षम और

3:00

इसे फिर से बनाएं जिसे आप सिखाना चाहते हैं

3:02

बेतुका मिलान करने के लिए टेक्स्ट एन्कोडर मोडल

3:05

आपकी एन्कोडेड छवियों या अन्य शब्दों में शब्द

3:08

शब्द आपके अभ्यावेदन . से लिए गए हैं

3:11

आपकी पांच छवियां ताकि आप अपने को खिलाएं

3:13

आपके छवि जनरेटर नेटवर्क के लिए छवियां

3:16

और अपने टेक्स्ट एन्कोडर को रिवर्स में प्रशिक्षित करें

3:19

पता लगाने के लिए क्या नकली शब्द या निश्चित

3:22

शब्द आपके सभी का सबसे अच्छा प्रतिनिधित्व करेगा

3:24

एन्कोडेड छवियां मूल रूप से पता लगाती हैं कि कैसे

3:27

में अपनी अवधारणा का सही ढंग से प्रतिनिधित्व करते हैं

3:29

वही स्थान जहाँ छवि निर्माण

3:32

प्रक्रिया जो मैंने अपने पिछले वीडियो में वर्णित की थी

3:34

ह ाेती है

3:36

फिर उसमें से एक नकली शब्द निकालें

3:38

भविष्य की पीढ़ियों को इस तरह मार्गदर्शन करें

3:41

किसी भी भविष्य में आपकी अवधारणा को इंजेक्ट कर सकता है

3:44

पीढ़ियों और कुछ और शब्द जोड़ें

3:46

पीढ़ी को और भी आगे की स्थिति

3:49

उसी पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज का उपयोग करना

3:51

मॉडल तो आप बस प्रशिक्षण देंगे a

3:54

छोटा मॉडल यह समझने के लिए कि आपका

3:56

छवियां अव्यक्त स्थान में होती हैं

3:58

उपयोग करने के लिए उन्हें एक नकली शब्द में परिवर्तित करें

4:00

उनका नियमित छवि निर्माण मॉडल आप

4:03

छवि को छूना भी नहीं है

4:05

जनरेशन मॉडल और यह काफी बड़ा है

4:07

सौदा यह देखते हुए कि वे कितने महंगे हैं

4:09

प्रशिक्षित करने और वॉयला करने के लिए आप इस तरह से कर सकते हैं

4:12

छवि उत्पन्न करने के लिए एक समान मॉडल सिखाएं

4:14

आपकी पसंदीदा वस्तु के रूपांतर या

4:17

शक्तिशाली शैली स्थानान्तरण करें

4:19

बेशक यह सिर्फ का एक सिंहावलोकन है

4:21

यह नई विधि बहुत ही निपटने वाली है

4:24

दिलचस्प काम और मैं आपको आमंत्रित करता हूं

4:26

a . के लिए नीचे लिंक किए गए उनके पेपर को पढ़ें

4:28

दृष्टिकोण की गहरी समझ और

4:30

चुनौतियां यह एक बहुत ही जटिल कार्य है

4:33

और अभी भी बहुत सी सीमाएँ हैं

4:35

जैसे समय को समझने में लगता है

4:37

एक नकली शब्द में ऐसी अवधारणा जो है

4:39

लगभग दो घंटे अभी भी नहीं हुए हैं

4:42

को पूरी तरह से समझने में सक्षम

4:44

अवधारणा लेकिन बहुत करीब है

4:47

इस तरह के होने में भी बहुत सारे जोखिम हैं

4:49

उत्पाद सुलभ है जिसकी हमें आवश्यकता है

4:51

को एम्बेड करने में सक्षम होने की कल्पना पर विचार करें

4:54

एक विशिष्ट व्यक्ति की अवधारणा और

4:56

व्यक्ति को शामिल करते हुए कुछ भी उत्पन्न करें

4:58

कुछ ही सेकंड में यह काफी डरावना है और

5:01

इस तरह की तकनीक बस के आसपास है

5:03

कोना

5:04

मुझे आपके विचार सुनना अच्छा लगेगा

5:06

टिप्पणी अनुभाग या इस पर चर्चा करें

5:09

कलह सर्वर

5:10

वीडियो देखने के लिए धन्यवाद और मैं

5:12

अगले हफ्ते दूसरे के साथ मिलेंगे

5:14

अद्भुत कागज

5:22

[संगीत]