paint-brush
Approche de NVIDIA et de l'université de Tel Aviv pour le conditionnement des modèles texte-imagepar@whatsai
735 lectures
735 lectures

Approche de NVIDIA et de l'université de Tel Aviv pour le conditionnement des modèles texte-image

par Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Les modèles Text-to-Image comme DALLE ou la diffusion stable sont vraiment cool et nous permettent de générer des images fantastiques avec une simple saisie de texte. Mais serait-il encore plus cool de leur donner une photo de vous et de lui demander de la transformer en peinture ? Imaginez pouvoir envoyer n'importe quelle image d'un objet, d'une personne ou même de votre chat, et demander au modèle de la transformer en un autre style, comme vous transformer en cyborg ou dans votre style artistique préféré ou l'ajouter à une nouvelle scène.

Company Mentioned

Mention Thumbnail
featured image - Approche de NVIDIA et de l'université de Tel Aviv pour le conditionnement des modèles texte-image
Louis Bouchard HackerNoon profile picture

Les modèles Text-to-Image comme DALLE ou la diffusion stable sont vraiment cool et nous permettent de générer des images fantastiques avec une simple saisie de texte. Mais serait-il encore plus cool de leur donner une photo de vous et de lui demander de la transformer en peinture ? Imaginez pouvoir envoyer n'importe quelle image d'un objet, d'une personne ou même de votre chat, et demander au modèle de la transformer en un autre style, comme vous transformer en cyborg ou dans votre style artistique préféré ou l'ajouter à une nouvelle scène.

Fondamentalement, ce serait cool d'avoir une version de DALLE que nous pouvons utiliser pour photoshoper nos images au lieu d'avoir des générations aléatoires ? Avoir une DALLE personnalisée, tout en rendant beaucoup plus simple le contrôle de la génération car « une image vaut mille mots ». Ce serait comme avoir un modèle DALLE tout aussi personnalisé et addictif que l'algorithme TikTok.

Eh bien, c'est sur quoi ont travaillé des chercheurs de l'Université de Tel Aviv et de NVIDIA. Ils ont développé une approche pour conditionner les modèles texte-image, comme la diffusion stable que j'ai abordée la semaine dernière, avec quelques images pour représenter n'importe quel objet ou concept à travers les mots que vous enverrez avec vos images. Transformez l'objet de vos images d'entrée en ce que vous voulez ! En savoir plus dans la vidéo...

Références

►Lire l'article complet : https://www.louisbouchard.ai/imageworthoneword/
►Article : Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. et Cohen-Or, D., 2022. Une image vaut un mot :
Personnalisation de la génération de texte à image à l'aide de l'inversion textuelle. https://arxiv.org/pdf/2208.01618v1.pdf
►Code : https://textual-inversion.github.io/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:00

modèles texte-image comme dali ou stable

0:02

diffusion sont vraiment cool et nous permettent

0:04

pour générer des images fantastiques avec un

0:07

saisie de texte simple mais serait-ce même

0:09

glacière pour leur donner une photo de vous et

0:11

demandez-lui d'en faire un tableau

0:13

imaginez pouvoir envoyer n'importe quelle image

0:15

d'une personne objet ou même de votre chat et

0:18

demander au modèle de le transformer en

0:20

un autre style comme se transformer en

0:22

un cyborg dans votre art préféré

0:24

style ou même l'ajouter dans une nouvelle scène

0:27

à quel point ce serait cool d'avoir un

0:30

version de dali que nous pouvons utiliser pour photoshop

0:32

nos photos au lieu d'avoir au hasard

0:35

générations

0:36

avoir un chariot personnalisé lors de la fabrication

0:39

c'est beaucoup plus simple à contrôler

0:41

générations comme une image vaut un

0:44

mille mots ce sera comme avoir un

0:46

modèle dali tout aussi personnalisé

0:49

et addictif comme l'algorithme du tic tac

0:52

eh bien c'est ce que les chercheurs de tel

0:54

l'université d'aviv et nvidia ont travaillé sur

0:57

ils ont développé une approche pour

0:58

conditionner des modèles texte-image comme

1:01

diffusion stable que j'ai couvert la semaine dernière

1:03

avec quelques images pour représenter

1:05

objet ou concept à travers les mots que vous

1:08

enverra le long de vos images transformant

1:11

l'objet de vos images d'entrée dans

1:13

tout ce que vous voulez bien sûr les résultats

1:15

encore besoin de travail mais ce n'est que le

1:17

premier article abordant un sujet aussi étonnant

1:19

tâche qui pourrait révolutionner la conception

1:22

l'industrie en tant que youtuber fantastique

1:24

collègue dira imaginez deux autres

1:26

papiers sur toute la ligne alors comment pouvons-nous prendre

1:29

une poignée de photos d'un objet et

1:31

générer une nouvelle image à la suite d'un texte

1:33

entrée de condition pour ajouter le style ou

1:35

détails de la transformation pour y répondre

1:38

question complexe jetons un coup d'oeil à

1:40

ce que reynold gal et son équipe ont trouvé

1:42

avec les images d'entrée sont encodés dans

1:44

ce qu'ils appellent un mot absurdo que vous pouvez

1:47

puis utilisez dans votre génération de texte

1:50

ainsi vaut le nom papier d'une image

1:52

un mot mais comment obtiennent-ils ce genre

1:55

de mot et qu'est-ce que c'est

1:57

ils commencent avec trois à cinq images de

2:00

un objet spécifique, ils utilisent également un

2:02

modèle de texte en image pré-formé dans ce

2:04

cas ils utilisent la diffusion latente le modèle

2:07

j'ai couvert il y a même pas une semaine qui

2:09

prend tout type d'entrées comme des images ou

2:12

texte et génère de nouvelles images à partir de

2:15

eux, vous pouvez le voir comme une glacière et ouvert

2:18

source deli si vous n'avez pas regardé mon

2:20

vidéo mais vous devriez mettre celle-ci en pause

2:23

découvrez ce modèle et revenez

2:25

ici vous allez adorer la vidéo et apprendre

2:27

sur l'architecture la plus chaude du

2:29

moment afin que vous ayez vos images d'entrée et

2:32

le modèle de base pour générer des images

2:34

conditionné et des entrées telles que du texte ou

2:37

d'autres images mais que faites-vous avec

2:39

vos trois à cinq images d'un objet

2:42

et comment contrôlez-vous le modèle

2:43

des résultats si précis que votre objet

2:46

apparaît dans les générations c'est tout

2:48

fait pendant le processus de formation de votre

2:51

deuxième modèle l'encodeur de texte en utilisant votre

2:54

générateur d'images pré-formé et fixe

2:56

modéliser la diffusion latente dans ce cas

2:59

déjà capable de prendre une photo et

3:00

reconstruire vous voulez enseigner votre

3:02

encodeur de texte modal pour correspondre à l'absurde

3:05

mot à vos images encodées ou dans d'autres

3:08

mots vos représentations tirées de

3:11

tes cinq images pour nourrir tes

3:13

images à votre réseau de générateurs d'images

3:16

et entraînez votre encodeur de texte à l'envers

3:19

pour savoir quels faux mots ou certains

3:22

mot représenterait le mieux tous vos

3:24

les images encodées découvrent essentiellement comment

3:27

représenter correctement votre concept dans le

3:29

même espace que celui où la génération d'image

3:32

processus que j'ai décrit dans ma vidéo précédente

3:34

arrive

3:36

puis en extraire un faux mot pour

3:38

guider les générations futures de cette façon vous

3:41

peut injecter votre concept dans n'importe quel avenir

3:44

générations et ajouter quelques mots supplémentaires à

3:46

conditionne encore plus la génération

3:49

en utilisant le même texte-image pré-formé

3:51

modèle de sorte que vous entraînerez simplement un

3:54

petit modèle pour comprendre où se trouve votre

3:56

les images se trouvent dans l'espace latent pour

3:58

les convertir en un faux mot à utiliser dans

4:00

leur modèle de génération d'images habituel, vous

4:03

même pas besoin de toucher l'image

4:05

modèle de génération et c'est assez gros

4:07

traiter compte tenu de leur prix

4:09

pour s'entrainer et voilà c'est comme ça qu'on peut

4:12

apprendre à un modèle similaire à générer une image

4:14

variations de votre objet préféré ou

4:17

effectuer des transferts de style puissants

4:19

bien sûr ce n'est qu'un aperçu

4:21

cette nouvelle méthode s'attaquant à un très très

4:24

tâche intéressante et je vous invite à

4:26

lire leur article lié ci-dessous pour un

4:28

une meilleure compréhension de l'approche et

4h30

c'est une tâche très compliquée

4:33

et il y a encore beaucoup de limites

4:35

comme le temps qu'il faut pour comprendre

4:37

un tel concept dans un faux mot qui est

4:39

environ deux heures ce n'est pas encore non plus

4:42

capable de comprendre complètement la

4:44

concept mais c'est sacrément proche là

4:47

il y a aussi beaucoup de risques à avoir un tel

4:49

produit accessible dont nous avons besoin pour

4:51

envisager d'imaginer pouvoir intégrer le

4:54

concept d'une personne spécifique et

4:56

générer quoi que ce soit impliquant la personne

4:58

en quelques secondes c'est assez effrayant et

5:01

ce genre de technologie est juste autour

5:03

le coin

5:04

j'aimerais entendre vos pensées dans le

5:06

section commentaires ou discutez-en sur le

5:09

serveur de discorde

5:10

merci d'avoir regardé la vidéo et je

5:12

à la semaine prochaine avec un autre

5:14

papier incroyable

5:22

[Musique]