Si vous pensiez que avait d'excellents résultats, attendez de voir ce que ce nouveau modèle de Google Brain peut faire.
Dalle-e est incroyable mais manque souvent de réalisme, et c'est ce à quoi l'équipe s'est attaquée avec ce nouveau modèle baptisé Imagen.
Ils partagent de nombreux résultats sur leur page de projet ainsi qu'un benchmark, qu'ils ont introduit pour comparer les modèles texte-image, où ils surpassent clairement et les approches de génération d'images précédentes. En savoir plus dans la vidéo...
►Lire l'article complet : https://www.louisbouchard.ai/google-brain-imagen/
►Article : Saharia et al., 2022, Imagen - Google Brain, https://gweb-research-imagen.appspot.com/paper.pdf
►Lien du projet : https://gweb-research-imagen.appspot.com/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
si vous pensiez que dali 2 avait d'excellents résultats
0:02
attendez de voir ce que ce nouveau modèle
0:04
de google cerveau peut faire delhi est
0:07
incroyable mais manque souvent de réalisme et cela
0:10
est ce que l'équipe a attaqué avec ce nouveau
0:12
modèle appelé imogen ils partagent beaucoup de
0:14
résultats sur leur page de projet ainsi que
0:16
une référence qu'ils ont introduite pour
0:18
comparant du texte à des modèles d'image où
0:20
ils ont clairement surperformé quotidiennement2 et
0:23
approches de génération d'images précédentes
0:25
cette référence est aussi super cool car nous
0:27
voir de plus en plus de modèles de texte en image
0:29
et c'est assez difficile de comparer
0:31
résultats sauf si nous supposons que les résultats sont
0:34
vraiment mauvais ce que nous faisons souvent mais cela
0:36
model et le2 ont défié toutes les chances
0:40
tldr c'est un nouveau modèle texte-image qui
0:43
vous pouvez comparer à dali avec plus
0:45
réalisme selon les testeurs humains si juste
0:48
comme dali que j'ai couvert même pas un
0:50
il y a un mois, ce modèle prend les textes comme un
0:53
chien golden retriever vêtu d'un bleu
0:56
barrette à carreaux et un pointillé rouge
0:58
col roulé et essaie de générer un
1:00
image photoréaliste de cet étrange
1:02
phrase le point principal ici est que
1:05
imogen peut non seulement comprendre le texte, mais
1:08
il peut aussi comprendre les images qu'il
1:10
génère car ils sont plus réalistes
1:12
que toutes les approches précédentes bien sûr
1:15
quand je dis comprendre, je veux dire le sien
1:17
genre de compréhension qui est vraiment
1:20
différent du nôtre, le modal ne le fait pas
1:22
bien comprendre le texte ou l'image
1:24
il génère il a certainement une sorte
1:27
de connaissances à ce sujet, mais il s'agit principalement
1:28
comprend comment ce type particulier de
1:31
phrase avec ces objets devrait être
1:33
représenté à l'aide de pixels sur une image mais
1:36
j'avoue que ça y ressemble
1:38
comprend ce qu'on lui envoie quand on voit
1:41
ces résultats, évidemment, vous pouvez le tromper
1:43
avec des phrases vraiment bizarres qui
1:45
ne pouvait pas avoir l'air réaliste comme celui-ci
1:48
mais ça bat parfois même le tien
1:50
imagination et crée juste quelque chose
1:53
incroyable encore ce qui est encore plus incroyable
1:56
c'est comme ça que ça marche en utilisant quelque chose que je n'ai jamais
1:58
discuté sur la chaîne une diffusion
2:00
modèle mais avant d'utiliser cette diffusion
2:03
modèle, nous devons d'abord comprendre le
2:05
saisie de texte et c'est aussi le principal
2:07
différence avec dali ils ont utilisé un énorme
2:10
modèle de texte similaire à gpt3 pour comprendre
2:13
le texte du mieux qu'un système d'IA peut le faire
2:16
au lieu de former un modèle de texte le long
2:18
avec le modèle de génération d'images, ils
2:21
utilisez simplement un grand modèle pré-formé et
2:23
congelez-le pour qu'il ne change pas
2:25
pendant la formation de l'image
2:27
modèle de génération de leur étude ce
2h30
conduit à de bien meilleurs résultats et il semble
2:32
comme le modèle comprenait mieux le texte donc
2:35
ce module de texte est la façon dont le modèle
2:37
comprend le texte et cette compréhension
2:40
est représenté dans ce que nous appelons des encodages
2:42
c'est ce que le modèle a été formé
2:44
à faire sur d'énormes ensembles de données pour transférer du texte
2:47
entrées dans un espace d'information qui
2:50
il peut utiliser et comprendre
2:52
maintenant nous devons utiliser ce texte de transformation
2:54
données pour générer l'image et comme je l'ai dit
2:57
ils ont utilisé un modèle de diffusion pour atteindre
3:00
mais qu'est-ce qu'un modèle de diffusion
3:02
les modèles de diffusion sont des modèles génératifs
3:04
qui convertissent le bruit gaussien aléatoire comme
3:07
cela en images en apprenant à
3:10
inverser le bruit gaussien itérativement ils
3:13
sont des modèles puissants pour la super résolution
3:15
ou d'autres traductions d'image à image et
3:18
dans ce cas utiliser une unité modifiée
3:20
architecture dont j'ai couvert de nombreux
3:22
fois dans les vidéos précédentes donc je ne le ferai pas
3:24
entrer dans les détails architecturaux
3:26
ici, fondamentalement, le modèle est formé pour
3:29
débruiter une image à partir de bruit pur qui
3:31
l'orient en utilisant les encodages de texte et
3:34
une technique appelée classificateur gratuit
3:36
des conseils qui, selon eux, sont essentiels et
3:38
clairement expliqué dans leur article, je vais
3:40
laissez-vous lire pour plus d'informations sur
3:42
cette technique donc maintenant nous avons un modèle
3:45
capable de prendre un bruit gaussien aléatoire et
3:47
notre encodage de texte et débruitez-le avec
3:49
guidage des encodages de texte à
3:51
générer notre image mais comme vous le voyez ici
3:54
ce n'est pas aussi simple que ça en a l'air
3:56
l'image que nous venons de générer est très petite
3:58
image car une image plus grande nécessitera
4:00
beaucoup plus de calcul et beaucoup plus grand
4:02
modèle qui ne sont pas viables à la place nous
4:05
générer d'abord une image photoréaliste
4:07
en utilisant le modèle de diffusion, nous venons
4:09
discuté et ensuite utiliser d'autres diffusions
4:12
modèles pour améliorer la qualité des
4:14
image itérative que j'ai déjà couverte
4:16
modèles de super résolution dans les vidéos précédentes
4:19
donc je n'entrerai pas dans les détails ici
4:21
mais faisons encore une fois un rapide tour d'horizon
4:24
on veut avoir du bruit et pas une image
4:26
donc nous couvrons ce généré initialement
4:28
image basse résolution avec encore quelques
4:31
bruit gaussien et nous entraînons notre deuxième
4:33
modèle de diffusion pour prendre cette modification
4:35
image et l'améliorer puis nous répétons
4:38
ces deux étapes avec un autre modèle mais
4:40
cette fois en utilisant uniquement des patchs du
4:43
image au lieu de l'image complète à faire
4:45
le même ratio d'upscaling et rester
4:47
informatiquement viable et le tour est joué
4:51
avec notre high photoréaliste
4:53
image de résolution
4:55
bien sûr, ce n'était qu'un aperçu de
4:56
ce nouveau modèle passionnant avec vraiment cool
4:59
résultats que je vous invite définitivement à lire
5:01
leur grand papier pour un approfondissement
5:03
compréhension de leur approche et une
5:05
analyse détaillée des résultats
5:07
et vous pensez-vous que les résultats sont
5:09
comparables à delhi aussi sont-ils meilleurs
5:12
ou pire, je pense que c'est le principal de dally
5:15
concurrent à partir de maintenant laissez-moi savoir ce que
5:17
vous pensez à ce nouveau cerveau google
5:19
publication et l'explication j'espère
5:21
tu as aimé cette vidéo et si c'est le cas
5:24
merci de prendre une seconde pour laisser un like et
5:26
abonnez-vous pour rester à jour avec
5:27
des nouvelles passionnantes sur ai si vous êtes abonné, je
5h30
à la semaine prochaine avec un autre
papier incroyable