24,766 lectures

24,766 lectures

Comment fonctionne DALL · E mini ?

par Louis Bouchard3m2022/06/19

Read on Terminal Reader

Read this story w/o Javascript

FR

Trop long; Pour lire

Dalle mini est une IA gratuite et open source qui produit des images étonnantes à partir de saisies de texte. L'IA s'appelle DALL·E mini et peut être utilisée pour tester vos connaissances sur la capacité de Dall-e mini à générer des images. Dalle Mini est une IA open source qui peut être jouée avec un simple outil simple appelé DALimini. DALIMini est un projet créé par la communauté openai l'année dernière et n'a cessé d'évoluer depuis lors avec des résultats incroyables.

Company Mentioned

Mention Thumbnail

featured image - Comment fonctionne DALL · E mini ?

Dalle mini est incroyable - et VOUS pouvez l'utiliser !

Je suis sûr que vous avez vu des images comme celles-ci dans votre fil Twitter ces derniers jours. Si vous vous demandez ce que c'est, ce sont des images générées par une IA appelée DALL·E mini. Si vous ne les avez jamais vus, vous devez regarder cette vidéo car vous manquez quelque chose. Si vous vous demandez comment cela est possible, eh bien, vous êtes sur la vidéo parfaite et saurez la réponse en moins de cinq minutes.

Dalle mini est une IA gratuite et open source qui produit des images étonnantes à partir de saisies de texte. Voici comment ça fonctionne:

Voir la vidéo

Références:

►Lire l'article complet : https://www.louisbouchard.ai/dalle-mini/
►DALL·E mini contre DALL·E 2 : https://youtu.be/0Eu9SDd-95E
►Résultats des mini-DALL·E les plus étranges/les plus drôles : https://youtu.be/9LHkNt2cH_w
►Jouez avec DALL·E mini : https://huggingface.co/spaces/dalle-mini/dalle-mini
►Code DALL·E mini : https://github.com/borisdayma/dalle-mini
►Twitter de Boris Dayma : https://twitter.com/borisdayma
►Excellent rapport technique complet de Boris Dayma et al. : https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip- modèle de réseau de neurones
►Excellent fil de discussion sur Dall-e mini par Tanishq Mathew Abraham :
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Fdit%5E%2Fdit%2As1_&ref_wwwurl2=https:// com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN expliqué : https://youtu.be/JfUTd8fjtX8
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:00

je suis sûr que vous avez vu des images comme celles-là

0:02

dans votre fil Twitter au cours des dernières

0:04

jours si vous vous demandez ce qu'ils portent, ils

0:06

sont des images générées par un ai appelé

0:08

dali mini si vous n'avez jamais vu ceux que vous

0:11

besoin de regarder cette vidéo parce que vous êtes

0:12

manquer si vous vous demandez comment c'est

0:14

possible bien vous êtes sur le parfait

0:16

vidéo et connaîtra la réponse en moins

0:18

plus de 5 minutes ce nom dali doit

0:21

sonne déjà une cloche alors que j'en couvrais deux

0:23

versions de ce modèle réalisées par openai en

0:26

l'année dernière avec des résultats incroyables

0:28

mais celui-ci est différent dalimini est un

0:31

projet créé par la communauté open source

0:33

inspiré de la première version de delhi

0:35

et n'a cessé d'évoluer depuis avec

0:38

maintenant des résultats incroyables grâce à boris

0:41

daima et tous les contributeurs oui ceci

0:43

signifie que vous pouvez jouer avec tout de suite

0:46

grâce à l'étreinte du visage, le lien est dans

0:48

la description ci-dessous mais donnez ceci

0:49

vidéo quelques secondes de plus avant de jouer

0:51

avec ça ça vaudra le coup et tu vas

0:54

en savoir beaucoup plus sur cette IA que

0:55

tout le monde autour de vous au noyau dali

0:58

mini est très similaire à delhi donc mon

1:00

la vidéo initiale sur le modèle est géniale

1:02

introduction à celui-ci, il a deux principaux

1:04

composants que vous soupçonnez une langue et

1:07

un module d'image, il doit d'abord

1:10

comprendre l'invite de texte, puis

1:12

générer des images à la suite de deux très

1:14

des choses différentes nécessitant deux très

1:17

différents modèles la principale différence

1:18

avec delhi mensonge dans les modèles

1:20

données d'architecture et de formation, mais les

1:22

processus de bout en bout est à peu près le

1:24

même ici nous avons un modèle de langage

1:27

appelé bart bart est un modèle formé pour

1:29

transformer la saisie de texte en une langue

1:32

compréhensible pour le prochain modèle pendant

1:34

formation nous alimentons des paires d'images avec

1:36

légendes à dalemini bart prend le texte

1:39

légende et la transforme en discret

1:42

jetons qui seront lisibles par le

1:44

modèle suivant et nous l'ajustons en fonction du

1:46

différence entre l'image générée

1:48

et l'image envoyée en entrée mais ensuite

1:51

quelle est cette chose ici qui génère

1:54

l'image que nous appelons cela un décodeur il sera

1:57

prendre la nouvelle représentation de la légende

1:59

produit par bart que nous appelons un

2:01

l'encodage et le décodera dans un

2:04

image dans ce cas le décodeur d'image est

2:07

vqgan un modèle que j'ai déjà couvert sur le

2:10

chaîne donc je vous invite définitivement à

2:11

regarde la vidéo si ça t'intéresse

2:14

court vkugen est une excellente architecture pour

2:16

faire le contraire il apprend à partir de

2:19

un tel mappage d'encodage et générer un

2:22

image hors de lui comme vous le soupçonnez gpt3 et

2:25

d'autres modèles génératifs de langage font un

2:27

chose très similaire encodant du texte et

2:29

décoder le mappage nouvellement généré

2:32

dans un nouveau texte qu'il vous renvoie

2:35

ici c'est la même chose mais avec des pixels

2:37

former une image au lieu de lettres

2:40

formant une phrase, il apprend à travers

2:42

des millions de paires d'images d'encodage à partir de

2:45

l'internet donc fondamentalement votre publié

2:47

images avec des légendes et finit par être

2:50

assez précis pour reconstituer

2:52

image initiale, vous pouvez l'alimenter à nouveau

2:54

encodages qui ressemblent à ceux de

2:56

formation mais sont un peu différents et il

2:59

va générer un tout nouveau mais

3:01

image similaire de même nous ajoutons généralement

3:04

juste un peu de bruit à ces encodages

3:06

pour générer une nouvelle image représentant

3:08

même invite de texte et le tour est joué

3:12

dali mini apprend à générer des images à partir

3:14

vos légendes de texte comme je l'ai mentionné

3:17

open source et vous pouvez même jouer avec

3:19

tout de suite grâce au visage étreignant

3:22

bien sûr ce n'était qu'un simple

3:24

vue d'ensemble et j'ai omis certains éléments importants

3:26

étapes pour plus de clarté si vous souhaitez en savoir plus

3:29

détails sur le modèle que j'ai lié super

3:31

ressources dans la description ci-dessous i

3:34

a également récemment publié deux courtes vidéos

3:36

présentant des résultats amusants ainsi que

3:38

un résultat de comparaison avec daily 2 pour

3:40

le même texte invite c'est plutôt cool

3:42

pour voir j'espère que vous avez apprécié cette vidéo

3:45

et si c'est le cas, veuillez prendre quelques secondes pour

3:47

faites le moi savoir dans les commentaires et laissez un

3:50

comme je te verrai pas la semaine prochaine mais dans

3:52

deux semaines avec un autre papier incroyable

3:55

[Musique]

4:14

[Musique]

Databricks <> AWS Marketplace

L O A D I N G
. . . comments & more!

About Author

Louis Bouchard@whatsai

I explain Artificial Intelligence terms and news to non-experts.

Read my stories

ÉTIQUETTES

#ai #artificial-intelligence #latest-tech-stories #dalle #dall-e-2 #dalle-mini #computer-vision #hackernoon-top-story #web-monetization

CET ARTICLE A ÉTÉ PARU DANS...

Read on Terminal Reader

Read this story w/o Javascript

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Categories

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks