paint-brush
Como funciona o DALL·E mini?por@whatsai
24,742 leituras
24,742 leituras

Como funciona o DALL·E mini?

por Louis Bouchard3m2022/06/19
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

O Dalle mini é uma IA gratuita e de código aberto que produz imagens incríveis a partir de entradas de texto. A IA é chamada de DALL·E mini e pode ser usada para testar seu conhecimento sobre a capacidade do Dall-e mini de gerar imagens. Dalle Mini é uma IA de código aberto que pode ser usada com uma ferramenta simples e simples chamada DALimini. DALIMini é um projeto criado pela comunidade criado pela openai no ano passado e continuou evoluindo desde então com resultados incríveis.

Company Mentioned

Mention Thumbnail
featured image - Como funciona o DALL·E mini?
Louis Bouchard HackerNoon profile picture

Dalle mini é incrível - e VOCÊ pode usá-lo!

Tenho certeza de que você viu fotos como essas em seu feed do Twitter nos últimos dias. Se você se perguntou o que eram, são imagens geradas por uma IA chamada DALL·E mini. Se você nunca viu isso, precisa assistir a este vídeo porque está perdendo. Se você se pergunta como isso é possível, bem, você está no vídeo perfeito e saberá a resposta em menos de cinco minutos.

O Dalle mini é uma IA gratuita e de código aberto que produz imagens incríveis a partir de entradas de texto. Veja como funciona:

Assista o vídeo

Referências:

►Leia o artigo completo: https://www.louisbouchard.ai/dalle-mini/
►DALL·E mini vs. DALL·E 2: https://youtu.be/0Eu9SDd-95E
►Os mini resultados DALL·E mais estranhos/engraçados: https://youtu.be/9LHkNt2cH_w
►Jogue com DALL·E mini: https://huggingface.co/spaces/dalle-mini/dalle-mini
►DALL·E mini Código: https://github.com/borisdayma/dalle-mini
►Twitter de Boris Dayma: https://twitter.com/borisdayma
►Grande e completo relatório técnico de Boris Dayma et al.: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip- modelo de rede neural
►Ótimo tópico sobre Dall-e mini por Tanishq Mathew Abraham:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url. com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN explicado: https://youtu.be/JfUTd8fjtX8
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

tenho certeza que você já viu fotos como essas

0:02

em seu feed do Twitter nos últimos

0:04

dias se você quer saber o que eles vestem eles

0:06

são imagens geradas por um ai chamado

0:08

dali mini se você nunca viu aqueles que você

0:11

precisa assistir esse vídeo porque você é

0:12

perdendo se você quer saber como isso é

0:14

possível bem, você está no perfeito

0:16

vídeo e saberá a resposta em menos

0:18

de 5 minutos este nome dali deve

0:21

já toco uma campainha enquanto eu cobri dois

0:23

versões deste modelo feitas pela openai em

0:26

o ano passado com resultados incríveis

0:28

mas este é diferente dalimini é um

0:31

projeto criado pela comunidade de código aberto

0:33

inspirado na primeira versão de delhi

0:35

e continuou evoluindo desde então com

0:38

agora resultados incríveis graças a boris

0:41

daima e todos os contribuidores sim isso

0:43

significa que você pode brincar com ele imediatamente

0:46

graças ao abraço cara o link está em

0:48

a descrição abaixo, mas dê isso

0:49

vídeo mais alguns segundos antes de jogar

0:51

com ele vai valer a pena e você vai

0:54

sabe muito mais sobre esse ai do que

0:55

todos ao seu redor no core dali

0:58

mini é muito semelhante a delhi, então meu

1:00

vídeo inicial no modelo é um ótimo

1:02

introdução a este tem dois principais

1:04

componentes conforme você suspeita de um idioma e

1:07

um módulo de imagem primeiro tem que

1:10

entender o prompt de texto e, em seguida,

1:12

gerar imagens seguindo-o dois muito

1:14

coisas diferentes que exigem dois muito

1:17

modelos diferentes a principal diferença

1:18

com deli mentira nos modelos

1:20

arquitetura e dados de treinamento, mas o

1:22

processo de ponta a ponta é basicamente o

1:24

mesmo aqui temos um modelo de linguagem

1:27

chamado bart bart é um modelo treinado para

1:29

transformar entrada de texto em um idioma

1:32

compreensível para o próximo modelo durante

1:34

treinamento alimentamos pares de imagens com

1:36

legendas para dalemini bart leva o texto

1:39

legenda e a transforma em discreta

1:42

tokens que serão lidos pelo

1:44

próximo modelo e ajustamos com base no

1:46

diferença entre a imagem gerada

1:48

e a imagem enviada como entrada, mas depois

1:51

o que é essa coisa aqui que gera

1:54

a imagem que chamamos de decodificador será

1:57

pegue a nova representação de legenda

1:59

produzido por bart que chamamos de

2:01

codificação e irá decodificá-lo em um

2:04

imagem neste caso, o decodificador de imagem é

2:07

vqgan um modelo que já cobri no

2:10

canal então eu definitivamente convido você para

2:11

assista ao vídeo se estiver interessado em

2:14

short vkugen é uma ótima arquitetura para

2:16

fazer o oposto, ele aprende como ir

2:19

tal mapeamento de codificação e gerar um

2:22

imagem fora dele como você suspeita gpt3 e

2:25

outros modelos generativos de linguagem fazem um

2:27

coisa muito semelhante codificando texto e

2:29

decodificando o mapeamento recém-gerado

2:32

em um novo texto que ele envia de volta

2:35

aqui é a mesma coisa mas com pixels

2:37

formando uma imagem em vez de letras

2:40

formando uma frase que aprende através

2:42

milhões de pares de imagens de codificação de

2:45

a internet, então basicamente o seu publicado

2:47

imagens com legendas e acaba sendo

2:50

bastante preciso na reconstrução do

2:52

imagem inicial, então você pode alimentá-lo novo

2:54

codificações que se parecem com as de

2:56

treinamento, mas são um pouco diferentes e

2:59

irá gerar um completamente novo, mas

3:01

imagem semelhante da mesma forma que costumamos adicionar

3:04

apenas um pouco de ruído para essas codificações

3:06

para gerar uma nova imagem representando o

3:08

mesmo prompt de texto e pronto, é assim

3:12

dali mini aprende a gerar imagens de

3:14

suas legendas de texto como eu mencionei é

3:17

código aberto e você pode até brincar com

3:19

imediatamente graças ao abraço no rosto

3:22

claro que isso foi apenas um simples

3:24

visão geral e eu omiti alguns importantes

3:26

etapas para maior clareza se você quiser mais

3:29

detalhes sobre o modelo que eu vinculei ótimo

3:31

recursos na descrição abaixo i

3:34

também publicou recentemente dois vídeos curtos

3:36

apresentando alguns resultados engraçados, bem como

3:38

uma comparação resulta com o dia 2 para

3:40

o mesmo texto indica que é muito legal

3:42

para ver eu espero que você tenha gostado deste vídeo

3:45

e se assim for, por favor, dedique alguns segundos para

3:47

deixe-me saber nos comentários e deixe um

3:50

como eu vou te ver não na próxima semana, mas em

3:52

duas semanas com outro papel incrível

3:55

[Música]

4:14

[Música]