paint-brush
A abordagem da NVIDIA e da Universidade de Tel Aviv para condicionar modelos de conversão de texto em imagempor@whatsai
735 leituras
735 leituras

A abordagem da NVIDIA e da Universidade de Tel Aviv para condicionar modelos de conversão de texto em imagem

por Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Modelos de texto para imagem como DALLE ou difusão estável são muito legais e nos permitem gerar imagens fantásticas com uma simples entrada de texto. Mas seria ainda mais legal dar a eles uma foto sua e pedir para transformá-la em uma pintura? Imagine poder enviar qualquer foto de um objeto, pessoa ou até mesmo do seu gato, e pedir ao modelo para transformá-lo em outro estilo, como se transformar em um ciborgue ou em seu estilo artístico preferido ou adicioná-lo a uma nova cena.

Company Mentioned

Mention Thumbnail
featured image - A abordagem da NVIDIA e da Universidade de Tel Aviv para condicionar modelos de conversão de texto em imagem
Louis Bouchard HackerNoon profile picture

Modelos de texto para imagem como DALLE ou difusão estável são muito legais e nos permitem gerar imagens fantásticas com uma simples entrada de texto. Mas seria ainda mais legal dar a eles uma foto sua e pedir para transformá-la em uma pintura? Imagine poder enviar qualquer foto de um objeto, pessoa ou até mesmo do seu gato, e pedir ao modelo para transformá-lo em outro estilo, como se transformar em um ciborgue ou em seu estilo artístico preferido ou adicioná-lo a uma nova cena.

Basicamente, não seria legal ter uma versão do DALLE que pudéssemos usar para fazer photoshop em nossas fotos, em vez de gerar gerações aleatórias? Ter um DALLE personalizado, ao mesmo tempo em que torna muito mais simples controlar a geração, pois “uma imagem vale mais que mil palavras”. Seria como ter um modelo DALLE tão personalizado e viciante quanto o algoritmo do TikTok.

Bem, é nisso que os pesquisadores da Universidade de Tel Aviv e da NVIDIA trabalharam. Eles desenvolveram uma abordagem para condicionar modelos de texto para imagem, como a difusão estável que abordei na semana passada, com algumas imagens para representar qualquer objeto ou conceito por meio das palavras que você enviará junto com suas imagens. Transformando o objeto de suas imagens de entrada no que você quiser! Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/imageworthoneword/
►Papel: Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. e Cohen-Or, D., 2022. Uma imagem vale uma palavra:
Personalizando a geração de texto para imagem usando a inversão textual. https://arxiv.org/pdf/2208.01618v1.pdf
►Código: https://textual-inversion.github.io/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

modelos de texto para imagem como dali ou estável

0:02

difusão são muito legais e nos permitem

0:04

para gerar imagens fantásticas com um

0:07

entrada de texto simples, mas seria mesmo

0:09

legal para dar a eles uma foto sua e

0:11

peça para transformá-lo em uma pintura

0:13

imagine poder enviar qualquer foto

0:15

de uma pessoa objeto ou mesmo seu gato e

0:18

peça ao modelo para transformá-lo em

0:20

outro estilo como se transformar em

0:22

um ciborgue em sua arte preferida

0:24

estilo ou até mesmo adicioná-lo em uma nova cena

0:27

basicamente como seria legal ter um

0:30

versão do dali que podemos usar para photoshop

0:32

nossas fotos em vez de aleatórias

0:35

gerações

0:36

tendo um dolly personalizado ao fazer

0:39

é muito mais simples de controlar

0:41

gerações como uma imagem vale um

0:44

mil palavras será como ter um

0:46

modelo dali que é tão personalizado

0:49

e viciante como o algoritmo tic tac

0:52

bem, isso é o que os pesquisadores de tel

0:54

Universidade de aviv e nvidia trabalharam em

0:57

eles desenvolveram uma abordagem para

0:58

modelos de condicionamento de texto para imagem como

1:01

difusão estável que cobri na semana passada

1:03

com algumas imagens para representar qualquer

1:05

objeto ou conceito através das palavras que você

1:08

enviará junto suas imagens transformando

1:11

o objeto de suas imagens de entrada em

1:13

o que você quiser, claro, os resultados

1:15

ainda precisa de trabalho, mas este é apenas o

1:17

primeiro artigo abordando um assunto tão incrível

1:19

tarefa que pode revolucionar o design

1:22

indústria como um youtuber fantástico

1:24

colega dirá apenas imagine mais dois

1:26

papéis abaixo da linha, então como podemos tomar

1:29

um punhado de fotos de um objeto e

1:31

gerar uma nova imagem seguindo um texto

1:33

entrada de condição para adicionar o estilo ou

1:35

detalhes da transformação para responder a isso

1:38

pergunta complexa, vamos dar uma olhada

1:40

o que reynold gal e sua equipe inventaram

1:42

com as imagens de entrada são codificadas em

1:44

o que eles chamam de palavra absurda que você pode

1:47

então use dentro de sua geração de texto

1:50

assim o nome do papel uma imagem vale

1:52

uma palavra, mas como eles conseguem esse tipo

1:55

de palavra e o que é

1:57

eles começam com três a cinco imagens de

2:00

um objeto específico, eles também usam um

2:02

texto pré-treinado para modelo de imagem neste

2:04

caso eles usem difusão latente o modelo

2:07

eu cobri nem mesmo uma semana atrás, o que

2:09

recebe qualquer tipo de entrada, como imagens ou

2:12

texto e gera novas imagens a partir

2:15

eles você pode vê-lo como um refrigerador e aberto

2:18

source deli se você ainda não assistiu meu

2:20

vídeo, mas você deve pausar este

2:23

conheça este modelo e volte

2:25

aqui você vai adorar o vídeo e aprender

2:27

sobre a arquitetura mais quente do

2:29

momento para que você tenha suas imagens de entrada e

2:32

o modelo base para gerar imagens

2:34

condicionado e entradas como texto ou

2:37

outras imagens, mas o que você faz com

2:39

suas três a cinco imagens de um objeto

2:42

e como você controla o modelo

2:43

resultados tão precisos que seu objeto

2:46

aparece nas gerações isso é tudo

2:48

feito durante o processo de formação do seu

2:51

segundo modele o codificador de texto usando seu

2:54

gerador de imagem pré-treinado e fixo

2:56

modelo de difusão latente neste caso

2:59

já consegui tirar uma foto e

3:00

reconstruí-lo você quer ensinar o seu

3:02

codificador de texto modal para corresponder ao absurdo

3:05

palavra para suas imagens codificadas ou em outros

3:08

palavras suas representações tiradas de

3:11

suas cinco imagens para que você alimente seu

3:13

imagens para sua rede geradora de imagens

3:16

e treine seu codificador de texto ao contrário

3:19

para descobrir quais palavras falsas ou certas

3:22

palavra representaria melhor todos os seus

3:24

imagens codificadas basicamente descobrir como

3:27

representar corretamente o seu conceito no

3:29

mesmo espaço onde a geração da imagem

3:32

processo que descrevi no meu vídeo anterior

3:34

acontece

3:36

em seguida, extraia uma palavra falsa para

3:38

guiar as gerações futuras desta forma você

3:41

pode injetar seu conceito em qualquer futuro

3:44

gerações e adicionar mais algumas palavras para

3:46

condicionar ainda mais a geração

3:49

usando o mesmo texto para imagem pré-treinado

3:51

modelo, então você simplesmente estará treinando um

3:54

pequeno modelo para entender onde seu

3:56

as imagens jazem no espaço latente para

3:58

convertê-los em uma palavra falsa para usar em

4:00

seu modelo regular de geração de imagem, você

4:03

nem precisa tocar na imagem

4:05

modelo de geração e isso é bastante grande

4:07

negócio considerando o quão caro eles são

4:09

para treinar e pronto, é assim que você pode

4:12

ensinar um modelo semelhante para gerar imagem

4:14

variações de seu objeto preferido ou

4:17

realizar transferências de estilo poderosas

4:19

claro que isso é apenas uma visão geral

4:21

este novo método abordando uma questão muito, muito

4:24

tarefa interessante e eu convido você a

4:26

leia o artigo deles no link abaixo para um

4:28

compreensão mais profunda da abordagem e

4:30

desafios é uma tarefa muito complicada

4:33

e ainda há muitas limitações

4:35

como o tempo que leva para entender

4:37

tal conceito em uma palavra falsa que é

4:39

cerca de duas horas também ainda não é

4:42

capaz de compreender completamente o

4:44

conceito, mas é muito próximo lá

4:47

também há muitos riscos em ter tal

4:49

produto acessível que precisamos

4:51

considere imaginar ser capaz de incorporar o

4:54

conceito de uma pessoa específica e

4:56

gerar qualquer coisa envolvendo a pessoa

4:58

em alguns segundos isso é bastante assustador e

5:01

esse tipo de tecnologia está por aí

5:03

a esquina

5:04

eu adoraria ouvir seus pensamentos no

5:06

seção de comentários ou discutir isso no

5:09

servidor discórdia

5:10

obrigado por assistir o video e eu

5:12

Vejo você na próxima semana com outro

5:14

papel incrível

5:22

[Música]