paint-brush
BlobGAN: um GRANDE passo para as GANspor@whatsai
1,420 leituras
1,420 leituras

BlobGAN: um GRANDE passo para as GANs

por Louis Bouchard5m2022/05/14
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

O BlobGAN permite a manipulação irreal de imagens, tornando o controle de blobs simples super fácil. Todas essas pequenas bolhas representam um objeto, e você pode movê-las ou aumentá-las, diminuí-las ou até removê-las, e terá o mesmo efeito no objeto que representa na imagem. Você pode até criar novas imagens duplicando blobs, criando imagens invisíveis no conjunto de dados como uma sala com dois ventiladores de teto. Saiba mais no vídeo! Assista ao vídeo aqui!

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - BlobGAN: um GRANDE passo para as GANs
Louis Bouchard HackerNoon profile picture

O BlobGAN permite a manipulação irreal de imagens, tornando o controle de blobs simples super fácil. Todas essas pequenas bolhas representam um objeto, e você pode movê-las ou aumentá-las, diminuí-las ou até removê-las, e terá o mesmo efeito no objeto que representa na imagem. Isso é tão legal!

Como os autores compartilharam em seus resultados, você pode até criar novas imagens duplicando blobs, criando imagens invisíveis no conjunto de dados ! Corrija-me se eu estiver errado, mas acredito que é um dos, se não o primeiro, papel a tornar a modificação de imagens tão simples quanto mover blobs e permitir edições que não foram vistas no conjunto de dados de treinamento.

E você pode realmente jogar com este em comparação com algumas empresas que todos conhecemos! Eles compartilharam seu código publicamente e uma demonstração do Colab que você pode experimentar imediatamente. Ainda mais empolgante é como o BlobGAN funciona. Saiba mais no vídeo!

Assista o vídeo

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/blobgan/
►Epstein, D., Park, T., Zhang, R., Shechtman, E. e Efros, AA, 2022.
BlobGAN: Representações de cenas espacialmente desembaraçadas. pré-impressão do arXiv
arXiv:2205.02837.
►Link do projeto: https://dave.ml/blobgan/
►Código: https://github.com/dave-epstein/blobgan
►Colab Demo: https://colab.research.google.com/drive/1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

se você acha que o progresso com armas

0:02

acabou você não poderia estar mais errado

0:04

aqui está a arma blob e este novo papel é

0:07

uma incrível arma de bolhas permite

0:09

manipulação irreal de imagens feitas super

0:12

controlando facilmente todos os blobs simples

0:14

essas pequenas bolhas representam um objeto

0:17

e você pode movê-los e torná-los

0:19

maior menor ou mesmo removê-los e

0:22

terá o mesmo efeito no

0:24

objeto que representa na imagem este

0:26

é tão legal quanto os autores compartilharam em

0:29

seus resultados, você pode até criar novos

0:31

imagens duplicando blubs criando

0:34

imagens não vistas no conjunto de dados como este

0:37

quarto com dois ventiladores de teto me corrija se

0:40

eu estou errado, mas eu acredito que é um dos se

0:42

não é o primeiro jornal a fazer o

0:44

modificação de imagens tão simples quanto

0:46

movendo bolhas ao redor e permitindo

0:49

edições que não foram vistas no treinamento

0:51

conjunto de dados e você pode realmente brincar com

0:53

esta em comparação com outras empresas que

0:55

todos sabem que compartilharam são chamados publicamente

0:58

e uma demonstração de colaboração que você pode experimentar imediatamente

1:00

ainda mais emocionante é como o bloggian funciona

1:03

no qual vamos mergulhar em alguns segundos

1:05

publicar um excelente artigo como

1:07

blobgun que os pesquisadores precisavam executar

1:09

muitos experimentos em várias máquinas

1:12

quem brincou com armas sabe quanto tempo

1:14

e doloroso este processo pode ser positivo

1:16

seu código está disponível no github e

1:18

colaboração do Google, isso significa que o código deles

1:21

para ser reproduzível, curiosamente, isso

1:24

também é um ponto muito forte disso

1:26

pesos e vieses do patrocinador do episódio

1:28

pesos e preconceitos mudam minha vida como um

1:30

pesquisador ele rastreia tudo que você precisa

1:32

para que seu código seja reproduzível, o

1:34

hiperparâmetros do github commit

1:36

métricas de uso de hardware e o python

1:38

versão te deixando sem dores de cabeça ok

1:41

alguns ainda podem aparecer por causa de

1:43

prazos ou bugs, mas nenhum de tentar

1:45

para reproduzir experimentos pesos e

1:47

preconceitos também é super útil quando

1:49

compartilhando os resultados de sua experiência com

1:51

seus colegas uma ótima ferramenta para isso é

1:53

relatórios, eles podem atuar como painéis para

1:56

supervisor pis ou gerentes para verificar como

1:59

experimentação está indo significando mais

2:01

tempo para pesquisa enquanto melhora seu

2:03

a qualidade do feedback, por favor, não seja como

2:06

a maioria dos pesquisadores que mantêm seu código

2:08

segredo e tente usar pesos e vieses

2:10

com o primeiro link abaixo

2:13

agora vamos voltar para nossa arma de papel blub

2:16

cena espacialmente desembaraçada

2:18

representações o título diz ital

2:21

blovkian usa bolhas para desembaraçar

2:23

objetos em uma cena, o que significa que o

2:25

modelo aprende a associar cada blob com

2:28

um objeto específico na cena como um

2:30

janela da cama ou ventilador de teto uma vez treinado

2:33

você pode mover os blobs e objetos

2:35

ao redor individualmente torná-los maiores ou

2:37

menor duplicá-los ou até mesmo remover

2:40

eles da foto, claro, o

2:42

resultados não são totalmente realistas, mas

2:44

como uma grande pessoa diria apenas imagine

2:47

o potencial desta abordagem mais dois

2:49

papéis abaixo da linha

2:51

o que é ainda mais legal é que esse treinamento

2:53

ocorre em um esquema não supervisionado este

2:55

significa que você não precisa de cada

2:57

exemplo de imagem para treiná-lo como você faria

3:00

no aprendizado supervisionado um exemplo rápido

3:02

é que o treinamento supervisionado exigirá

3:05

você tenha todos os desejados

3:06

manipulações em sua imagem que são definidas

3:08

ensinar blobs a aprender aqueles

3:10

transformações enquanto em não supervisionado

3:13

aprendendo que você não precisa deste extenso

3:15

dados e o modelo aprenderá a alcançar

3:17

esta tarefa por si só associando blefes

3:20

a objetos por conta própria sem explícito

3:22

rótulos treinamos o modelo com um

3:24

gerador e um discriminador em uma arma

3:27

moda vou simplesmente fazer um rápido

3:28

visão geral como eu cobri armas em

3:30

inúmeros vídeos antes como sempre em armas

3:33

a responsabilidade do discriminador é

3:35

treine o gerador para criar realista

3:38

imagens a parte mais importante do

3:40

arquitetura é o gerador com o nosso

3:42

blobs and a style gun 2 like decoder i

3:45

também cobriu geradores baseados em armas de estilo

3:48

em outros vídeos se você está curioso sobre

3:50

como funciona, mas em resumo, primeiro

3:52

criar nossos blobs isso é feito tomando

3:55

ruído aleatório como na maioria dos geradores

3:57

redes e mapeando-as em blobs usando

4:00

uma primeira rede neural isso será

4:02

aprendeu durante o treinamento, então você precisa

4:05

faça o impossível pegue esse blob

4:07

representação e criar uma imagem real

4:10

fora disso é onde a magia gan

4:12

acontece porque você ainda está ouvindo

4:14

considere se inscrever no

4:16

canal e curtir o vídeo significa um

4:18

muito e apóia meu trabalho de graça também

4:21

temos uma comunidade chamada aprender ai

4:23

juntos no discord para aprender troca

4:26

com outros entusiastas de IA, estou convencido

4:28

você vai adorar lá e eu ficarei feliz

4:30

para conhecê-lo

4:32

precisamos de uma arma estelar como arquitetura para

4:34

criar nossas imagens a partir dessas bolhas de

4:37

curso adicionamos a arquitetura para levar

4:39

os blobs que acabamos de criar como entradas

4:41

em vez do ruído aleatório usual

4:43

então viramos nosso modelo usando o

4:45

discriminador para aprender a gerar

4:47

imagens realistas assim que tivermos boas

4:50

resultados suficientes significa que nosso modelo pode

4:52

assumir a representação de blob em vez de

4:54

ruído e gerar imagens, mas ainda

4:57

tem um problema como podemos desemaranhar

4:59

esses blobs e fazê-los combinar objetos

5:02

bem, esta é a beleza do nosso

5:04

abordagem não supervisionada, o modelo irá

5:06

melhorar iterativamente e criar realistas

5:08

resultados enquanto aprende a

5:11

representam essas imagens na forma de um

5:13

número fixo de blobs que você pode ver aqui

5:15

como os blubs costumam ser usados para representar

5:17

os mesmos objetos ou objetos muito semelhantes

5:20

na cena aqui você também pode ver como

5:22

as mesmas luvas são usadas para representar

5:24

uma janela ou uma pintura que

5:26

faz muito sentido da mesma forma que você pode

5:29

veja que a luz é quase sempre

5:31

representado no forte blub de forma semelhante

5:33

você pode ver como os blubs são frequentemente

5:35

representando as mesmas regiões do

5:37

cena certamente leva você para o

5:39

semelhanças de imagens no conjunto de dados

5:42

usado para este experimento e pronto

5:45

é como o blobgan aprende a manipular

5:47

cenas usando um blob muito intuitivo

5:50

representação estou animado para ver o

5:52

realismo dos resultados melhoram mantendo uma

5:54

abordagem semelhante usando tal técnica

5:57

poderíamos criar aplicativos interativos simples

5:59

para permitir que designers e qualquer pessoa

6:01

manipular imagens facilmente, o que é bastante

6:04

emocionante é claro que isso foi apenas um

6:06

visão geral deste novo papel e eu

6:08

recomendo vivamente a leitura do seu papel

6:10

para uma melhor compreensão e muito

6:12

mais detalhes sobre sua abordagem

6:13

implementação e testes que eles fizeram como eu

6:16

disse anteriormente no vídeo eles também

6:18

compartilhou seu código publicamente e uma cor

6:20

demo você pode experimentar imediatamente todos os

6:22

os links estão na descrição abaixo

6:24

obrigado por assistir até o final e

6:27

vejo você na próxima semana com outro

6:28

papel incrível

[Música]