El año pasado compartí , un increíble modelo de OpenAI capaz de generar imágenes a partir de una entrada de texto con resultados increíbles. Ahora es el turno de su hermano mayor, DALL·E 2. ¡Y no creerás el progreso en un solo año! DALL·E 2 no solo es mejor para generar imágenes fotorrealistas a partir de texto. ¡Los resultados son cuatro veces la resolución!
Como si no fuera ya lo suficientemente impresionante, el modelo reciente aprendió una nueva habilidad; .
DALL·E podría generar imágenes a partir de entradas de texto.
DALL·E 2 puede hacerlo mejor, pero no se queda ahí. ¡También puede editar esas imágenes y hacer que se vean aún mejor! O simplemente agregue una función que desee, como algunos flamencos en el fondo.
¿Suena interesante? ¡Aprende más en el vídeo!
►Lea el artículo completo: https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/
►A. Ramesh et al., 2022, artículo DALL-E 2: https://cdn.openai.com/papers/dall-e-2.pdf
►Publicación del blog de OpenAI: https://openai.com/dall-e-2
►Riesgos y limitaciones: https://github.com/openai/dalle-2-preview/blob/main/system-card.md
►Página de instagram de OpenAI Dalle: https://www.instagram.com/openaidalle/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
el año pasado compartí a dolly un increíble
0:02
modelo de openai capaz de generar
0:05
imágenes de un pie tejano con increíble
0:08
resultados ahora es el momento de su gran
0:10
hermano muñequita también y no vas a creer
0:13
el progreso en un solo año dolly 2 es
0:15
no solo mejor en la generación
0:17
imágenes fotorrealistas de textos
0:20
los resultados son cuatro veces la resolución que
0:22
si no fuera ya lo suficientemente impresionante
0:25
el modelo reciente aprendió una nueva habilidad
0:27
imagen en pintura delhi podría generar
0:30
imágenes de entradas de texto que Dolly 2 puede hacer
0:33
es mejor pero no se detiene ahí
0:35
también puede editar esas imágenes y hacerlas
0:38
luzca aún mejor o simplemente agregue una característica
0:41
quieres como un aleteo va en el
0:43
fondo esto es lo que imagen y
0:45
pintar es tomar parte de una imagen
0:47
y reemplazarlo con otra cosa
0:49
siguiendo el estilo y reflexiones en
0:51
la imagen manteniendo el realismo por supuesto
0:53
no solo reemplaza la parte del
0:55
imagen al azar esto será demasiado fácil
0:58
para openai este proceso de pintura es
1:00
también guiado por texto, lo que significa que puede
1:02
dile que añada una hambruna vaya aquí allá o
1:05
aún allí
1:06
antes de sumergirse en el meollo de la cuestión
1:08
este nuevo modelo dahle déjame hablar un poco
1:11
poco sobre este episodio patrocinador
1:13
pesos y sesgos si no lo eres
1:15
familiarizado con el peso y los sesgos que está
1:17
sin duda nuevo aquí y debería
1:19
definitivamente suscríbete al canal
1:21
peso y sesgos le permite mantener
1:22
un seguimiento de todos sus experimentos con sólo
1:25
un puñado de líneas agregadas a su código
1:27
una característica que me encanta es cómo puedes
1:29
crea y comparte rápidamente un aspecto increíble
1:31
informes interactivos como este
1:34
mostrando claramente su equipo o yo futuro
1:36
tus carreras métricas hiperparámetros y
1:38
configuraciones de datos junto con cualquier nota
1:41
usted o su equipo tenían en ese momento es un
1:44
poderosa característica para agregar rápido
1:46
comentarios sobre un experimento o crear
1:48
piezas pulidas de informes de análisis pueden
1:50
también se pueden utilizar como tableros para informes
1:53
un subconjunto más pequeño de métricas que el
1:55
espacio de trabajo principal que incluso puedes crear
1:57
enlaces públicos de solo lectura para compartir con
2:00
cualquier persona puede capturar y compartir fácilmente su
2:02
el trabajo es fundamental si quieres crecer como
2:04
un practicante de ml, por eso yo
2:06
recomendar el uso de herramientas que mejoren su
2:08
funciona como pesos y sesgos solo inténtalo
2:11
con el primer enlace de abajo y empezar
2:13
compartir su trabajo como un profesional
2:16
ahora profundicemos en cómo Dolly 2 no puede
2:19
solo genera imágenes a partir de texto pero es
2:21
también capaz de editarlos de hecho esto
2:24
nueva habilidad de pintura que tiene la red
2:26
aprendido se debe a que es mejor
2:28
comprensión de los conceptos y las imágenes
2:30
ellos mismos a nivel local y global lo que yo
2:33
lo que significa local y globalmente es que
2:35
dahle 2 tiene una comprensión más profunda de
2:37
por qué los píxeles uno al lado del otro tiene
2:40
estos colores como entiende el
2:42
objetos en la escena y sus
2:43
interrelación entre sí de esta manera
2:46
será capaz de entender que esto
2:48
el agua tiene reflejo y el objeto en
2:50
el derecho también debería estar reflejado allí
2:53
también entiende la escena global
2:55
que es lo que está pasando como si
2:58
ibas a describir lo que está pasando
3:00
cuando la persona tomó la foto aquí
3:02
dirías que esta foto no existe
3:05
obviamente o de lo contrario estoy definitivamente abajo a
3:07
prueba que si nos olvidamos que esto es
3:09
imposible dirias que el astronauta
3:11
está montando un caballo en el espacio así que si yo fuera
3:14
para pedirte que dibujes la misma escena pero en
3:17
un planeta en lugar de en el espacio libre que
3:19
ser capaz de imaginar algo así
3:21
ya que entiendes que el caballo y
3:23
astronauta son los objetos de interés para
3:25
mantener en la imagen esto parece obvio
3:28
pero es extremadamente complejo para una máquina
3:30
que solo ve pixeles de colores que es
3:33
por qué dahli 2 es tan impresionante para mí pero
3:35
cómo entiende exactamente el modelo
3:38
el texto lo enviamos y podemos generar un
3:40
imagen fuera de eso, bueno, es bastante similar
3:43
al primer modelo que cubrí en el
3:45
canal comienza usando el clip
3:47
modelo de openai para codificar tanto un texto
3:50
y una imagen en el mismo dominio a
3:52
representación condensada llamada latente
3:55
código, entonces tomará esta codificación y
3:58
usar un generador también llamado decodificador para
4:01
generar una nueva imagen que signifique lo mismo
4:04
cosa como el texto ya que es del
4:06
mismo código latente por lo que dali 2 tiene dos pasos
4:10
clip para codificar la información y el
4:12
nuevo modelo de decodificador para tomar este codificado
4:15
información y generar una imagen a partir de
4:17
si estos dos pasos separados también son
4:20
por qué podemos generar variaciones de la
4:22
imágenes simplemente podemos cambiar al azar el
4:25
información codificada solo un poco haciendo
4:27
se mueve un poquito en el espacio latente
4:30
y seguirá representando lo mismo
4:32
frase teniendo todas las diferentes
4:34
valores creando una imagen diferente
4:36
representando el mismo texto que vemos
4:39
aquí inicialmente toma una entrada de texto y
4:42
lo codifica lo que vemos arriba es el
4:44
primer paso del proceso de formación donde
4:46
también le damos una imagen y la codificamos
4:48
usando clip para que las imágenes y el texto sean
4:51
codificado de manera similar siguiendo el clip
4:53
objetivo entonces de generar un nuevo
4:56
imagen cambiamos a la sección de abajo
4:58
donde usamos la codificación de texto guiada por
5:00
clip para transformarlo en una imagen lista
5:03
la codificación de esta transformación está hecha
5:05
usando una difusión previa a la cual vamos a
5:07
cubierta en breve, ya que es muy similar a
5:09
el modelo de difusión utilizado para el final
5:12
paso finalmente usamos nuestro recién creado
5:14
codificación de imágenes y decodificación en una nueva
5:17
imagen usando el decodificador de difusión a
5:20
decodificador de difusión o modal es una especie de
5:23
modelo que comienza con ruido aleatorio y
5:25
aprende cómo cambiar iterativamente esto
5:28
ruido para volver a una imagen que aprende
5:30
que al hacer lo contrario durante
5:32
entrenando le daremos de comer imagenes y
5:34
aplicar ruido gaussiano aleatorio en la imagen
5:37
iterativamente hasta que no podamos ver nada
5:40
aparte del ruido, simplemente invertimos
5:43
el modelo para generar imágenes a partir del ruido
5:45
si desea más detalles sobre esto
5:47
tipo de red que son realmente geniales
5:50
te invito a ver este video que hice
5:51
sobre ellos y listo así es como dali 2
5:55
genera imágenes de tan alta calidad
5:58
siguiente texto es súper impresionante y
6:00
nos dice que el modelo si entiende
6:02
el texto, pero ¿entiende profundamente
6:05
lo que creó
6:06
Bueno, seguro que parece que es el
6:08
capacidad de pintar imágenes que
6:10
nos hace creer que si entiende
6:12
las fotos bastante bien, pero ¿por qué es eso?
6:15
Entonces, ¿cómo puede vincular una entrada de texto a un
6:18
imagen y entender la imagen lo suficiente como para
6:20
reemplace solo algunas partes sin
6:23
afectando el realismo esto es todo
6:25
debido al clip, ya que vincula una entrada de texto
6:28
a una imagen si codificamos de nuevo nuestra nueva
6:30
imagen generada y usar un texto diferente
6:33
entrada para guiar a otra generación podemos
6:35
generar la segunda versión de la imagen
6:38
que reemplazará solo la región deseada
6:40
en nuestra primera generación y acabarás
6:43
arriba con esta foto desafortunadamente el
6:46
el código no está disponible públicamente y no es
6:48
en su api sin embargo, la razón de eso como
6:51
per openai es estudiar los riesgos y
6:53
limitaciones de un modelo tan potente
6:56
en realidad discuten estos posibles
6:58
riesgos y la razón de esta privacidad en
7:00
su papel y en un gran repositorio i
7:02
vinculado en la descripción a continuación si usted
7:04
están interesados también abrieron un
7:06
cuenta de instagram para compartir más resultados
7:08
si quieres ver que también es
7:10
vinculado a continuación, me encantó Dally y este
7:13
es aún más genial
7:15
por supuesto, esto fue solo una descripción general de
7:17
cómo funciona dahli2 y lo invito encarecidamente
7:19
leyendo su gran artículo vinculado a continuación
7:21
para más detalles sobre su implementación
7:23
del modelo espero que les haya gustado
7:26
video tanto como disfruté haciéndolo y
7:28
te veré la próxima semana con otro
increíble papel gracias por mirar