La generación de gráficos de escenas panópticas, o PSG, es una nueva tarea problemática que tiene como objetivo generar una representación gráfica más completa de una imagen o escena basada en la segmentación panóptica en lugar de cuadros delimitadores. Se puede usar para comprender imágenes y generar oraciones que describan lo que está sucediendo. ¡Esta puede ser la tarea más desafiante para una IA! Conoce más en el vídeo...
►Lea el artículo completo: https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. y Liu, Z., 2022.
Generación de gráficos de escenas panópticas. preimpresión de arXiv arXiv:2207.11247.
►Código: https://github.com/Jingkang50/OpenPSG
►Página del proyecto (conjunto de datos PSG): https://psgdataset.org/
►Pruébalo: https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
puedes usar ai para identificar lo que hay en un
0:02
imagen como averiguar si hay un
0:04
gato o no en esta escena si hay uno
0:07
puedes usar otro ai para encontrar dónde
0:10
esta en la imagen y lo puedes encontrar muy
0:12
precisamente a estas tareas se les llama imagen
0:15
detección de objetos de clasificación y
0:17
finalmente segmentación de instancias entonces usted
0:20
puede construir aplicaciones geniales para extraer
0:23
tu gato de una imagen y ponlo en un
0:25
tarjeta de regalo divertida o un meme, pero ¿y si
0:27
quiere una aplicación que entienda el
0:29
escena e imagen no sólo pudiendo
0:32
identificar si hay un objeto y
0:34
donde esta pero que te pasa
0:36
no quiero identificar si hay un
0:38
cliente o no en su tienda pero usted
0:40
podría querer identificar si el cliente
0:42
en cuestion te esta robando si
0:44
usar tal vigilancia es éticamente
0:46
correcto o no es otra cuestion
0:49
también debes considerar todavía suponer
0:51
nos enfocamos en averiguar lo que está pasando
0:53
en una escena o una imagen particular en ese
0:56
caso de que quiera usar una tarea llamada
0:58
generación de escenarios gráficos donde los objetos son
1:01
dirigido usando cuadros delimitadores como se muestra
1:04
previamente con detección de objetos que
1:06
luego se utiliza para crear un gráfico con cada
1:09
la relación de los objetos entre sí
1:11
objeto básicamente intentará
1:13
entender lo que está pasando de todos los
1:15
objetos principales de la escena que trabaja
1:17
bastante bien y descubre estos principales
1:19
características de la imagen pero hay
1:21
un gran problema se basa en la vinculación
1:23
precisiones de caja y desprecios completos
1:26
el trasfondo que a menudo es crucial en
1:28
entender lo que está pasando o en
1:30
al menos dando un resumen más realista
1:33
en su lugar, es posible que desee utilizar este nuevo
1:35
tarea llamada gráfico de escena panóptico
1:38
generacion o psg psg es un problema nuevo
1:42
tarea encaminada a generar una mayor
1:43
representación gráfica completa de un
1:46
imagen o escena basada en panóptico
1:49
segmentación en lugar de cajas de unión
1:52
algo mucho más preciso teniendo en cuenta
1:54
cuenta todos los pixeles de una imagen como vimos
1:57
y los creadores de esta tarea no
1:58
sólo lo inventaron sino que también crearon un
2:01
conjunto de datos, así como un modelo de referencia para
2:03
prueba tus resultados contra los cuales es
2:05
realmente genial esta tarea tiene mucho
2:07
potencial como la comprensión de lo que es
2:09
sucediendo en una imagen es increíblemente
2:11
útil y complejo para máquinas incluso
2:14
aunque los humanos lo hacen automáticamente
2:16
trae algún tipo de inteligencia necesaria
2:18
a las máquinas que marcan la diferencia
2:20
entre ser una aplicación genial y divertida como
2:23
Snapchat a un producto que usaría para ahorrar
2:25
tiempo o completar una necesidad como
2:27
entender cuando tu gato quiere
2:29
jugar y usar un robot para jugar con él
2:31
automáticamente para que no se aburra todo el
2:33
tiempo
2:34
entender una escena es genial, pero
2:36
¿Cómo puede una máquina hacer eso bien que necesitas?
2:39
dos cosas un conjunto de datos y un poderoso
2:42
modelo sabemos que ya tenemos el
2:44
conjuntos de datos desde que lo construyeron para nosotros ahora
2:47
lo segundo como aprender de esto
2:50
conjunto de datos que significa cómo construir este
2:52
modelo ai y qué debería hacer hay
2:55
Múltiples formas de abordar este problema.
2:58
y los invito a leer su artículo para
3:00
obtener más información, pero aquí hay una forma de hacerlo
3:02
eso
3:03
antes de entrar dame unos cuantos
3:05
segundos para ser mi propio patrocinador y hablar
3:07
sobre nuestra comunidad ya que eres
3:09
viendo este video se que te va a encantar
3:11
como fue creado básicamente para ti
3:13
por supuesto que tenemos la comunidad de youtube
3:15
al que definitivamente deberías unirte
3:17
haciendo clic en el pequeño botón de suscripción y
3:19
comentando a continuación, por ejemplo, me encantaría
3:21
saber lo que piensas de esta tarea
3:23
y si es interesante o no para el ai
3:25
comunidad también quería compartir nuestra
3:28
discord comunidad aprender ai juntos es
3:31
un lugar para conectarse con compañeros ai
3:33
entusiastas de cualquier nivel de habilidad encuentran
3:35
gente con quien aprender encontrar gente para trabajar
3:37
con hacer sus preguntas o incluso encontrar
3:40
ofertas de trabajo interesantes que estamos organizando
3:42
un monton de eventos muy chulos yq como gusta
3:44
el que estamos ejecutando actualmente con
3:46
los organizadores de mine rl de deepmind y
3:49
openai el link esta en la descripcion
3:51
a continuación y me encantaría verte unirte a una
3:53
intercambio con nosotros allí
3:55
como dijimos, el modelo necesita encontrar el
3:57
clase para cada píxel de la imagen
3:59
lo que significa que tiene que identificar cada
4:01
píxel de la imagen la primera etapa de
4:04
el modelo sera el responsable de esto
4:06
sera un modelo llamado panoptic fpn
4:09
ya entrenado para clasificar cada píxel
4:12
tal modelo ya está disponible en línea
4:14
y bastante potente tomará una imagen
4:17
y devolver lo que llamamos una máscara con cada
4:19
píxel emparejado con un objeto existente como
4:22
una pelota humana o hierba en este caso tu
4:25
ahora tienes la segmentación y ya sabes
4:28
que hay en la imagen y donde si estas
4:30
no estoy familiarizado con cómo funciona un modelo de este tipo
4:32
te invito a ver uno de los videos
4:34
hice cubriendo enfoques similares como
4:36
este el siguiente paso es averiguarlo
4:38
que pasa con esos objetos
4:41
aquí ya sabes que es un hombre jugando
4:43
futbol en la cancha pero la maquina
4:45
en realidad no tiene idea de lo único que
4:48
sabe es que hay un hombre una pelota y
4:50
un campo con mucha confianza pero
4:53
no entiende nada y no puede
4:55
conectamos los puntos como lo hacemos nosotros con facilidad
4:58
necesita un segundo modelo entrenado solo para tomar
5:00
esos objetos y averiguar por qué
5:03
están en la misma imagen este es el
5:05
paso de generación de escenario gráfico donde un
5:07
modal aprenderá cómo hacer coincidir un
5:09
diccionario de palabras y conceptos
5:12
cubriendo múltiples objetos posibles
5:13
relaciones con los objetos en una escena usando
5:16
la información extraída de la primera
5:19
etapa de aprendizaje de cómo estructurar el
5:21
objetos entre sí objeto y listo
5:25
terminas con un gráfico claro que
5:27
puede usar para construir oraciones que cubran
5:29
lo que está pasando en tu imagen puedes
5:31
ahora utilice este enfoque en su próxima
5:32
aplicación y dar algunos puntos iq a
5:35
tu enfoque acercándolo a
5:37
algo inteligente si quieres
5:39
aprender más sobre esta nueva tarea i
5:41
te invito encarecidamente a leer el periódico
5:43
enlazado a continuación gracias por mirar
5:45
hasta el final y te veré la próxima
semana con otro artículo increíble