paint-brush
PSG es una nueva tarea para las IA que requiere niveles más altos de comprensiónpor@whatsai
1,086 lecturas
1,086 lecturas

PSG es una nueva tarea para las IA que requiere niveles más altos de comprensión

por Louis Bouchard6m2022/09/03
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

La generación de gráficos de escenas panópticas, o PSG, es una nueva tarea problemática que tiene como objetivo generar una representación gráfica más completa de una imagen o escena basada en la segmentación panóptica en lugar de cuadros delimitadores. Se puede usar para comprender imágenes y generar oraciones que describan lo que está sucediendo. ¡Esta puede ser la tarea más desafiante para una IA! Conoce más en el vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - PSG es una nueva tarea para las IA que requiere niveles más altos de comprensión
Louis Bouchard HackerNoon profile picture

La generación de gráficos de escenas panópticas, o PSG, es una nueva tarea problemática que tiene como objetivo generar una representación gráfica más completa de una imagen o escena basada en la segmentación panóptica en lugar de cuadros delimitadores. Se puede usar para comprender imágenes y generar oraciones que describan lo que está sucediendo. ¡Esta puede ser la tarea más desafiante para una IA! Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. y Liu, Z., 2022.
Generación de gráficos de escenas panópticas. preimpresión de arXiv arXiv:2207.11247.
►Código: https://github.com/Jingkang50/OpenPSG
►Página del proyecto (conjunto de datos PSG): https://psgdataset.org/
►Pruébalo: https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

puedes usar ai para identificar lo que hay en un

0:02

imagen como averiguar si hay un

0:04

gato o no en esta escena si hay uno

0:07

puedes usar otro ai para encontrar dónde

0:10

esta en la imagen y lo puedes encontrar muy

0:12

precisamente a estas tareas se les llama imagen

0:15

detección de objetos de clasificación y

0:17

finalmente segmentación de instancias entonces usted

0:20

puede construir aplicaciones geniales para extraer

0:23

tu gato de una imagen y ponlo en un

0:25

tarjeta de regalo divertida o un meme, pero ¿y si

0:27

quiere una aplicación que entienda el

0:29

escena e imagen no sólo pudiendo

0:32

identificar si hay un objeto y

0:34

donde esta pero que te pasa

0:36

no quiero identificar si hay un

0:38

cliente o no en su tienda pero usted

0:40

podría querer identificar si el cliente

0:42

en cuestion te esta robando si

0:44

usar tal vigilancia es éticamente

0:46

correcto o no es otra cuestion

0:49

también debes considerar todavía suponer

0:51

nos enfocamos en averiguar lo que está pasando

0:53

en una escena o una imagen particular en ese

0:56

caso de que quiera usar una tarea llamada

0:58

generación de escenarios gráficos donde los objetos son

1:01

dirigido usando cuadros delimitadores como se muestra

1:04

previamente con detección de objetos que

1:06

luego se utiliza para crear un gráfico con cada

1:09

la relación de los objetos entre sí

1:11

objeto básicamente intentará

1:13

entender lo que está pasando de todos los

1:15

objetos principales de la escena que trabaja

1:17

bastante bien y descubre estos principales

1:19

características de la imagen pero hay

1:21

un gran problema se basa en la vinculación

1:23

precisiones de caja y desprecios completos

1:26

el trasfondo que a menudo es crucial en

1:28

entender lo que está pasando o en

1:30

al menos dando un resumen más realista

1:33

en su lugar, es posible que desee utilizar este nuevo

1:35

tarea llamada gráfico de escena panóptico

1:38

generacion o psg psg es un problema nuevo

1:42

tarea encaminada a generar una mayor

1:43

representación gráfica completa de un

1:46

imagen o escena basada en panóptico

1:49

segmentación en lugar de cajas de unión

1:52

algo mucho más preciso teniendo en cuenta

1:54

cuenta todos los pixeles de una imagen como vimos

1:57

y los creadores de esta tarea no

1:58

sólo lo inventaron sino que también crearon un

2:01

conjunto de datos, así como un modelo de referencia para

2:03

prueba tus resultados contra los cuales es

2:05

realmente genial esta tarea tiene mucho

2:07

potencial como la comprensión de lo que es

2:09

sucediendo en una imagen es increíblemente

2:11

útil y complejo para máquinas incluso

2:14

aunque los humanos lo hacen automáticamente

2:16

trae algún tipo de inteligencia necesaria

2:18

a las máquinas que marcan la diferencia

2:20

entre ser una aplicación genial y divertida como

2:23

Snapchat a un producto que usaría para ahorrar

2:25

tiempo o completar una necesidad como

2:27

entender cuando tu gato quiere

2:29

jugar y usar un robot para jugar con él

2:31

automáticamente para que no se aburra todo el

2:33

tiempo

2:34

entender una escena es genial, pero

2:36

¿Cómo puede una máquina hacer eso bien que necesitas?

2:39

dos cosas un conjunto de datos y un poderoso

2:42

modelo sabemos que ya tenemos el

2:44

conjuntos de datos desde que lo construyeron para nosotros ahora

2:47

lo segundo como aprender de esto

2:50

conjunto de datos que significa cómo construir este

2:52

modelo ai y qué debería hacer hay

2:55

Múltiples formas de abordar este problema.

2:58

y los invito a leer su artículo para

3:00

obtener más información, pero aquí hay una forma de hacerlo

3:02

eso

3:03

antes de entrar dame unos cuantos

3:05

segundos para ser mi propio patrocinador y hablar

3:07

sobre nuestra comunidad ya que eres

3:09

viendo este video se que te va a encantar

3:11

como fue creado básicamente para ti

3:13

por supuesto que tenemos la comunidad de youtube

3:15

al que definitivamente deberías unirte

3:17

haciendo clic en el pequeño botón de suscripción y

3:19

comentando a continuación, por ejemplo, me encantaría

3:21

saber lo que piensas de esta tarea

3:23

y si es interesante o no para el ai

3:25

comunidad también quería compartir nuestra

3:28

discord comunidad aprender ai juntos es

3:31

un lugar para conectarse con compañeros ai

3:33

entusiastas de cualquier nivel de habilidad encuentran

3:35

gente con quien aprender encontrar gente para trabajar

3:37

con hacer sus preguntas o incluso encontrar

3:40

ofertas de trabajo interesantes que estamos organizando

3:42

un monton de eventos muy chulos yq como gusta

3:44

el que estamos ejecutando actualmente con

3:46

los organizadores de mine rl de deepmind y

3:49

openai el link esta en la descripcion

3:51

a continuación y me encantaría verte unirte a una

3:53

intercambio con nosotros allí

3:55

como dijimos, el modelo necesita encontrar el

3:57

clase para cada píxel de la imagen

3:59

lo que significa que tiene que identificar cada

4:01

píxel de la imagen la primera etapa de

4:04

el modelo sera el responsable de esto

4:06

sera un modelo llamado panoptic fpn

4:09

ya entrenado para clasificar cada píxel

4:12

tal modelo ya está disponible en línea

4:14

y bastante potente tomará una imagen

4:17

y devolver lo que llamamos una máscara con cada

4:19

píxel emparejado con un objeto existente como

4:22

una pelota humana o hierba en este caso tu

4:25

ahora tienes la segmentación y ya sabes

4:28

que hay en la imagen y donde si estas

4:30

no estoy familiarizado con cómo funciona un modelo de este tipo

4:32

te invito a ver uno de los videos

4:34

hice cubriendo enfoques similares como

4:36

este el siguiente paso es averiguarlo

4:38

que pasa con esos objetos

4:41

aquí ya sabes que es un hombre jugando

4:43

futbol en la cancha pero la maquina

4:45

en realidad no tiene idea de lo único que

4:48

sabe es que hay un hombre una pelota y

4:50

un campo con mucha confianza pero

4:53

no entiende nada y no puede

4:55

conectamos los puntos como lo hacemos nosotros con facilidad

4:58

necesita un segundo modelo entrenado solo para tomar

5:00

esos objetos y averiguar por qué

5:03

están en la misma imagen este es el

5:05

paso de generación de escenario gráfico donde un

5:07

modal aprenderá cómo hacer coincidir un

5:09

diccionario de palabras y conceptos

5:12

cubriendo múltiples objetos posibles

5:13

relaciones con los objetos en una escena usando

5:16

la información extraída de la primera

5:19

etapa de aprendizaje de cómo estructurar el

5:21

objetos entre sí objeto y listo

5:25

terminas con un gráfico claro que

5:27

puede usar para construir oraciones que cubran

5:29

lo que está pasando en tu imagen puedes

5:31

ahora utilice este enfoque en su próxima

5:32

aplicación y dar algunos puntos iq a

5:35

tu enfoque acercándolo a

5:37

algo inteligente si quieres

5:39

aprender más sobre esta nueva tarea i

5:41

te invito encarecidamente a leer el periódico

5:43

enlazado a continuación gracias por mirar

5:45

hasta el final y te veré la próxima

semana con otro artículo increíble