paint-brush
PSG é uma nova tarefa para IAs que exigem níveis mais altos de compreensãopor@whatsai
1,091 leituras
1,091 leituras

PSG é uma nova tarefa para IAs que exigem níveis mais altos de compreensão

por Louis Bouchard6m2022/09/03
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

A geração de gráfico de cena panóptica, ou PSG, é uma nova tarefa de problema com o objetivo de gerar uma representação gráfica mais abrangente de uma imagem ou cena com base na segmentação panóptica em vez de caixas delimitadoras. Ele pode ser usado para entender imagens e gerar frases que descrevem o que está acontecendo. Esta pode ser a tarefa mais desafiadora para uma IA! Saiba mais no vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - PSG é uma nova tarefa para IAs que exigem níveis mais altos de compreensão
Louis Bouchard HackerNoon profile picture

A geração de gráfico de cena panóptica, ou PSG, é uma nova tarefa de problema com o objetivo de gerar uma representação gráfica mais abrangente de uma imagem ou cena com base na segmentação panóptica em vez de caixas delimitadoras. Ele pode ser usado para entender imagens e gerar frases que descrevam o que está acontecendo. Esta pode ser a tarefa mais desafiadora para uma IA! Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. e Liu, Z., 2022.
Geração de gráfico de cena panóptica. pré-impressão arXiv arXiv:2207.11247.
►Código: https://github.com/Jingkang50/OpenPSG
►Página do projeto (conjunto de dados PSG): https://psgdataset.org/
►Experimente: https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

você pode usar ai para identificar o que está em um

0:02

imagem como descobrir se há um

0:04

gato ou não nesta cena se houver um

0:07

você pode usar outro ai para descobrir onde

0:10

está na imagem e você pode achar muito

0:12

precisamente essas tarefas são chamadas de imagem

0:15

detecção de objetos de classificação e

0:17

finalmente segmentação de instância, então você

0:20

pode construir aplicativos legais para extrair

0:23

seu gato de uma imagem e colocá-lo em um

0:25

vale-presente divertido ou um meme, mas e se você

0:27

quer um aplicativo que entenda o

0:29

cena e imagem não só podendo

0:32

identificar se há um objeto e

0:34

onde está, mas o que está acontecendo com você

0:36

não quer identificar se há um

0:38

cliente ou não em sua loja, mas você

0:40

pode querer identificar se o cliente

0:42

em questão está roubando você se

0:44

usar tal vigilância é eticamente

0:46

correto ou não é outra questão

0:49

você também precisa considerar ainda supor

0:51

nos concentramos em descobrir o que está acontecendo

0:53

em uma cena ou uma imagem particular naquele

0:56

caso você queira usar uma tarefa chamada

0:58

geração de gráfico de cena onde os objetos são

1:01

direcionado usando caixas delimitadoras como mostrado

1:04

anteriormente com detecção de objetos que

1:06

é então usado para criar um gráfico com cada

1:09

relação dos objetos entre si

1:11

objeto que basicamente tentará

1:13

entender o que está acontecendo de todos os

1:15

objetos principais da cena em que trabalha

1:17

muito bem e descobre esses principais

1:19

características da imagem, mas há

1:21

um grande problema que depende da ligação

1:23

precisões de caixa e desconsidera completamente

1:26

o pano de fundo que muitas vezes é crucial em

1:28

entendendo o que está acontecendo ou em

1:30

menos dando um resumo mais realista

1:33

em vez disso, você pode querer usar este novo

1:35

tarefa chamada gráfico de cena panóptica

1:38

geração ou psg psg é um novo problema

1:42

tarefa com o objetivo de gerar um

1:43

representação gráfica abrangente de um

1:46

imagem ou cena baseada no panóptico

1:49

segmentação em vez de caixas de ligação

1:52

algo muito mais preciso levando em

1:54

conta todos os pixels de uma imagem como vimos

1:57

e os criadores desta tarefa não

1:58

apenas inventaram, mas também criaram um

2:01

conjunto de dados, bem como um modelo de linha de base para

2:03

testar seus resultados contra o que é

2:05

muito legal essa tarefa tem muito

2:07

potencial como entender o que é

2:09

acontecer em uma imagem é incrivelmente

2:11

útil e complexo para máquinas mesmo

2:14

embora os humanos façam isso automaticamente

2:16

traz algum tipo de inteligência necessária

2:18

para as máquinas que fazem a diferença

2:20

entre ser um aplicativo legal e engraçado como

2:23

snapchat para um produto que você usaria para salvar

2:25

tempo ou completar uma necessidade como

2:27

entender quando seu gato quer

2:29

jogar e usar um robô para brincar com ele

2:31

automaticamente para que não fique entediado o tempo todo

2:33

Tempo

2:34

entender uma cena é muito legal, mas

2:36

como uma máquina pode fazer isso bem que você precisa

2:39

duas coisas um conjunto de dados e um poderoso

2:42

modelo sabemos que já temos o

2:44

conjuntos de dados desde que eles os construíram para nós agora

2:47

a segunda coisa como aprender com isso

2:50

conjunto de dados que significa como construir isso

2:52

modelo ai e o que deve fazer existem

2:55

várias maneiras de abordar este problema

2:58

e eu convido você a ler o jornal deles para

3:00

saiba mais, mas aqui está uma maneira de fazer

3:02

isto

3:03

antes de entrar nisso, dê-me alguns

3:05

segundos para ser meu próprio patrocinador e falar

3:07

sobre a nossa comunidade desde que você é

3:09

vendo esse vídeo eu sei que você vai amar

3:11

como foi basicamente criado para você

3:13

é claro que temos a comunidade do youtube

3:15

que você definitivamente deveria se juntar por

3:17

clicando no pequeno botão de inscrição e

3:19

comentando abaixo, por exemplo, eu adoraria

3:21

para saber o que você pensa sobre esta tarefa

3:23

e se é interessante ou não pro ai

3:25

comunidade eu também queria compartilhar nossa

3:28

comunidade discórdia aprenda ai juntos é

3:31

um lugar para se conectar com colegas ai

3:33

entusiastas de qualquer nível de habilidade encontram

3:35

pessoas para aprender com encontrar pessoas para trabalhar

3:37

com tire suas dúvidas ou até mesmo encontre

3:40

ofertas de emprego interessantes que estamos organizando

3:42

muitos eventos muito legais e q like

3:44

aquele com o qual estamos executando no momento

3:46

os organizadores da mina rl de deepmind e

3:49

openai o link está na descrição

3:51

abaixo e eu adoraria ver você se juntar a um

3:53

troca com a gente lá

3:55

como dissemos, o modelo precisa encontrar o

3:57

classe para cada pixel da imagem

3:59

o que significa que ele tem que identificar cada

4:01

pixel da imagem o primeiro estágio de

4:04

o modelo será responsável por isso

4:06

será um modelo chamado panóptico fpn

4:09

já treinado para classificar cada pixel

4:12

esse modelo já está disponível online

4:14

e bastante poderoso, vai tirar uma imagem

4:17

e retornar o que chamamos de máscara com cada

4:19

pixel correspondente a um objeto existente como

4:22

uma bola humana ou grama neste caso você

4:25

agora tem a segmentação e você sabe

4:28

o que está na imagem e onde se você está

4:30

não estou familiarizado com o funcionamento desse modelo

4:32

convido você a assistir um dos vídeos

4:34

eu fiz cobrindo abordagens semelhantes como

4:36

este o próximo passo é descobrir

4:38

o que está acontecendo com esses objetos

4:41

aqui você já sabe que é um homem jogando

4:43

futebol no campo, mas a máquina

4:45

na verdade não tem ideia da única coisa que

4:48

sabe é que existe um homem uma bola e

4:50

um campo com muita confiança, mas

4:53

não entende nada e não consegue

4:55

ligue os pontos como fazemos com facilidade nós

4:58

precisa de um segundo modelo treinado apenas para tirar

5:00

esses objetos e descobrir por que eles

5:03

estão na mesma foto este é o

5:05

etapa de geração do grafo de cena onde um

5:07

modal aprenderá como combinar um

5:09

dicionário de palavras e conceitos

5:12

cobrindo vários objetos possíveis

5:13

relações com objetos em uma cena usando

5:16

as informações extraídas do primeiro

5:19

etapa aprendendo a estruturar o

5:21

objetos uns com os outros objeto e voila

5:25

você acaba com um gráfico claro que você

5:27

pode usar para construir frases cobrindo

5:29

o que está acontecendo na sua imagem, você pode

5:31

agora use essa abordagem em seu próximo

5:32

aplicação e dar alguns pontos de QI para

5:35

sua abordagem ficando mais perto de

5:37

algo inteligente se você quiser

5:39

saiba mais sobre esta nova tarefa i

5:41

convidá-lo fortemente a ler o jornal

5:43

link abaixo obrigado por assistir

5:45

até o final e até a próxima

semana com mais um paper incrível