A geração de gráfico de cena panóptica, ou PSG, é uma nova tarefa de problema com o objetivo de gerar uma representação gráfica mais abrangente de uma imagem ou cena com base na segmentação panóptica em vez de caixas delimitadoras. Ele pode ser usado para entender imagens e gerar frases que descrevam o que está acontecendo. Esta pode ser a tarefa mais desafiadora para uma IA! Saiba mais no vídeo...
►Leia o artigo completo: https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. e Liu, Z., 2022.
Geração de gráfico de cena panóptica. pré-impressão arXiv arXiv:2207.11247.
►Código: https://github.com/Jingkang50/OpenPSG
►Página do projeto (conjunto de dados PSG): https://psgdataset.org/
►Experimente: https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
você pode usar ai para identificar o que está em um
0:02
imagem como descobrir se há um
0:04
gato ou não nesta cena se houver um
0:07
você pode usar outro ai para descobrir onde
0:10
está na imagem e você pode achar muito
0:12
precisamente essas tarefas são chamadas de imagem
0:15
detecção de objetos de classificação e
0:17
finalmente segmentação de instância, então você
0:20
pode construir aplicativos legais para extrair
0:23
seu gato de uma imagem e colocá-lo em um
0:25
vale-presente divertido ou um meme, mas e se você
0:27
quer um aplicativo que entenda o
0:29
cena e imagem não só podendo
0:32
identificar se há um objeto e
0:34
onde está, mas o que está acontecendo com você
0:36
não quer identificar se há um
0:38
cliente ou não em sua loja, mas você
0:40
pode querer identificar se o cliente
0:42
em questão está roubando você se
0:44
usar tal vigilância é eticamente
0:46
correto ou não é outra questão
0:49
você também precisa considerar ainda supor
0:51
nos concentramos em descobrir o que está acontecendo
0:53
em uma cena ou uma imagem particular naquele
0:56
caso você queira usar uma tarefa chamada
0:58
geração de gráfico de cena onde os objetos são
1:01
direcionado usando caixas delimitadoras como mostrado
1:04
anteriormente com detecção de objetos que
1:06
é então usado para criar um gráfico com cada
1:09
relação dos objetos entre si
1:11
objeto que basicamente tentará
1:13
entender o que está acontecendo de todos os
1:15
objetos principais da cena em que trabalha
1:17
muito bem e descobre esses principais
1:19
características da imagem, mas há
1:21
um grande problema que depende da ligação
1:23
precisões de caixa e desconsidera completamente
1:26
o pano de fundo que muitas vezes é crucial em
1:28
entendendo o que está acontecendo ou em
1:30
menos dando um resumo mais realista
1:33
em vez disso, você pode querer usar este novo
1:35
tarefa chamada gráfico de cena panóptica
1:38
geração ou psg psg é um novo problema
1:42
tarefa com o objetivo de gerar um
1:43
representação gráfica abrangente de um
1:46
imagem ou cena baseada no panóptico
1:49
segmentação em vez de caixas de ligação
1:52
algo muito mais preciso levando em
1:54
conta todos os pixels de uma imagem como vimos
1:57
e os criadores desta tarefa não
1:58
apenas inventaram, mas também criaram um
2:01
conjunto de dados, bem como um modelo de linha de base para
2:03
testar seus resultados contra o que é
2:05
muito legal essa tarefa tem muito
2:07
potencial como entender o que é
2:09
acontecer em uma imagem é incrivelmente
2:11
útil e complexo para máquinas mesmo
2:14
embora os humanos façam isso automaticamente
2:16
traz algum tipo de inteligência necessária
2:18
para as máquinas que fazem a diferença
2:20
entre ser um aplicativo legal e engraçado como
2:23
snapchat para um produto que você usaria para salvar
2:25
tempo ou completar uma necessidade como
2:27
entender quando seu gato quer
2:29
jogar e usar um robô para brincar com ele
2:31
automaticamente para que não fique entediado o tempo todo
2:33
Tempo
2:34
entender uma cena é muito legal, mas
2:36
como uma máquina pode fazer isso bem que você precisa
2:39
duas coisas um conjunto de dados e um poderoso
2:42
modelo sabemos que já temos o
2:44
conjuntos de dados desde que eles os construíram para nós agora
2:47
a segunda coisa como aprender com isso
2:50
conjunto de dados que significa como construir isso
2:52
modelo ai e o que deve fazer existem
2:55
várias maneiras de abordar este problema
2:58
e eu convido você a ler o jornal deles para
3:00
saiba mais, mas aqui está uma maneira de fazer
3:02
isto
3:03
antes de entrar nisso, dê-me alguns
3:05
segundos para ser meu próprio patrocinador e falar
3:07
sobre a nossa comunidade desde que você é
3:09
vendo esse vídeo eu sei que você vai amar
3:11
como foi basicamente criado para você
3:13
é claro que temos a comunidade do youtube
3:15
que você definitivamente deveria se juntar por
3:17
clicando no pequeno botão de inscrição e
3:19
comentando abaixo, por exemplo, eu adoraria
3:21
para saber o que você pensa sobre esta tarefa
3:23
e se é interessante ou não pro ai
3:25
comunidade eu também queria compartilhar nossa
3:28
comunidade discórdia aprenda ai juntos é
3:31
um lugar para se conectar com colegas ai
3:33
entusiastas de qualquer nível de habilidade encontram
3:35
pessoas para aprender com encontrar pessoas para trabalhar
3:37
com tire suas dúvidas ou até mesmo encontre
3:40
ofertas de emprego interessantes que estamos organizando
3:42
muitos eventos muito legais e q like
3:44
aquele com o qual estamos executando no momento
3:46
os organizadores da mina rl de deepmind e
3:49
openai o link está na descrição
3:51
abaixo e eu adoraria ver você se juntar a um
3:53
troca com a gente lá
3:55
como dissemos, o modelo precisa encontrar o
3:57
classe para cada pixel da imagem
3:59
o que significa que ele tem que identificar cada
4:01
pixel da imagem o primeiro estágio de
4:04
o modelo será responsável por isso
4:06
será um modelo chamado panóptico fpn
4:09
já treinado para classificar cada pixel
4:12
esse modelo já está disponível online
4:14
e bastante poderoso, vai tirar uma imagem
4:17
e retornar o que chamamos de máscara com cada
4:19
pixel correspondente a um objeto existente como
4:22
uma bola humana ou grama neste caso você
4:25
agora tem a segmentação e você sabe
4:28
o que está na imagem e onde se você está
4:30
não estou familiarizado com o funcionamento desse modelo
4:32
convido você a assistir um dos vídeos
4:34
eu fiz cobrindo abordagens semelhantes como
4:36
este o próximo passo é descobrir
4:38
o que está acontecendo com esses objetos
4:41
aqui você já sabe que é um homem jogando
4:43
futebol no campo, mas a máquina
4:45
na verdade não tem ideia da única coisa que
4:48
sabe é que existe um homem uma bola e
4:50
um campo com muita confiança, mas
4:53
não entende nada e não consegue
4:55
ligue os pontos como fazemos com facilidade nós
4:58
precisa de um segundo modelo treinado apenas para tirar
5:00
esses objetos e descobrir por que eles
5:03
estão na mesma foto este é o
5:05
etapa de geração do grafo de cena onde um
5:07
modal aprenderá como combinar um
5:09
dicionário de palavras e conceitos
5:12
cobrindo vários objetos possíveis
5:13
relações com objetos em uma cena usando
5:16
as informações extraídas do primeiro
5:19
etapa aprendendo a estruturar o
5:21
objetos uns com os outros objeto e voila
5:25
você acaba com um gráfico claro que você
5:27
pode usar para construir frases cobrindo
5:29
o que está acontecendo na sua imagem, você pode
5:31
agora use essa abordagem em seu próximo
5:32
aplicação e dar alguns pontos de QI para
5:35
sua abordagem ficando mais perto de
5:37
algo inteligente se você quiser
5:39
saiba mais sobre esta nova tarefa i
5:41
convidá-lo fortemente a ler o jornal
5:43
link abaixo obrigado por assistir
5:45
até o final e até a próxima
semana com mais um paper incrível