La génération de graphes de scènes panoptiques, ou PSG, est une nouvelle tâche problématique visant à générer une représentation graphique plus complète d'une image ou d'une scène basée sur une segmentation panoptique plutôt que sur des boîtes englobantes. Il peut être utilisé pour comprendre des images et générer des phrases décrivant ce qui se passe. C'est peut-être la tâche la plus difficile pour une IA ! En savoir plus dans la vidéo...
►Lire l'article complet : https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. et Liu, Z., 2022.
Génération de graphes de scènes panoptiques. prétirage arXiv arXiv:2207.11247.
►Code : https://github.com/Jingkang50/OpenPSG
►Page projet (jeu de données PSG) : https://psgdataset.org/
►Essayez-le : https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
vous pouvez utiliser ai pour identifier ce qu'il y a dans un
0:02
image comme savoir s'il y a un
0:04
chat ou pas dans cette scène s'il y en a un
0:07
vous pouvez utiliser un autre ai pour trouver où il
0:10
est dans l'image et vous pouvez le trouver très
0:12
précisément ces tâches sont appelées image
0:15
détection d'objets de classification et
0:17
enfin la segmentation d'instance alors vous
0:20
peut créer des applications sympas pour extraire
0:23
votre chat à partir d'une image et mettez-le dans un
0:25
carte-cadeau amusante ou un mème mais que se passe-t-il si vous
0:27
voulez une application qui comprend le
0:29
scène et image non seulement pouvoir
0:32
identifier s'il y a un objet et
0:34
où c'est mais qu'est-ce qui t'arrive
0:36
Je ne veux pas identifier s'il y a un
0:38
client ou non dans votre boutique mais vous
0:40
souhaitera peut-être identifier si le client
0:42
en question est de vous voler si
0:44
utiliser une telle surveillance est éthique
0:46
correct ou pas est une toute autre question
0:49
vous devez également considérer encore supposer
0:51
nous nous concentrons sur la découverte de ce qui se passe
0:53
dans une scène ou une image particulière dans ce
0:56
cas où vous voudriez utiliser une tâche appelée
0:58
génération de graphes scéniques où les objets sont
1:01
dirigé à l'aide de boîtes englobantes, comme indiqué
1:04
auparavant avec la détection d'objet qui
1:06
est ensuite utilisé pour créer un graphique avec chaque
1:09
relation des objets entre eux
1:11
objet, il essaiera essentiellement de
1:13
comprendre ce qui se passe de tous les
1:15
objets principaux de la scène ça marche
1:17
assez bien et découvre ces principaux
1:19
caractéristiques de l'image mais il y a
1:21
un gros problème il repose sur le collage
1:23
précisions de la boîte et ignore complètement
1:26
l'arrière-plan qui est souvent crucial dans
1:28
comprendre ce qui se passe ou à
1h30
donnant au moins un résumé plus réaliste
1:33
à la place, vous voudrez peut-être utiliser ce nouveau
1:35
tâche appelée graphe de scène panoptique
1:38
génération ou psg le psg est un nouveau problème
1:42
tâche visant à générer un plus
1:43
représentation graphique complète d'un
1:46
image ou scène basée sur panoptique
1:49
segmentation plutôt que bonding boxes
1:52
quelque chose de beaucoup plus précis compte tenu
1:54
compte tous les pixels d'une image comme nous l'avons vu
1:57
et les créateurs de cette tâche n'ont pas
1:58
seulement l'inventer, mais ils ont également créé un
2:01
ensemble de données ainsi qu'un modèle de base pour
2:03
testez vos résultats contre lesquels est
2:05
vraiment cool cette tâche a beaucoup de
2:07
potentiel que de comprendre ce qui est
2:09
qui se passe dans une image est incroyablement
2:11
utile et complexe pour les machines même
2:14
bien que les humains le fassent automatiquement
2:16
apporte une sorte d'intelligence nécessaire
2:18
aux machines qui font la différence
2:20
entre être une application drôle et cool comme
2:23
snapchat à un produit que vous utiliseriez pour enregistrer
2:25
temps ou répondre à un besoin comme
2:27
comprendre quand votre chat veut
2:29
jouer et utiliser un robot pour jouer avec
2:31
automatiquement pour ne pas s'ennuyer tout le temps
2:33
temps
2:34
comprendre une scène c'est vraiment cool mais
2:36
comment une machine peut-elle bien faire ce dont vous avez besoin
2:39
deux choses un ensemble de données et un puissant
2:42
modèle, nous savons que nous avons déjà le
2:44
ensembles de données depuis qu'ils l'ont construit pour nous maintenant
2:47
la deuxième chose comment apprendre de cela
2:50
ensemble de données qui signifie comment construire ce
2:52
modèle ai et que doit-il faire il y a
2:55
plusieurs façons d'aborder ce problème
2:58
et je vous invite à lire leur article pour
3:00
en savoir plus mais voici une façon de faire
3:02
ce
3:03
avant de m'y mettre donnez moi quelques
3:05
secondes pour être mon propre sponsor et parler
3:07
sur notre communauté puisque vous êtes
3:09
en regardant cette vidéo je sais que tu vas adorer
3:11
comme il a été créé pour vous
3:13
bien sûr, nous avons la communauté youtube
3:15
auquel vous devez absolument vous joindre par
3:17
en cliquant sur le petit bouton d'abonnement et
3:19
commentant ci-dessous par exemple j'aimerais
3:21
pour savoir ce que vous pensez de cette tâche
3:23
et si c'est intéressant ou pas pour l'ai
3:25
communauté je voulais aussi partager notre
3:28
communauté de discorde apprendre ai ensemble c'est
3:31
un endroit pour se connecter avec d'autres ai
3:33
les passionnés de tous niveaux trouvent
3:35
des gens avec qui apprendre trouver des gens avec qui travailler
3:37
avec poser vos questions ou même trouver
3:40
offres d'emploi intéressantes que nous organisons
3:42
beaucoup d'événements très sympas et q comme
3:44
celui avec lequel nous courons actuellement
3:46
les organisateurs de mine rl de deepmind et
3:49
openai le lien est dans la description
3:51
ci-dessous et j'aimerais vous voir rejoindre un
3:53
échangez avec nous là-bas
3:55
comme nous l'avons dit, le modèle doit trouver le
3:57
classe pour chaque pixel de l'image
3:59
ce qui signifie qu'il doit identifier chaque
4:01
pixel de l'image la première étape de
4:04
le modèle sera responsable de cela
4:06
ce sera un modèle appelé panoptic fpn
4:09
déjà formé pour classer chaque pixel
4:12
un tel modèle est déjà disponible en ligne
4:14
et assez puissant il faudra une image
4:17
et retourner ce que nous appelons un masque avec chacun
4:19
pixel correspondant à un objet existant comme
4:22
une balle humaine ou de l'herbe dans ce cas vous
4:25
maintenant la segmentation et vous savez
4:28
qu'y a-t-il dans l'image et où si vous êtes
4h30
pas familier avec le fonctionnement d'un tel modèle
4:32
je vous invite à regarder une des vidéos
4:34
j'ai fait couvrant des approches similaires comme
4:36
celui-ci la prochaine étape est de découvrir
4:38
que se passe-t-il avec ces objets
4:41
ici tu sais déjà que c'est un homme qui joue
4:43
football sur le terrain mais la machine
4:45
n'a en fait aucune idée de la seule chose qu'il
4:48
sait, c'est qu'il y a un homme une balle et
4:50
un domaine avec beaucoup de confiance, mais il
4:53
ne comprend rien et ne peut pas
4:55
relier les points comme nous le faisons avec facilité nous
4:58
besoin d'un deuxième modèle formé juste pour prendre
5:00
ces objets et comprendre pourquoi ils
5:03
sont sur la même photo c'est le
5:05
étape de génération de graphe scénique où un
5:07
modal apprendra comment faire correspondre un
5:09
dictionnaire de mots et de concepts
5:12
couvrant plusieurs objets possibles
5:13
relations avec les objets d'une scène à l'aide
5:16
les informations extraites de la première
5:19
apprendre à structurer le
5:21
objets les uns avec les autres objets et le tour est joué
5:25
vous vous retrouvez avec un graphique clair que vous
5:27
peut utiliser pour construire des phrases couvrant
5:29
ce qui se passe dans votre image, vous pouvez
5:31
utilisez maintenant cette approche dans votre prochain
5:32
application et donnez quelques points de QI à
5:35
votre approche se rapproche de
5:37
quelque chose d'intelligent si vous voulez
5:39
en savoir plus sur cette nouvelle tâche i
5:41
vous invite vivement à lire le document
5:43
lien ci-dessous merci d'avoir regardé
5:45
jusqu'à la fin et je te verrai ensuite
semaine avec un autre papier incroyable