paint-brush
Le PaLM-E (IA Robot) de Google peut voir et comprendre le langagepar@whatsai
1,860 lectures
1,860 lectures

Le PaLM-E (IA Robot) de Google peut voir et comprendre le langage

par Louis Bouchard1m2023/03/24
Read on Terminal Reader

Trop long; Pour lire

PaLM-E est un modèle de langage multimodal incarné. Il s'agit d'un modèle capable d'interpréter et de comprendre différents types de données, y compris des images et du texte provenant respectivement des modèles ViT et PaLM, et de convertir ces informations en actions grâce à une main robotique. En savoir plus dans la vidéo…
featured image - Le PaLM-E (IA Robot) de Google peut voir et comprendre le langage
Louis Bouchard HackerNoon profile picture

Les modèles d'IA récents tels que ChatGPT et Midjourney ont présenté des capacités impressionnantes de génération de texte et d'images.


Cependant, il existe également des modèles spécialisés dans la compréhension de ces entrées, tels que les transformateurs de vision (ViT) pour les images et le modèle de langage Pathways (PaLM) pour le texte. Ces modèles peuvent interpréter et comprendre le sens des images et des phrases.


La combinaison de modèles de texte et d'image donnerait une IA capable de comprendre diverses formes de données et capable de comprendre presque tout.


Cependant, les capacités d'un tel modèle peuvent sembler limitées à première vue, car il ne serait capable que de comprendre les choses. Mais que se passe-t-il si ce modèle est intégré à un système robotique capable de se déplacer dans le monde physique ? C'est là qu'intervient PaLM-E.


Qu'est-ce que le modèle d'IA PaLM-E de Google ?

La dernière publication de Google, PaLM-E, est un modèle de langage multimodal incarné .


Cela signifie qu'il s'agit d'un modèle capable d'interpréter et de comprendre différents types de données, y compris des images et du texte provenant respectivement des modèles ViT et PaLM, et de convertir ces informations en actions grâce à une main robotique.


En savoir plus dans la vidéo…