Les modèles d'IA récents tels que ChatGPT et Midjourney ont présenté des capacités impressionnantes de génération de texte et d'images.
Cependant, il existe également des modèles spécialisés dans la compréhension de ces entrées, tels que les transformateurs de vision (ViT) pour les images et le modèle de langage Pathways (PaLM) pour le texte. Ces modèles peuvent interpréter et comprendre le sens des images et des phrases.
La combinaison de modèles de texte et d'image donnerait une IA capable de comprendre diverses formes de données et capable de comprendre presque tout.
Cependant, les capacités d'un tel modèle peuvent sembler limitées à première vue, car il ne serait capable que de comprendre les choses. Mais que se passe-t-il si ce modèle est intégré à un système robotique capable de se déplacer dans le monde physique ? C'est là qu'intervient PaLM-E.
La dernière publication de Google, PaLM-E, est un modèle de langage multimodal incarné .
Cela signifie qu'il s'agit d'un modèle capable d'interpréter et de comprendre différents types de données, y compris des images et du texte provenant respectivement des modèles ViT et PaLM, et de convertir ces informations en actions grâce à une main robotique.
En savoir plus dans la vidéo…