paint-brush
Comment créer du contenu 3D basé sur l'IApar@artlabs
2,071 lectures
2,071 lectures

Comment créer du contenu 3D basé sur l'IA

par artlabs7m2023/03/03
Read on Terminal Reader

Trop long; Pour lire

Notre équipe a plongé dans le monde fascinant de la façon dont les méthodologies d'IA représentent et gèrent le contenu 3D, et les différentes façons dont l'IA exploite ces représentations pour la création de contenu 3D. Nous avons également exploré les avantages et les inconvénients de ces techniques.
featured image - Comment créer du contenu 3D basé sur l'IA
artlabs HackerNoon profile picture

Salut! Bienvenue sur 'Inside the Lab', le blog de recherche et d'ingénierie d' artlabs . Le sujet de cette semaine est de savoir comment le contenu 3D est représenté et géré par les méthodologies d'IA, comment l'IA utilise ces représentations pour la création de contenu 3D, ainsi que les avantages et les inconvénients de ces techniques.


Les modèles d'apprentissage automatique sont entraînés à l'aide de diverses représentations de contenu 3D telles que les voxels, les nuages de points, les champs de distance signés, les champs de rayonnement neuronal (NeRF), les maillages polygonaux… Nous parlerons des représentations de voxel, de nuage de points, de NeRF et de polygone dans cet article. Passons en revue ceux-ci, un par un.

Voxels

L'image est tirée de Voxel Grid de Matthias Humt


Vous connaissez les éléments d'image (alias pixels) mais avez-vous déjà entendu parler des éléments de volume (alias voxels) ? Maintenant vous l'avez fait ! Les pixels sont représentés par des valeurs d'intensité de couleur rouge, verte et bleue avec une valeur d'opacité supplémentaire comprise entre 0 et 255 sur une grille 2D représentée par des coordonnées x et y. Les voxels sont également constitués de valeurs de rouge, de vert, de bleu et d'opacité sur une grille 3D. Les modèles d'IA visent à apprendre ces 4 valeurs pour chaque voxel afin de représenter efficacement la scène.

L'image est tirée de la Fig. 2 du papier EVoIT


Les modèles d'apprentissage automatique tels que 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) et EVoIT (2021) tirent parti de la simplicité de la représentation du voxel et utilisent des images à vues multiples d'un objet pour reconstruire cet objet en tant que voxel grille.

Avantages de la représentation voxel

  1. Représentation la plus simple possible pour le contenu 3D. La représentation est simplement des valeurs de rouge, de vert, de bleu et d'opacité pour chaque cube de la grille.
  2. Facile à construire un modèle d'apprentissage automatique. Comme la représentation est simple, il est plus facile pour le modèle d'apprendre.

Inconvénients de la représentation voxel

  1. La résolution, et c'est un gros problème ! Une grille de voxels avec une longueur de bord de 512 contient en fait plus de 134 millions de points de données, tandis qu'une image 4096x4096 n'en contient qu'un peu plus de 16 millions, et nous savons à quel point la taille de fichier d'une image 4K peut être importante. Il existe de nombreuses méthodes pour compresser les fichiers voxel afin de réduire leur taille de fichier. Cependant, les modèles d'apprentissage automatique actuels ont encore du mal à suivre autant d'informations. Bien sûr, on peut surmonter cette limitation en ne stockant pas les voxels vides en mémoire ou en allant plus loin et en compressant davantage. Mais ces compressions ne peuvent pas être appliquées pendant l'apprentissage automatique car les compressions peuvent être effectuées une fois qu'une grille de voxels est construite , et ce qui est fait avec l'apprentissage automatique est toujours de la "construction".
  2. Le rendu. Les GPU sont optimisés pour le rendu des polygones, et il n'y a pas de matériel spécifique pour rendre efficacement les voxels haute résolution.

Cas d'utilisation possibles de l'industrie

Les voxels sont bons si vous voulez représenter des formes cubiques. Comme il existe du pixel art, il existe également de l'art 3D basé sur des voxels. De plus, qui ne veut pas générer des mondes de type Minecraft ?! Les métaverses comme Sandbox utilisent également des représentations de voxel, et la création de voxel basée sur l'IA peut également aider à les améliorer.

Nuages de points

L'image est tirée de Point Cloud de Matthias Humt


Eh bien, vous l'avez deviné : les nuages de points sont des nuages formés de points colorés dans l'espace 3D. Contrairement aux voxels, ils ne sont pas contenus dans une grille, vous pouvez donc mieux représenter une plus large gamme d'objets avec des nuages de points. Cependant, comme il n'y a pas de grille, vous devez également considérer la position de chaque point dans l'espace 3D. Cela signifie que vous devez conserver plus de données par rapport aux voxels pour chaque point de données.

L'image est tirée de la Fig. 2 du papier Point-E.


Des modèles tels que Point-E (2022) d'OpenAI ont démontré leur succès dans la création de contenu 3D basée sur un nuage de points. Cependant, comme pour tout ce qui est bon dans le monde, les nuages de points ont leurs avantages et leurs inconvénients.

Avantages de la représentation en nuage de points

  1. Meilleure gestion des détails fins par rapport aux voxels. Les nuages de points peuvent être denses ou clairsemés. Lorsqu'il est clairsemé, il est facile de manquer la plupart des détails, mais lorsqu'un nuage de points est dense, on peut très bien représenter l'objet/la forme d'origine.
  2. Idéal pour représenter de grandes scènes ! Les LiDAR sont un excellent moyen d'acquérir des nuages de points et ils sont largement utilisés dans les véhicules intelligents. Il existe plusieurs exemples de drones scannant une zone entière, y compris des forêts, des usines, des stades, des places publiques, etc. Ils ont même créé un nuage de points de toute la ville de Düsseldorf !

Inconvénients de la représentation en nuage de points

  1. Aucun volume. Même lorsqu'un nuage de points est dense, il est constitué de points, et les points ne peuvent pas représenter un volume.
  2. Le rendu. Puisqu'il n'y a pas de polygones sur un nuage de points, les GPU actuels ne peuvent pas du tout rendre les nuages de points. Ils ne peuvent pas non plus être utilisés pour la fabrication. Les nuages de points peuvent être convertis en maillages polygonaux, cependant, les algorithmes actuels reconstruisent les sorties grumeleuses.

Cas d'utilisation possibles de l'industrie

Les nuages de points sont en fait largement utilisés dans plusieurs industries. Ils peuvent être acquis par des LiDAR installés sur des drones ou des voitures intelligentes. On peut créer des objets et des environnements de nuage de points avec l'IA à utiliser dans les simulations pour améliorer les algorithmes qui sont exécutés pour de meilleurs véhicules sans conducteur. De plus, ils sont également utilisés en imagerie médicale. La création de nuages de points médicaux basée sur l'IA peut également améliorer la détection des maladies et des traumatismes physiques chez les patients.

Champs de rayonnement neuronal (NeRF)

Étant donné un ensemble d'images et les informations de pose de caméra correspondantes, un NeRF peut reconstruire une scène 3D en découvrant à quoi correspond chaque pixel d'une image dans l'espace 3D. Une fois la scène reconstruite, un NeRF peut fournir une vue 3D complète d'une scène, même sous des angles invisibles. De plus, la représentation elle-même est IA ! Fondamentalement, il s'agit d'un réseau de neurones qui contient toutes les informations nécessaires au rendu d'une scène 3D. La scène est représentée dans le réseau neuronal et lorsqu'il est interrogé avec une nouvelle pose de caméra, le réseau neuronal peut répondre avec un nouveau rendu de cette vue. Alors que le réseau NeRF d'origine devait être formé pendant des heures (des jours à certaines occasions), plusieurs nouvelles variantes NeRF peuvent reconstruire une scène 3D de haute qualité en quelques secondes seulement.

Avantages de la représentation NeRF

  1. La scène est représentée telle que nous la percevons avec notre appareil photo, et nous pouvons la voir sous des angles inédits. On peut facilement dire que vous pouvez récupérer des détails fins avec les NeRF.
  2. Le rendu. Le but du modèle est de rendre une scène sous un nouvel angle de vue.

Inconvénients de la représentation NeRF

  1. Aucun volume. Les scènes 3D reconstruites par un Neural Radiance Field sont en fait un rendu. Par conséquent, ils ne peuvent pas être utilisés pour des simulations physiques, la fabrication, etc.
  2. Ils sont une reconstruction d'une scène 3D, mais ils ne permettent pas l'édition de scène. Il existe des méthodes pour séparer un objet de l'arrière-plan, mais vous ne pouvez pas encore placer un NeRF dans un autre NeRF comme vous pouvez le faire avec des polygones, des voxels ou des nuages de points.

Cas d'utilisation possibles de l'industrie

Les champs de rayonnement neuronal peuvent rendre des scènes sous n'importe quel angle, et ils peuvent potentiellement être largement utilisés par les arts cinématographiques. Il est bien connu que l'angle et le mouvement de la caméra sont très importants en cinématographie, et les NeRF peuvent créer des rendus à partir d'angles avec lesquels un caméraman pourrait avoir des problèmes.

Maillage polygonal

L'image est tirée des didacticiels graphiques UPenn 3D


Les maillages polygonaux sont constitués de points (à savoir, des sommets), de lignes qui relient ces points les uns aux autres (à savoir, des arêtes) et de polygones qui sont construits entre ces arêtes. Les sommets sont représentés par leurs coordonnées ; les arêtes sont représentées par les sommets auxquels elles se connectent, et les polygones sont représentés par les arêtes sur lesquelles ils sont construits. De plus, il existe plusieurs façons de représenter la couleur sur les maillages, allant de la simple coloration de chaque sommet avec des valeurs d'intensité rouge, verte et bleue à la décision de la manière dont cette couleur interagira avec une lumière donnée en fournissant des propriétés matérielles telles que la diffusion, la spécularité, l'opacité, la réfraction. index, normales de surface, etc.

L'image est tirée de la page du projet Magic3D


Des méthodes telles que NVDiffrec-MC (2022) peuvent déduire un triplet maillage, lumière et matériau en utilisant des ensembles d'images. Dernièrement, de nombreuses autres méthodes ont été développées pour reconstruire des maillages et des textures à partir d'entrées de texte ou d'image : GET3D , DreamFusion , Score Jacobian Chaining , Magic3D

Avantages de la représentation en maillage polygonal

  1. Le matériel GPU est optimisé pour les représentations polygonales, les maillages polygonaux sont donc les plus faciles à rendre et à visualiser. Ils sont largement utilisés pour les jeux, CGI, VFX, AR/VR… Vous l'appelez !
  2. Les concepteurs peuvent jouer avec différents paramètres de maillage et de matériaux pour créer des designs très uniques avec des détails très fins.
  3. Le niveau de détail peut être facilement contrôlé en modifiant le nombre de sommets et de polygones.
  4. Il existe des outils très avancés pour l'édition de maillage, et de nos jours, les maillages peuvent être modifiés relativement facilement.

Inconvénients de la représentation maillée polygonale

  1. La structure est complexe. Pour que les modèles d'IA créent des maillages, les modèles neuronaux doivent pouvoir générer des sommets, des arêtes, des polygones, des matériaux et des couleurs.
  2. La conception et la création de maillages à partir de zéro sans IA sont particulièrement chronophages et très difficiles à gérer à grande échelle.

Cas d'utilisation possibles de l'industrie

Les maillages polygonaux sont déjà utilisés dans les jeux, les arts cinématographiques, Web3 et XR. De nombreuses industries comme le commerce électronique bénéficient grandement des maillages polygonaux en visualisant leurs produits en 3D. En créant du contenu avec l'IA, toutes ces industries peuvent générer du contenu à grande échelle et impressionner leur public.

Chez artlabs , nous utilisons toutes ces représentations et l'IA dans différentes sections de notre pipeline. Découvrez comment artlabs utilise l'IA pour créer du contenu à grande échelle ici .


Merci d'avoir lu! Rendez-vous dans le prochain post de « Inside the Lab » 👋🏻


Auteur : Doğancan Kebude , Responsable R&D chez artlabs