paint-brush
Cómo crear contenido 3D basado en IApor@artlabs
2,071 lecturas
2,071 lecturas

Cómo crear contenido 3D basado en IA

por artlabs7m2023/03/03
Read on Terminal Reader

Demasiado Largo; Para Leer

Nuestro equipo ha profundizado en el fascinante mundo de cómo las metodologías de IA representan y manejan el contenido 3D, y las diversas formas en que la IA aprovecha estas representaciones para la creación de contenido 3D. También hemos explorado las ventajas y desventajas de estas técnicas.
featured image - Cómo crear contenido 3D basado en IA
artlabs HackerNoon profile picture

¡Hola! Bienvenido a 'Inside the Lab', el blog de investigación e ingeniería de artlabs . El tema de esta semana es cómo las metodologías de IA representan y manejan el contenido 3D, cómo la IA utiliza estas representaciones para la creación de contenido 3D, así como las ventajas y desventajas de estas técnicas.


Los modelos de aprendizaje automático se entrenan utilizando varias representaciones de contenido 3D, como vóxeles, nubes de puntos, campos de distancia firmados, campos de radiación neuronal (NeRF), mallas poligonales... Hablaremos sobre representaciones de vóxeles, nubes de puntos, NeRF y polígonos en esta publicación. Repasemos estos, uno por uno.

vóxeles

La imagen está tomada de Voxel Grid por Matthias Humt


Conoces los elementos de imagen (también conocidos como píxeles), pero ¿alguna vez has oído hablar de los elementos de volumen (también conocidos como vóxeles)? ¡Ahora lo hiciste! Los píxeles se representan como valores de intensidad de color rojo, verde y azul con un valor de opacidad adicional entre 0 y 255 en una cuadrícula 2D representada por coordenadas x e y. Los vóxeles, de manera similar, consisten en valores de rojo, verde, azul y opacidad en una cuadrícula 3D. Los modelos de IA tienen como objetivo aprender estos 4 valores para cada vóxel para representar la escena de manera eficiente.

La imagen está tomada de la Fig. 2 del papel EVoIT


Los modelos de aprendizaje automático como 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) y EVoIT (2021) aprovechan la simplicidad de la representación de vóxeles y utilizan imágenes de múltiples vistas de un objeto para reconstruir ese objeto como un vóxel. red.

Ventajas de la representación de vóxel

  1. Representación más simple posible para contenido 3D. La representación es simplemente valores de rojo, verde, azul y opacidad para cada cubo dentro de la cuadrícula.
  2. Fácil de construir un modelo de aprendizaje automático. Como la representación es simple, es más fácil de aprender para el modelo.

Desventajas de la representación de vóxel

  1. La resolución, ¡y esa es una grande! Una cuadrícula de vóxeles con una longitud de borde de 512 en realidad contiene más de 134 millones de puntos de datos, mientras que una imagen de 4096x4096 solo contiene un poco más de 16 millones, y sabemos cuán grande puede ser el tamaño de archivo de una imagen de 4K. Hay muchos métodos para comprimir archivos voxel para reducir su tamaño. Sin embargo, los modelos actuales de aprendizaje automático todavía tienen dificultades para mantenerse al día con tanta información. Por supuesto, uno puede superar esta limitación no almacenando los vóxeles vacíos en la memoria o yendo más allá y comprimiendo más. Pero estas compresiones no se pueden aplicar durante el aprendizaje automático, ya que se pueden realizar una vez que se construye una cuadrícula de vóxeles, y lo que se hace con el aprendizaje automático sigue siendo "construcción".
  2. Representación. Las GPU están optimizadas para renderizar polígonos y no existe un hardware específico para renderizar de manera eficiente vóxeles de alta resolución.

Posibles casos de uso de la industria

Los vóxeles son muy buenos si quieres representar formas cúbicas. Así como existe el pixel art, también existe el 3D basado en voxels. Además, ¿quién no quiere generar mundos tipo Minecraft ? Los metaversos como Sandbox también utilizan representaciones de vóxeles, y la creación de vóxeles basada en IA también puede ayudar a mejorarlas.

Nubes de puntos

La imagen está tomada de Point Cloud por Matthias Humt


Bueno, lo has adivinado: las nubes de puntos son nubes formadas por puntos de colores en el espacio 3D. A diferencia de los vóxeles, no están contenidos dentro de una cuadrícula, por lo que puede representar mejor una gama más amplia de objetos con nubes de puntos. Sin embargo, dado que no hay cuadrícula, también debe considerar la posición de cada punto en el espacio 3D. Esto significa que necesita conservar más datos en comparación con los vóxeles para cada punto de datos.

La imagen está tomada de la Fig. 2 del papel Point-E.


Modelos como Point-E (2022) de OpenAI han demostrado tener éxito en la creación de contenido 3D basado en nubes de puntos. Sin embargo, como todo lo bueno en el mundo, las nubes de puntos tienen sus ventajas y desventajas.

Ventajas de la representación de nubes de puntos

  1. Mejor manejo de los detalles finos en comparación con los vóxeles. Las nubes de puntos pueden ser densas o dispersas. Cuando es escasa, es fácil pasar por alto la mayoría de los detalles, pero cuando una nube de puntos es densa, se puede representar muy bien el objeto/forma original.
  2. ¡Excelente para representar escenas grandes! Los LiDAR son una excelente manera de adquirir nubes de puntos y se usan ampliamente en vehículos inteligentes. Hay varios ejemplos de un dron escaneando un área completa, incluidos bosques, fábricas, estadios, plazas de ciudades, etc. ¡Incluso crearon una nube de puntos de toda la ciudad de Düsseldorf !

Desventajas de la representación de la nube de puntos

  1. sin volumen Incluso cuando una nube de puntos es densa, está construida de puntos y los puntos no pueden representar un volumen.
  2. Representación. Dado que no hay polígonos en una nube de puntos, las GPU actuales no pueden generar nubes de puntos en absoluto. Tampoco pueden ser utilizados para la fabricación. Las nubes de puntos se pueden convertir en mallas poligonales; sin embargo, los algoritmos actuales reconstruyen resultados irregulares.

Posibles casos de uso de la industria

Las nubes de puntos se usan ampliamente en varias industrias. Pueden ser adquiridos por LiDAR instalados en drones o autos inteligentes. Se pueden crear entornos y objetos de nube de puntos con IA para utilizarlos en simulaciones a fin de mejorar los algoritmos que se ejecutan para mejorar los vehículos sin conductor. Además, también se utilizan en imágenes médicas. La creación basada en IA de nubes de puntos médicos también puede mejorar la detección de enfermedades y traumas físicos en los pacientes.

Campos de radiación neuronal (NeRF)

Dado un conjunto de imágenes y la información correspondiente de la pose de la cámara, un NeRF puede reconstruir una escena 3D al descubrir dónde corresponde cada píxel de una imagen en el espacio 3D. Una vez que se reconstruye la escena, un NeRF puede proporcionar una vista 3D completa de una escena, incluso desde ángulos invisibles. ¡Además, la representación en sí es AI! Básicamente, es una red neuronal que contiene toda la información necesaria para renderizar una escena 3D. La escena se representa dentro de la red neuronal y cuando se le consulta con una nueva pose de cámara, la red neuronal puede responder con una nueva representación de esa vista. Si bien la red NeRF original tuvo que entrenarse durante horas (días en algunas ocasiones), varias variantes novedosas de NeRF pueden reconstruir una escena 3D de alta calidad en cuestión de segundos.

Ventajas de la representación NeRF

  1. La escena se representa tal y como la percibimos con nuestra cámara, y podemos verla desde ángulos nunca antes vistos. Se puede decir fácilmente que puede recuperar detalles finos con NeRF.
  2. Representación. Todo el propósito del modelo es representar una escena desde un nuevo ángulo de visión.

Desventajas de la representación NeRF

  1. sin volumen Las escenas 3D reconstruidas por un Neural Radiance Field son en realidad un renderizado. Por lo tanto, no se pueden utilizar para simulaciones de física, fabricación, etc.
  2. Son una reconstrucción de una escena 3D, pero no permiten la edición de escenas. Existen métodos para separar un objeto del fondo, pero aún así, aún no puede colocar un NeRF dentro de otro NeRF como puede hacerlo con polígonos, vóxeles o nubes de puntos.

Posibles casos de uso de la industria

Los campos de radiación neuronal pueden renderizar escenas desde cualquier ángulo, y potencialmente pueden ser utilizados ampliamente por las artes cinematográficas. Es ampliamente conocido que el ángulo y el movimiento de la cámara son muy importantes en la cinematografía, y los NeRF pueden crear renderizados desde ángulos con los que un camarógrafo podría tener problemas.

malla poligonal

La imagen está tomada de UPenn 3D Graphics Tutorials


Las mallas poligonales constan de puntos (es decir, vértices), líneas que conectan estos puntos entre sí (es decir, bordes) y polígonos que se construyen entre estos bordes. Los vértices están representados por sus coordenadas; los bordes se representan por los vértices que conectan, y los polígonos se representan por los bordes sobre los que se construyen. Además, existen múltiples formas de representar el color en mallas que van desde simplemente colorear cada vértice con valores de intensidad de rojo, verde y azul hasta decidir cómo ese color interactuará con cualquier luz dada al proporcionar propiedades materiales como difusión, especularidad, opacidad, refracción. índice, normales de superficie, etc.

La imagen está tomada de la página del proyecto Magic3D


Métodos como NVDiffrec-MC (2022) pueden inferir un triplete de malla, luz y material utilizando conjuntos de imágenes. Últimamente, se han desarrollado muchos más métodos para reconstruir mallas y texturas a partir de entradas de texto o imágenes: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D

Ventajas de la representación de malla poligonal

  1. El hardware de GPU está optimizado para representaciones poligonales, por lo que las mallas poligonales son las más fáciles de representar y visualizar. Son ampliamente utilizados para juegos, CGI, VFX, AR/VR... ¡Lo que sea!
  2. Los diseñadores pueden jugar con diferentes parámetros de mallas y materiales para crear diseños únicos con detalles muy finos.
  3. El nivel de detalle se puede controlar fácilmente cambiando el número de vértices y polígonos.
  4. Existen herramientas muy avanzadas para la edición de mallas y, hoy en día, las mallas se pueden modificar con relativa facilidad.

Desventajas de la representación de malla poligonal

  1. La estructura es compleja. Para que los modelos de IA creen mallas, los modelos neuronales deben poder generar vértices, bordes, polígonos, materiales y colores.
  2. El diseño y la creación de mallas desde cero sin IA requieren mucho tiempo y son muy difíciles de manejar a escala.

Posibles casos de uso de la industria

Las mallas poligonales ya se utilizan en juegos, artes cinematográficas, Web3 y XR. Muchas industrias, como el comercio electrónico, se benefician enormemente de las mallas poligonales al visualizar sus productos en 3D. Mediante la creación de contenido con IA, todas estas industrias pueden generar contenido a escala y asombrar a su audiencia.

En artlabs , utilizamos todas estas representaciones e IA en diferentes secciones de nuestra tubería. Vea más sobre cómo artlabs utiliza la IA para crear contenido a escala aquí .


¡Gracias por leer! Nos vemos en la próxima publicación de “Inside the Lab” 👋🏻


Autor: Doğancan Kebude , líder de I+D en artlabs