paint-brush
如何创建基于 AI 的 3D 内容经过@artlabs
2,071 讀數
2,071 讀數

如何创建基于 AI 的 3D 内容

经过 artlabs7m2023/03/03
Read on Terminal Reader

太長; 讀書

我们的团队深入研究了 AI 方法论如何表示和处理 3D 内容的迷人世界,以及 AI 利用这些表示法创建 3D 内容的各种方式。我们还探讨了这些技术的优点和缺点。
featured image - 如何创建基于 AI 的 3D 内容
artlabs HackerNoon profile picture

你好!欢迎来到“Inside the Lab”, artlabs的研究和工程博客。本周的主题是 AI 方法如何表示和处理 3D 内容,AI 如何利用这些表示来创建 3D 内容,以及这些技术的优缺点。


机器学习模型使用各种 3D 内容表示进行训练,例如体素、点云、符号距离场、神经辐射场 (NeRF)、多边形网格……我们将在本文中讨论体素、点云、NeRF 和多边形表示。让我们逐一讨论这些。

体素

图片取自 Matthias Humt 的 Voxel Grid


您知道图片元素(又名像素),但您听说过体积元素(又名体素)吗?现在你做到了!在由 x 和 y 坐标表示的 2D 网格上,像素表示为红色、绿色和蓝色强度值以及介于 0 和 255 之间的附加不透明度值。体素同样由 3D 网格上的红色、绿色、蓝色和不透明度值组成。 AI 模型旨在为每个体素学习这 4 个值,以有效地表示场景。

图片取自EVoIT论文的图2


3D-R2N2 (2016)、 Pix2Vox / ++ (2019/2020) 和EVoIT (2021) 等机器学习模型利用体素表示的简单性,并利用对象的多视图图像将该对象重建为体素网格。

体素表示的优点

  1. 3D 内容的最简单表示。表示只是网格内每个立方体的红色、绿色、蓝色和不透明度值。
  2. 易于建立机器学习模型。由于表示简单,模型更容易学习。

体素表示的缺点

  1. 决议,这是一个很大的决议!一个边长为 512 的体素网格实际上包含超过 1.34 亿个数据点,而一张 4096x4096 图像仅包含略高于 1600 万个数据点,我们知道 4K 图像的文件大小有多大。有许多方法可以压缩体素文件以减小其文件大小。然而,当前的机器学习模型仍然难以跟上这么多信息。当然,可以通过不将空体素存储在内存中或进一步压缩更多来克服这一限制。但是这些压缩不能在机器学习期间应用,因为一旦构建了体素网格就可以进行压缩,而机器学习所做的仍然是“构建”。
  2. 渲染。 GPU 针对渲染多边形进行了优化,并且没有特定的硬件可以有效地渲染高分辨率体素。

可能的行业用例

如果您想表示立方体形状,体素非常好。正如有像素艺术一样,也有基于体素的 3D 艺术。此外,谁不想生成类似 Minecraft 的世界?!像 Sandbox 这样的 Metaverse 也使用体素表示,基于 AI 的体素创建也可以帮助改进它们。

点云

该图像取自 Matthias Humt 的点云


嗯,您猜对了:点云是由 3D 空间中的彩色点形成的云。与体素不同,它们不包含在网格中,因此您可以使用点云更好地表示范围更广的对象。但是,由于没有网格,您还需要考虑每个点在 3D 空间中的位置。这意味着与每个数据点的体素相比,您需要保留更多数据。

该图像取自 Point-E 论文的图 2。


OpenAI 的Point-E (2022) 等模型已证明在基于点云的 3D 内容创建方面取得了成功。然而,与世界上所有美好的事物一样,点云也有其优点和缺点。

点云表示的优点

  1. 与体素相比,更好地处理精细细节。点云可以是密集的或稀疏的。稀疏时,很容易错过大部分细节,但当点云密集时,可以很好地代表原始物体/形状。
  2. 擅长表现大场景!激光雷达是获取点云的好方法,广泛应用于智能汽车。有几个无人机扫描整个区域的例子,包括森林、工厂、体育场、城市广场等。他们甚至创建了整个杜塞尔多夫市的点云

点云表示的缺点

  1. 没有音量。即使点云很密集,它也是由点构成的,而点不能代表体积。
  2. 渲染。由于点云上没有多边形,当前的 GPU 根本无法渲染点云。它们也不能用于制造。点云可以转换为多边形网格,但是,当前的算法重建块状输出。

可能的行业用例

点云实际上广泛应用于多个行业。它们可以通过安装在无人机或智能汽车上的 LiDAR 获取。人们可以使用 AI 创建点云对象和环境,以在模拟中使用,以改进为更好的无人驾驶车辆运行的算法。此外,它们还用于医学成像。基于人工智能的医疗点云创建也可以改善患者的疾病和身体创伤检测。

神经辐射场 (NeRF)

给定一组图像和相应的相机姿态信息, NeRF可以通过找出图像上的每个像素在 3D 空间中对应的位置来重建 3D 场景。一旦场景被重建,NeRF 就可以提供场景的完整 3D 视图,即使是从看不见的角度。此外,代表本身就是人工智能!基本上,它是一个神经网络,包含渲染 3D 场景所需的全部信息。场景在神经网络中表示,当用新的相机姿势查询时,神经网络可以用该视图的新渲染来响应。虽然原始的 NeRF 网络必须训练数小时(在某些情况下为数天),但几个新颖的 NeRF 变体可以在几秒钟内重建高质量的 3D 场景。

NeRF 表示的优点

  1. 场景呈现为我们用相机感知的场景,我们可以通过以前看不到的角度看到它。可以很容易地说,您可以使用 NeRF 检索精细的细节。
  2. 渲染。该模型的全部目的是从新的视角渲染场景。

NeRF 表示法的缺点

  1. 没有音量。由 Neural Radiance Field 重建的 3D 场景实际上是一个渲染。因此,它们不能用于物理模拟、制造等。
  2. 它们是 3D 场景的重建,但不允许场景编辑。有一些方法可以将对象与背景分开,但是您仍然不能像使用多边形、体素或点云那样将一个 NeRF 放置在另一个 NeRF 中。

可能的行业用例

神经辐射场可以从任何角度渲染场景,它们有可能被电影艺术广泛使用。众所周知,摄像机角度和运动在电影摄影中非常重要,而 NeRF 可以从摄像机人员可能难以处理的角度创建渲染。

多边形网格

图片取自 UPenn 3D Graphics Tutorials


多边形网格由点(即顶点)、将这些点彼此连接的线(即边)以及在这些边之间构造的多边形组成。顶点由它们的坐标表示;边由它们连接的顶点表示,多边形由它们在其上构建的边表示。此外,有多种方法可以在网格上表示颜色,从简单地用红色、绿色和蓝色强度值为每个顶点着色,到通过提供漫射、镜面反射、不透明度、折射等材料属性来决定该颜色如何与任何给定的光相互作用。指数,表面法线等。

图片取自 Magic3D Project Page


NVDiffrec-MC (2022) 等方法可以利用图像集推断网格、光和材料三元组。最近,开发了更多的方法来从文本或图像输入重建网格和纹理: GET3DDreamFusionScore Jacobian ChainingMagic3D ……

多边形网格表示的优点

  1. GPU 硬件针对多边形表示进行了优化,因此多边形网格最容易渲染和可视化。它们被广泛用于游戏、CGI、VFX、AR/VR……应有尽有!
  2. 设计师可以使用不同的网格和材料参数来创建具有非常精细细节的非常独特的设计。
  3. 通过更改顶点和多边形的数量,可以轻松控制细节级别。
  4. 有非常先进的网格编辑工具,现在可以相对轻松地修改网格。

多边形网格表示的缺点

  1. 结构复杂。对于创建网格的 AI 模型,神经模型需要能够生成顶点、边、多边形、材料和颜色。
  2. 在没有 AI 的情况下从头开始设计和创建网格特别耗时,而且很难大规模处理。

可能的行业用例

多边形网格已用于游戏、电影艺术、Web3 和 XR。电子商务等许多行业通过以 3D 方式可视化其产品,从多边形网格中获益匪浅。通过使用 AI 创建内容,所有这些行业都可以大规模生成内容并吸引他们的观众。

artlabs ,我们在管道的不同部分使用所有这些表示和 AI。在此处查看更多关于 artlabs 如何利用 AI 大规模创建内容的信息。


谢谢阅读!在“实验室内部”的下一篇文章中见 👋🏻


作者: Dogancan Kebudeartlabs研发主管