やあ! artlabsの研究とエンジニアリングのブログ、「Inside the Lab」へようこそ。今週のトピックは、3D コンテンツが AI 方法論によってどのように表現および処理されるか、AI がこれらの表現を 3D コンテンツ作成にどのように利用するか、およびこれらの手法の長所と短所です。
機械学習モデルは、ボクセル、ポイント クラウド、符号付き距離フィールド、ニューラル ラジアンス フィールド (NeRF)、ポリゴン メッシュなど、さまざまな 3D コンテンツ表現を使用してトレーニングされます。この投稿では、ボクセル、ポイント クラウド、NeRF、およびポリゴン表現について説明します。これらを 1 つずつ見ていきましょう。
ボクセル
画像要素 (別名ピクセル) については知っていますが、ボリューム要素 (別名ボクセル) について聞いたことがありますか?今、あなたはやった!ピクセルは、x 座標と y 座標で表される 2D グリッド上に、0 から 255 までの追加の不透明度値を持つ赤、緑、青の色強度値として表されます。ボクセルも同様に、3D グリッド上の赤、緑、青、および不透明度の値で構成されます。 AI モデルは、シーンを効率的に表現するために、ボクセルごとにこれら 4 つの値を学習することを目的としています。
3D-R2N2 (2016)、 Pix2Vox / ++ (2019/2020)、 EVoIT (2021) などの機械学習モデルは、ボクセル表現の単純さを利用し、オブジェクトの多視点画像を利用して、そのオブジェクトをボクセルとして再構築します。グリッド。
ボクセル表現の利点
- 3D コンテンツの最も単純な表現。表現は、グリッド内の各立方体の単純な赤、緑、青、および不透明度の値です。
- 機械学習モデルを簡単に構築できます。表現が単純なので、モデルが学習しやすくなります。
ボクセル表現の欠点
- 解像度、そしてそれは大きなものです!エッジの長さが 512 のボクセル グリッドには、実際には 1 億 3400 万を超えるデータ ポイントが含まれていますが、4096x4096 の画像には 1600 万をわずかに超えるデータ ポイントしか含まれておらず、4K 画像のファイル サイズがどれほど大きくなるかはわかっています。ボクセル ファイルを圧縮してファイル サイズを縮小する方法は多数あります。ただし、現在の機械学習モデルは、これほど多くの情報に対応するのに苦労しています。もちろん、空のボクセルをメモリに保存しないか、さらに圧縮することで、この制限を克服できます。しかし、これらの圧縮は機械学習中に適用することはできません。圧縮はボクセル グリッドが構築されると実行できるためです。また、機械学習で行われていることは依然として「構築」です。
- レンダリング。 GPU はポリゴンのレンダリング用に最適化されており、高解像度のボクセルを効率的にレンダリングするための特定のハードウェアはありません。
考えられる業界のユースケース
立方体の形状を表現したい場合は、ボクセルが非常に適しています。ピクセル アートがあるように、ボクセルに基づく 3D アートもあります。さらに、マインクラフトのような世界を作りたくない人はいますか?!サンドボックスのようなメタバースもボクセル表現を利用しており、AI ベースのボクセル作成はそれらの改善にも役立ちます。
点群
ご想像のとおり、点群は 3D 空間内の色付きの点によって形成される雲です。ボクセルとは異なり、ボクセルはグリッド内に含まれていないため、ポイント クラウドを使用すると、より広い範囲のオブジェクトをより適切に表すことができます。ただし、グリッドがないため、3D 空間内の各ポイントの位置も考慮する必要があります。これは、各データ ポイントのボクセルと比較して、より多くのデータを保持する必要があることを意味します。
OpenAI のPoint-E (2022) などのモデルは、点群ベースの 3D コンテンツ作成で成功を収めています。ただし、世界中の優れたものすべてと同様に、点群にも長所と短所があります。
点群表現の利点
- ボクセルと比較して、細かいディテールの処理が優れています。点群は、密または疎の場合があります。まばらな場合、ほとんどの詳細を見落としがちですが、点群が密集している場合は、元のオブジェクト/形状を非常によく表すことができます。
- 大きなシーンを表現するのが得意です! LiDAR は、点群を取得する優れた方法であり、スマート ビークルで広く使用されています。ドローンが森林、工場、スタジアム、市の広場などを含むエリア全体をスキャンした例がいくつかあります。彼らはデュッセルドルフ市全体の点群を作成しました!
点群表現の欠点
- ボリュームなし。点群が密集している場合でも、それは点で構成されており、点はボリュームを表すことができません。
- レンダリング。点群にはポリゴンがないため、現在の GPU では点群をまったくレンダリングできません。製造にも利用できません。点群はポリゴン メッシュに変換できますが、現在のアルゴリズムでは塊状の出力が再構築されます。
考えられる業界のユースケース
点群は、実際にはいくつかの業界で広く使用されています。ドローンやスマートカーに搭載された LiDAR で取得できます。 AI を使用して点群オブジェクトと環境を作成し、シミュレーション内で使用して、より優れた自動運転車のために実行されているアルゴリズムを改善できます。さらに、それらは医療用画像にも使用されます。 AI ベースの医療点群の作成により、患者の病気や身体的外傷の検出も改善できます。
ニューラル ラディアンス フィールド (NeRF)
一連の画像と対応するカメラ ポーズ情報が与えられると、 NeRFは、画像上の各ピクセルが 3D 空間のどこに対応するかを見つけることで、3D シーンを再構成できます。シーンが再構築されると、NeRF は見えない角度からでもシーンの完全な 3D ビューを提供できます。しかも表現そのものがAI!基本的に、これは 3D シーンのレンダリングに必要なすべての情報を含むニューラル ネットワークです。シーンはニューラル ネットワーク内で表現され、新しいカメラ ポーズでクエリが実行されると、ニューラル ネットワークはそのビューの新しいレンダリングで応答できます。元の NeRF ネットワークは数時間 (場合によっては数日) トレーニングする必要がありましたが、いくつかの新しい NeRF バリアントはわずか数秒で高品質の 3D シーンを再構築できます。
NeRF表現の利点
- シーンは、カメラで認識したとおりに表現され、以前は見えなかった角度から見ることができます。 NeRFなら細かいところまで取り込めるといっても過言ではありません。
- レンダリング。モデルの全体的な目的は、新しい視野角からシーンをレンダリングすることです。
NeRF表現の欠点
- ボリュームなし。 Neural Radiance Field によって再構築された 3D シーンは、実際にはレンダリングです。したがって、物理シミュレーションや製造などには利用できません。
- これらは 3D シーンの再構成ですが、シーンの編集はできません。オブジェクトを背景から分離する方法はありますが、ポリゴン、ボクセル、点群のように NeRF を別の NeRF 内に配置することはまだできません。
考えられる業界のユースケース
Neural Radiance Fields はあらゆる角度からシーンをレンダリングでき、映画芸術で広く使用される可能性があります。カメラ アングルとモーションが映画撮影において非常に重要であることは広く知られています。
ポリゴン メッシュ
ポリゴン メッシュは、点 (つまり頂点)、これらの点を互いに接続する線 (つまりエッジ)、およびこれらのエッジの間に構築されるポリゴンで構成されます。頂点は座標で表されます。エッジは接続している頂点によって表され、ポリゴンは構築されているエッジによって表されます。さらに、各頂点を赤、緑、青の強度値で単純に色付けすることから、拡散、鏡面性、不透明度、屈折などのマテリアル プロパティを提供することによってその色が特定の光とどのように相互作用するかを決定することまで、メッシュで色を表現する方法は複数あります。インデックス、表面法線など
NVDiffrec-MC (2022) などの方法では、画像セットを利用してメッシュ、ライト、マテリアルのトリプレットを推測できます。最近、テキストまたは画像入力からメッシュとテクスチャを再構築するために、さらに多くの方法が開発されました: GET3D 、 DreamFusion 、 Score Jacobian Chaining 、 Magic3D …
ポリゴン メッシュ表現の利点
- GPU ハードウェアはポリゴン表現用に最適化されているため、ポリゴン メッシュはレンダリングと視覚化が最も簡単です。それらは、ゲーム、CGI、VFX、AR/VR などで広く利用されています。
- デザイナーは、さまざまなメッシュと素材のパラメーターを使用して、非常に細かいディテールを持つ非常にユニークなデザインを作成できます。
- 詳細レベルは、頂点とポリゴンの数を変更することで簡単に制御できます。
- メッシュ編集用の非常に高度なツールがあり、最近ではメッシュを比較的簡単に変更できます。
ポリゴン メッシュ表現の欠点
- 構造は複雑です。 AI モデルがメッシュを作成するには、ニューラル モデルが頂点、エッジ、ポリゴン、マテリアル、および色を生成できる必要があります。
- AI を使用しないゼロからのメッシュの設計と作成は、特に時間がかかり、大規模な処理が非常に困難です。
考えられる業界のユースケース
ポリゴン メッシュは、ゲーム、映画芸術、Web3、および XR で既に利用されています。 e コマースなどの多くの業界は、製品を 3D で視覚化することにより、多角形メッシュから大きな恩恵を受けています。 AI を使用してコンテンツを作成することにより、これらすべての業界で大規模なコンテンツを作成し、視聴者を驚かせることができます。
artlabsでは、パイプラインのさまざまなセクションでこれらすべての表現と AI を利用しています。 artlabs が AI を利用して大規模なコンテンツを作成する方法の詳細については、こちら を参照してください。
読んでくれてありがとう!次回の「Inside the Lab」の投稿でお会いしましょう👋🏻
著者: Doğancan Kebude 、 artlabsの R&D リード