AI 導入への熱意の中で、重要かつ見落とされがちな真実は、AI イニシアチブの成功は本質的に、基盤となるデータ インフラストラクチャの品質、信頼性、パフォーマンスと結びついています。適切な基盤がなければ、構築できるもの、ひいては達成できるものに制限が生じます。
データ インフラストラクチャは、AI インフラストラクチャ全体が構築される基盤です。データが収集、保存、処理、変換される場所です。教師あり学習、教師なし学習、強化学習を使用してモデルをトレーニングするには、データ ウェアハウスなどの構造化データを処理できるストレージ ソリューションが必要です。一方、大規模言語モデル (LLM) をトレーニングしている場合は、非構造化データ、つまり生の形式と処理された形式のドキュメントを管理する必要があります。
最新のデータレイク (レイクハウス) は、これらの異なる種類の AI の基盤です。最新の Datalake は、半分がデータ ウェアハウスで、もう半分がデータ レイクであり、すべてにオブジェクト ストレージを使用します。最近では、オープン テーブル フォーマットの台頭が見られます。 Apache Iceberg、Apache Hudi、Delta Lake などの Open Table Format (OTF) を使用すると、データ ウェアハウス内でオブジェクト ストレージをシームレスに使用できます。
この記事の残りの部分では、独自のデータ ウェアハウスやアプライアンスなどの従来のソリューションと異なる最新の Datalake の特性を活用する方法を検討します。 AI インフラストラクチャの基盤を構築するには、次のものが必要です。
- コンピューティングとストレージの細分化
- スケールアウト (アップではない)
- ソフトウェアデファインド
- クラウドネイティブ
- コモディティハードウェア
上記の点に同意すると、パフォーマンスの 2 つの領域に焦点を当てた一連のベスト プラクティスが現れます。最新の Datalake が組み込まれれば、高速かつスケーラブルになります。これらのベスト プラクティスには次のものが含まれます。
- ドライブの価格とパフォーマンスの最適化
- 高速ネットワークの組み込み
コンピューティングとストレージの分離
データ インフラストラクチャ内でコンピューティングとストレージを分離すると、コンピューティングとストレージに別々のリソースが使用されることになります。これは、すべてが単一のサーバー、またはさらに悪いことにアプライアンスにパッケージ化されている従来のストレージ ソリューションとは対照的です。ただし、現代の Datalake は、細分化を別のレベルに引き上げます。データ レイクとデータ ウェアハウスのストレージ要件がまったく異なる場合は、以下に示すように、オブジェクト ストアの 2 つの別々のインスタンスを使用できます。
さらに、データ ウェアハウスが競合する構成を必要とするワークロードをサポートする必要がある場合は、複数の処理エンジンを使用できます。これを以下に示します。
コンポーザブル インフラストラクチャを使用すると、コンピューティング リソースとストレージ リソースを個別に拡張できます。これは、コンピューティングとストレージの両方を一緒にアップグレードするのではなく、インフラストラクチャの最も必要な部分により多くのリソースを割り当てることができることを意味します。必要なリソースのみに投資するため、費用対効果の高いスケーリングが可能になります。
スケールアウトが進まない
AI ワークロードは大量のデータを必要とし、複数の CPU または GPU に分散されることが多く、トレーニングに大量の計算能力を使用し、リアルタイムの推論が必要になります。アップではなくスケールアウトすることで、パフォーマンスを最適化し、高速ネットワークに対応できます。
スケールアウトとスケールアップは、データ インフラストラクチャの容量とパフォーマンスを向上させるための 2 つの異なるアプローチです。ただし、Kubernetes などのクラスタリング プラットフォームが進歩し、クラウド ネイティブを目指すソリューションが増えているため、スケールアウトがより現実的なアプローチであることが証明されています。分散インフラストラクチャでのスケールアウトにより、次のことが可能になります。
高可用性と耐障害性- 1 つのノードがビジー状態の場合、別のノードが新しいリクエストを引き受けることができるため、待ち時間が短縮され、スループットが向上します。 1 つのノードに障害が発生した場合、ワークロードを他のノードに移すことができるため、ダウンタイムが削減され、継続性が確保されます。
パフォーマンスと柔軟性- スケールアウトでは、ワークロードを複数のノードまたはサーバーに分散して、より大量のデータとより多くの同時リクエストを処理することで、パフォーマンスを向上させることができます。必要に応じてノードを追加または削除できるため、スケールアウトもより柔軟になり、変動するワークロードへの調整や季節変動への対応が容易になります。
運用効率とリソース効率- スケールアウトすると、メンテナンスとアップグレードが簡素化されます。アップグレードのために重要なシステムをオフラインにする代わりに、インフラストラクチャ全体を中断することなく、個々のストレージまたはコンピューティング ノードでメンテナンスを実行できます。
クラウドネイティブ + ソフトウェアデファインド
最新の Datalake を活用して AI の強力な基盤を構築する最後のコンポーネントは、クラウドネイティブでソフトウェア定義のアプローチを採用することです。
Docker などのコンテナーや Kubernetes などのコンテナー オーケストレーション ツールにより、クラウド ネイティブ アーキテクチャが可能になります。最新の Datalake のすべてのコンポーネントは、Kubernetes で実行されるコンテナー内で実行されます。したがって、最新のデータレイクはクラウドネイティブです。
「ソフトウェア デファインド」とは、多くの場合、コンピュータ システムやネットワークのコンテキストで、ソフトウェアがハードウェア コンポーネントの構成、機能、および動作を制御および管理するアプローチを指します。これは、スマートなソフトウェアと非常に高速なハードウェアに重点が置かれているコードとしてのインフラストラクチャ運動の構成要素です。ソフトウェア デファインド ストレージは、ソフトウェアを通じてストレージ リソースを抽象化して管理するため、さまざまなデバイスやストレージ メディア間でのストレージ容量の割り当てと管理が容易になります。
スピード重視の設計: NVMe および 100GbE
汎用ハードウェアとソフトウェア デファインド アーキテクチャを最大限に活用するには、さらに 2 つの主要な部分が必要です。 1 つ目は NVMe ドライブです。最新のパフォーマンス指向のワークロード、読み取り/書き込みのランダムな性質、小さなオブジェクトの増加、SSD の価格低下はすべて、
2 番目のコンポーネントは 100GbE ネットワークです。ソフトウェア デファインドの世界では、100GbE であっても、多くのセットアップにおいてネットワークがボトルネックであることが判明します。これらのシナリオの一部を次に示します。
データ集約型- AI ワークロードは多くの場合、画像、ビデオ、自然言語テキスト、センサー データなどの大規模なデータセットを処理します。高速ネットワークは、これらの大規模なデータセットをストレージと処理ユニット間で迅速に転送できるため、データ転送のボトルネックが軽減されます。
分散コンピューティング- 多くの AI タスクには、複数の CPU または GPU にわたる分散コンピューティングが含まれます。高速ネットワークにより、これらのデバイス間の効率的な通信とデータ交換が可能になり、コンピューティング クラスターが効果的に並行して動作することが保証されます。
モデルのトレーニング- 深層学習モデル、特にトランスフォーマーや畳み込みニューラル ネットワークなどの LLM のトレーニングには、大量のデータと計算能力が必要です。高速ネットワークにより、分散された GPU 間のデータの読み込みと同期が高速化され、トレーニング時間を大幅に短縮できます。
リアルタイム推論- AI を組み込んだ応答性の高いアプリケーションには、低遅延で高スループットのネットワークが不可欠です。高速ネットワークにより、ユーザーのリクエストとモデルからの応答の間の遅延が最小限に抑えられます。
基本的な概念
コンピューティングとストレージの分離、アップではなくスケールアウト、ダムで高速なハードウェア、スマートなクラウド ネイティブ ソフトウェアという原則に従うことで、企業はこれらの要件を満たし、AI イニシアチブを推進するための適切な基盤を備えた最新の Datalake を構築できます。フォワード。
貧弱な基礎の上に建物を建てることはできません。古代エジプト人に聞いてください。 AI ゲームでは大規模なパフォーマンスが重要であり、これには適切な基盤が必要です。基礎をケチると、数分後にジェンガタワーが倒れてしまうような技術的負債が蓄積することになります。賢く構築し、基礎を整えましょう。