AI インフラストラクチャ用の最新のデータレイクを構築する際に留意すべき原則

AI 導入への熱意の中で、重要かつ見落とされがちな真実は、AI イニシアチブの成功は本質的に、基盤となるデータインフラストラクチャの品質、信頼性、パフォーマンスと結びついています。適切な基盤がなければ、構築できるもの、ひいては達成できるものに制限が生じます。

データインフラストラクチャは、AI インフラストラクチャ全体が構築される基盤です。データが収集、保存、処理、変換される場所です。教師あり学習、教師なし学習、強化学習を使用してモデルをトレーニングするには、データウェアハウスなどの構造化データを処理できるストレージソリューションが必要です。一方、大規模言語モデル (LLM) をトレーニングしている場合は、非構造化データ、つまり生の形式と処理された形式のドキュメントを管理する必要があります。

最新のデータレイク (レイクハウス) は、これらの異なる種類の AI の基盤です。最新の Datalake は、半分がデータウェアハウスで、もう半分がデータレイクであり、すべてにオブジェクトストレージを使用します。最近では、オープンテーブルフォーマットの台頭が見られます。 Apache Iceberg、Apache Hudi、Delta Lake などの Open Table Format (OTF) を使用すると、データウェアハウス内でオブジェクトストレージをシームレスに使用できます。

この記事の残りの部分では、独自のデータウェアハウスやアプライアンスなどの従来のソリューションと異なる最新の Datalake の特性を活用する方法を検討します。 AI インフラストラクチャの基盤を構築するには、次のものが必要です。

コンピューティングとストレージの細分化
スケールアウト (アップではない)
ソフトウェアデファインド
クラウドネイティブ
コモディティハードウェア

上記の点に同意すると、パフォーマンスの 2 つの領域に焦点を当てた一連のベストプラクティスが現れます。最新の Datalake が組み込まれれば、高速かつスケーラブルになります。これらのベストプラクティスには次のものが含まれます。

ドライブの価格とパフォーマンスの最適化
高速ネットワークの組み込み

コンピューティングとストレージの分離

データインフラストラクチャ内でコンピューティングとストレージを分離すると、コンピューティングとストレージに別々のリソースが使用されることになります。これは、すべてが単一のサーバー、またはさらに悪いことにアプライアンスにパッケージ化されている従来のストレージソリューションとは対照的です。ただし、現代の Datalake は、細分化を別のレベルに引き上げます。データレイクとデータウェアハウスのストレージ要件がまったく異なる場合は、以下に示すように、オブジェクトストアの 2 つの別々のインスタンスを使用できます。

さらに、データウェアハウスが競合する構成を必要とするワークロードをサポートする必要がある場合は、複数の処理エンジンを使用できます。これを以下に示します。

コンポーザブルインフラストラクチャを使用すると、コンピューティングリソースとストレージリソースを個別に拡張できます。これは、コンピューティングとストレージの両方を一緒にアップグレードするのではなく、インフラストラクチャの最も必要な部分により多くのリソースを割り当てることができることを意味します。必要なリソースのみに投資するため、費用対効果の高いスケーリングが可能になります。

スケールアウトが進まない

AI ワークロードは大量のデータを必要とし、複数の CPU または GPU に分散されることが多く、トレーニングに大量の計算能力を使用し、リアルタイムの推論が必要になります。アップではなくスケールアウトすることで、パフォーマンスを最適化し、高速ネットワークに対応できます。

スケールアウトとスケールアップは、データインフラストラクチャの容量とパフォーマンスを向上させるための 2 つの異なるアプローチです。ただし、Kubernetes などのクラスタリングプラットフォームが進歩し、クラウドネイティブを目指すソリューションが増えているため、スケールアウトがより現実的なアプローチであることが証明されています。分散インフラストラクチャでのスケールアウトにより、次のことが可能になります。

高可用性と耐障害性- 1 つのノードがビジー状態の場合、別のノードが新しいリクエストを引き受けることができるため、待ち時間が短縮され、スループットが向上します。 1 つのノードに障害が発生した場合、ワークロードを他のノードに移すことができるため、ダウンタイムが削減され、継続性が確保されます。

パフォーマンスと柔軟性- スケールアウトでは、ワークロードを複数のノードまたはサーバーに分散して、より大量のデータとより多くの同時リクエストを処理することで、パフォーマンスを向上させることができます。必要に応じてノードを追加または削除できるため、スケールアウトもより柔軟になり、変動するワークロードへの調整や季節変動への対応が容易になります。

運用効率とリソース効率- スケールアウトすると、メンテナンスとアップグレードが簡素化されます。アップグレードのために重要なシステムをオフラインにする代わりに、インフラストラクチャ全体を中断することなく、個々のストレージまたはコンピューティングノードでメンテナンスを実行できます。

クラウドネイティブ + ソフトウェアデファインド

最新の Datalake を活用して AI の強力な基盤を構築する最後のコンポーネントは、クラウドネイティブでソフトウェア定義のアプローチを採用することです。

Docker などのコンテナーや Kubernetes などのコンテナーオーケストレーションツールにより、クラウドネイティブアーキテクチャが可能になります。最新の Datalake のすべてのコンポーネントは、Kubernetes で実行されるコンテナー内で実行されます。したがって、最新のデータレイクはクラウドネイティブです。

「ソフトウェアデファインド」とは、多くの場合、コンピュータシステムやネットワークのコンテキストで、ソフトウェアがハードウェアコンポーネントの構成、機能、および動作を制御および管理するアプローチを指します。これは、スマートなソフトウェアと非常に高速なハードウェアに重点が置かれているコードとしてのインフラストラクチャ運動の構成要素です。ソフトウェアデファインドストレージは、ソフトウェアを通じてストレージリソースを抽象化して管理するため、さまざまなデバイスやストレージメディア間でのストレージ容量の割り当てと管理が容易になります。

スピード重視の設計: NVMe および 100GbE

汎用ハードウェアとソフトウェアデファインドアーキテクチャを最大限に活用するには、さらに 2 つの主要な部分が必要です。 1 つ目は NVMe ドライブです。最新のパフォーマンス指向のワークロード、読み取り/書き込みのランダムな性質、小さなオブジェクトの増加、SSD の価格低下はすべて、 NVMe中心のアーキテクチャ。計算してみると、前払い料金が高くなり、TCO は低くなる可能性があります。

2 番目のコンポーネントは 100GbE ネットワークです。ソフトウェアデファインドの世界では、100GbE であっても、多くのセットアップにおいてネットワークがボトルネックであることが判明します。これらのシナリオの一部を次に示します。

データ集約型- AI ワークロードは多くの場合、画像、ビデオ、自然言語テキスト、センサーデータなどの大規模なデータセットを処理します。高速ネットワークは、これらの大規模なデータセットをストレージと処理ユニット間で迅速に転送できるため、データ転送のボトルネックが軽減されます。

分散コンピューティング- 多くの AI タスクには、複数の CPU または GPU にわたる分散コンピューティングが含まれます。高速ネットワークにより、これらのデバイス間の効率的な通信とデータ交換が可能になり、コンピューティングクラスターが効果的に並行して動作することが保証されます。

モデルのトレーニング- 深層学習モデル、特にトランスフォーマーや畳み込みニューラルネットワークなどの LLM のトレーニングには、大量のデータと計算能力が必要です。高速ネットワークにより、分散された GPU 間のデータの読み込みと同期が高速化され、トレーニング時間を大幅に短縮できます。

リアルタイム推論- AI を組み込んだ応答性の高いアプリケーションには、低遅延で高スループットのネットワークが不可欠です。高速ネットワークにより、ユーザーのリクエストとモデルからの応答の間の遅延が最小限に抑えられます。

基本的な概念

コンピューティングとストレージの分離、アップではなくスケールアウト、ダムで高速なハードウェア、スマートなクラウドネイティブソフトウェアという原則に従うことで、企業はこれらの要件を満たし、AI イニシアチブを推進するための適切な基盤を備えた最新の Datalake を構築できます。フォワード。

貧弱な基礎の上に建物を建てることはできません。古代エジプト人に聞いてください。 AI ゲームでは大規模なパフォーマンスが重要であり、これには適切な基盤が必要です。基礎をケチると、数分後にジェンガタワーが倒れてしまうような技術的負債が蓄積することになります。賢く構築し、基礎を整えましょう。

AI インフラストラクチャ用の最新のデータレイクを構築する際に留意すべき原則

長すぎる; 読むには

People Mentioned

コンピューティングとストレージの分離

スケールアウトが進まない

クラウドネイティブ + ソフトウェアデファインド

スピード重視の設計: NVMe および 100GbE

基本的な概念

About Author

ラベル

この記事は...

Categories

Trending Topics

AI インフラストラクチャ用の最新のデータレイクを構築する際に留意すべき原則

長すぎる; 読むには

People Mentioned

コンピューティングとストレージの分離

スケールアウトが進まない

クラウドネイティブ + ソフトウェアデファインド

スピード重視の設計: NVMe および 100GbE

基本的な概念

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics