paint-brush
ディープラーニングのためのレイクハウス、Deep Lake: 概要と紹介@dataology
168 測定値

ディープラーニングのためのレイクハウス、Deep Lake: 概要と紹介

長すぎる; 読むには

研究者らは、ディープラーニング フレームワーク向けに複雑なデータ ストレージとストリーミングを最適化する、ディープラーニング用のオープンソース レイクハウスである Deep Lake を紹介します。
featured image - ディープラーニングのためのレイクハウス、Deep Lake: 概要と紹介
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

著者:

(1)サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(2)アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国

(3)レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(4)ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

(5)Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(6)デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(7)マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国

(8)ミカエル・ハルティュニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(9)Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(10)イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国

(11)ダビット・ブニアティアン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

リンク一覧

抽象的な

従来のデータ レイクは、タイム トラベル、SQL クエリの実行、ACID トランザクションによるデータの取り込み、クラウド ストレージ上のペタバイト規模のデータセットの視覚化を可能にすることで、分析ワークロードに不可欠なデータ インフラストラクチャを提供します。組織はデータ サイロを解体し、データ主導の意思決定を可能にし、運用効率を向上させ、コストを削減できます。ただし、ディープラーニングの使用が増えるにつれて、従来のデータ レイクは、自然言語処理 (NLP)、音声処理、コンピューター ビジョン、非表形式のデータセットを含むアプリケーションなどのアプリケーション向けに適切に設計されなくなりました。このホワイト ペーパーでは、Activeloop[1][2] で開発されたディープラーニング アプリケーション用のオープン ソース レイクハウスである Deep Lake を紹介します。Deep Lake は、バニラ データ レイクの利点を維持していますが、重要な違いが 1 つあります。画像、ビデオ、注釈、表形式データなどの複雑なデータをテンソルの形式で保存し、ネットワーク経由で (a) Tensor Query Language、(b) ブラウザー内視覚化エンジン、(c) ディープラーニング フレームワークに GPU 使用率を犠牲にすることなくデータを迅速にストリーミングします。 Deep Lakeに保存されたデータセットは、PyTorch [58]、TensorFlow [25]、JAX [31]からアクセスでき、多数のMLOpsツールと統合できます。


キーワード - ディープ レイク、ディープラーニング、データ レイク、レイクハウス、クラウド コンピューティング、分散システム

1. はじめに

データ レイクは、組織が構造化データ、非構造化データ、半構造化データを 1 か所に保存できる中央リポジトリです。データ レイクは、データの管理、統制、分析をより効率的に行う方法を提供します。さらに、データ サイロを破壊し、以前は異なるデータ ソースに隠れていた洞察を得る方法も提供します。第 1 世代のデータ レイクは、従来、HDFS [71] や AWS S3 [1] などの分散ストレージ システムにデータを収集していました。データが整理されていない状態で収集されたため、データ レイクは「データ スワンプ」になり、Delta、Iceberg、Hudi [27、15、10] が主導する第 2 世代のデータ レイクが誕生しました。これらは、Parquet、ORC、Avro [79、6、20] などの標準化された構造化形式に基づいて厳密に動作し、タイム トラベル、ACID トランザクション、スキーマ進化などの機能を提供します。データ レイクは、Presto、Athena、


図 1: ディープラーニング フレームワークとインターフェースする Deep Lake アーキテクチャの概要。


Hive、Photon [70、12、76、66]を使用して分析クエリを実行します。さらに、Hadoop、Spark、Airflow [14、82、9]などのフレームワークに接続してETLパイプラインを維持します。その結果、データレイクとクエリエンジンが明確にコンピューティングとストレージを分離して統合された結果、Snowflake、BigQuery、Redshift、Clickhouse [33、4、40、2]などのデータウェアハウスの代替として機能するLakehouse [28]などのシステムが登場しました。


過去 10 年間で、ディープラーニングは、テキスト、画像、ビデオ、オーディオなどの非構造化データや複雑なデータを扱う従来の機械学習技術を上回っています [44、47、38、83、51、30、63、56]。ディープラーニング システムは従来の技術を超えただけでなく、X 線画像からの癌検出、人間の神経細胞の解剖学的再構築、ゲーム、車の運転、タンパク質の展開、画像の生成などのアプリケーションで超人的な精度を達成しました [61、48、72、42、77]。トランスフォーマー ベースのアーキテクチャを備えた大規模言語モデルは、翻訳、推論、要約、テキスト補完のタスク全体で最先端の結果を達成しました [78、36、81、32]。大規模なマルチモーダル ネットワークは、クロスモーダル検索のために非構造化データをベクトルに埋め込みます [29、60]。さらに、テキストから写真のようにリアルな画像を生成するためにも使用されます [62、65]。


ディープラーニングモデルの成功の主な要因の 1 つは、CoCo (33 万枚の画像)、ImageNet (120 万枚の画像)、Oscar (多言語テキストコーパス)、LAION (4 億枚および 50 億枚の画像) [49、34、74、68] などの大規模なデータセットが利用可能であったことですが、従来の分析ワークロードのような、このような規模をサポートするための確立されたデータインフラストラクチャの青写真はありません。一方、Modern Data Stack (MDS) には、高性能なディープラーニングベースのソリューションを展開するために必要な機能がないため、組織は社内システムを開発することを選択します。


本稿では、ディープラーニングのワークロードに特化したレイクハウスであるDeep Lakeを紹介します。Deep Lakeは、


図2: Deep Lakeによる機械学習ループ


従来のデータレイクと大きく異なる点は、画像、動画、注釈、表形式データなどの複雑なデータをテンソルとして保存し、GPUの使用率を犠牲にすることなく、ネットワーク経由でディープラーニングフレームワークにデータを迅速にストリーミングできることです。さらに、PyTorch、TensorFlow、JAXなどのディープラーニングフレームワーク間のネイティブな相互運用性も提供します[58、25、31]。


この論文の主な技術的貢献は次のとおりです。


• オブジェクト ストレージ上に動的に形成された配列を保存する Tensor ストレージ形式


• フェッチ、解凍、ユーザー定義の変換をスケジュールし、ディープラーニング用の GPU へのデータ転送スループットを最適化するストリーミング データローダー


• 多次元配列データに対して SQL のような操作を実行する Tensor クエリ言語


• オブジェクト ストレージからデータをストリーミングし、WebGL を使用してブラウザーでレンダリングするブラウザー内視覚化エンジン


この論文の残りの部分は、次のようになります。まず、非構造化データに対するディープラーニングの現在の課題を検討します。次に、Tensor Storage Format (TSF) とその主要な概念を紹介します。さらに、ML サイクル内での Deep Lake の機能とアプリケーションについて説明します。次に、パフォーマンス実験を示し、その結果について説明します。最後に、関連する作業をレビューし、考えられる制限事項をリストアップして、結論を出します。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[1] ソースコードはこちら: https://github.com/activeloopai/deeplake


[2] ドキュメントはhttps://docs.deeplake.aiで入手可能