人工知能ブームにより、GPU コンピューティング パワーに対する前例のない需要が生まれていますが、アクセスは依然として少数の大手クラウド プロバイダーに集中しています。分散型 GPU インフラストラクチャに重点を置くスタートアップ企業である IO.NET は、リーダーたちが「GPU の Airbnb」と呼ぶものを作成することで、この動向を変えることを目指しています。この独占インタビューでは、IO.NET の CTO であり、元 Binance 技術リーダーである Gaurav が、従来のプロバイダーと比較してコストを最大 75% 削減しながら、AI コンピューティング リソースへのアクセスを民主化できるプラットフォームを同社がどのように構築しているかについて説明します。
Ishan : 「スタートアップの裏側」シリーズへようこそ。あなた自身のこと、これまでの道のり、そしてIO.NETに入社したきっかけについて教えてください。
Gaurav : 私の経歴は、プネーでソフトウェア エンジニアとしてスタートした、非常にシンプルなものでした。プネーでいくつかのスタートアップ企業で働いた後、バンガロールに移り、HP R&D に加わり、ネットワーク ファイル システムをゼロから構築するのを手伝いました。Amazon では、Android アプリ、電子書籍、Audible ブックの出版パイプラインに携わりました。その後、eBay に移り、続いてベトナム、シンガポール、マレーシアでホテルと航空券の予約のマーケット リーダーであるタイの大手 OTA 企業に移りました。
Binance に入社する前、私は同社のリーダーシップ チームで約 5 ~ 6 年間勤務し、5 億人を超えるユーザー向けの KYC コンプライアンスと不正検出のためのスケーラブルなプラットフォームの構築を主導しました。これまでのキャリアを通じて、さまざまな形で AI に携わり、人々が必要なコンピューティング リソースへのアクセスに苦労している様子を目の当たりにしてきました。
Ishan : IO.NETでのあなたの役割について教えてください。また、集中型アーキテクチャと比較して、分散型コンピューティングの将来についてどのようにお考えですか?
Gaurav : CTO としての私の主な役割は、サプライヤーが簡単に接続でき、消費者がこれらのリソースを利用できる、スケーラブルなプラットフォームを作成することです。私たちは GPU から始めましたが、私たちのビジョンはそれを超えています。
当社の分散型アプローチの主な利点は、拡張性です。従来のデータ センターは、新しい地域に拡張する際に大きな課題に直面します。スペースを借り、チームを雇用し、機器を注文し、メンテナンスを行う必要があります。これにより、高額な初期費用が発生し、最終的にはユーザーに転嫁されます。当社の分散型モデルでは、既存のインフラストラクチャを活用して、より効率的に拡張できます。
Ishan : AI モデルのホスティングに多額の料金を請求する Azure などの集中型ベンダーと比べて、御社のビジネス モデルはどのように機能しますか?
Gaurav : 当社は Uber に似たモデルを採用しています。誰でも同様のソフトウェアを作成できますが、当社の強みは供給側のつながりにあります。当社のチームは世界中のインフラストラクチャ プロバイダーと深い関係を築いており、競争力のある価格で GPU を調達できます。当社の価格は通常、Amazon や Google よりも 75% 安くなっています。
当社では、時間単位の料金と 6 ~ 9 か月の長期契約の両方を提供しています。また、インフラストラクチャの管理ではなくコアビジネスに集中したいスタートアップ向けにマネージド サービスも提供しています。
Ishan : これまでのところ、反響はどうですか?
Gaurav : 反響は好調です。最近、4090 を 1,500 台注文し、それぞれ 2 億人以上のユーザーを抱えるアジアの Web2 企業 2 社との契約締結も間近です。当初は当社のネットワークを理由に暗号通貨企業に注力していましたが、コスト削減を目指す従来のテクノロジー企業からの関心も高まっています。
Ishan : 分散型トレーニング アーキテクチャがどのように機能するかを説明していただけますか? 分散化により、スケーラビリティまたはセキュリティのいずれかが影響を受ける可能性がありますが、これをどのように調整すればよいでしょうか。
Gaurav : スケーラビリティをどのように定義するかによります。データ センター ビジネスの例で説明しましょう。北米のデータ センター プロバイダーで、シンガポールに H100 台が必要になった場合、従来のプロセスは非常に困難です。スペースを借り、チームを雇い、GPU を注文し、配送、メンテナンス、セットアップを行う必要があります。これにより、多額の初期費用が発生し、市場投入までの時間が長くなり、最終的にはユーザーに負担が転嫁されます。
当社の分散型モデルでは、在庫が分散されているため、こうした課題に直面することはありません。容量の追加は、新しいプロバイダーを当社のプラットフォームに接続するのと同じくらい簡単です。これはホテルの空室状況の仕組みに似ています。大手チェーンが満室だからといって、都市に部屋がないわけではありません。実際に利用可能な GPU 容量はかなりありますが、この在庫を効率的に集約する「GPU 用の Airbnb」を構築した人はいません。
Ishan : 正確に理解するには、バンガロールの学生やゲーマーと、アイドル状態の GPU を持つ米国の企業がいる場合、彼らはあなたのプラットフォームを介して接続できるということですか?
Gaurav : まさにその通りです。タイやインドで、LSTM やその他のタイプの特定のモデルをトレーニングしたい人は、これらの GPU を使用できます。レンタルベースのモデルなので、従来のプロバイダーよりも経済的です。
Ishan : 現在、Llama から OpenAI、そして Anthropic に至るまでの最先端モデル間の競争についてどう思いますか?
Gaurav : 現時点では、ほとんど推測の域を出ません。過去数年間で、AI の能力は飛躍的に向上しました。最終的にどの企業がこの分野をリードするかは不明ですが (Web3 の企業になる可能性もあります)、今後 3 年間で驚異的なイノベーションが見られることは確かです。
Ishan : IO.NETのガバナンス モデルは現在どのように構成されていますか?
Gaurav : 現在、当社は半分散型です。毎週の AMA を通じてコミュニティの声に積極的に耳を傾け、フィードバックを実装しています。社内のチームは毎週、すべてのユーザー チケットとリクエストを確認し、開発の優先順位を決定します。コミュニティとの交流は主に X (旧 Twitter)、Discord、AMA を通じて行われ、プラットフォーム全体で 50 万人を超えるフォロワーがいます。
Ishan : 既存の分散型 AI アーキテクチャのない斬新なコンセプトですが、このプラットフォームを開発する際にはどのような技術的な課題に直面しましたか?
Gaurav : 急速な拡大は、チャンスと課題の両方をもたらしました。私が入社したとき、プラットフォームは 10 万個の GPU 用に設計されていましたが、すぐに数百万個を処理する必要が生じました。セキュリティ、安定性、スケーラビリティを管理するには、アーキテクチャの大幅な変更が必要でした。創設者は、スケーラブルなプラットフォームの構築には経験豊富なリーダーシップが必要であることを認識し、私を採用して、Amazon、VMware、トップクラスの AI 研究者などの企業から経験豊富な専門家を集めたチームを構築することができました。
鍵となったのは、以前に同様のスケーラブルなシステムを構築した経験のある人材を揃えることでした。私たちは、機械学習の博士号取得者や大手テクノロジー企業のベテランを含むチームを編成し、プラットフォームの分散性を維持しながら、これらの複雑な技術的課題を解決することに注力しました。
Ishan : チームの背景、この旅の始まり、最初のアイデア、このモデルにたどり着くまでの転換点、そして今後 1 ~ 2 年でIO.NETがどうなっていくとお考えか、詳しく教えてください。
Gaurav : 私が入社したのは約 7 か月前、会社設立からおよそ 3 ~ 4 か月後のことでした。設立初日から、DeFi と AI プラットフォームのハイブリッドを作成して、ビルダーがモデルを作成できるようにするというビジョンがありました。私が入社したとき、創業者と私は重要な戦略について意見が一致しました。競合他社が対抗するのが非常に難しいものを提供する必要がありました。競争力のある価格で GPU を調達することが、その重要な差別化要因であると認識しました。
他の暗号プラットフォームも同様の価格設定を提供しているかもしれませんが、規模拡大に苦労しています。1,500 個の GPU を要求しても、ビジネス モデルが真に分散化されていないため、提供できないことがよくあります。スマート コントラクトを作成しても、独自のデータ センターを所有している場合は、スケーリングが非常に困難になります。これは Azure が直面しているのと同じ問題です。集中型インフラストラクチャの上にスマート コントラクトを追加するだけでは、分散化されていると主張することはできません。
Ishan : ソフトウェア開発は常に困難を伴います。現在、GPU ホスティング用の分散型 AI アーキテクチャが存在しない中で、このプラットフォームを開発するにあたり、どのような技術的な問題に直面しましたか?
Gaurav : 予想よりもはるかに速いスケーリングという興味深い課題に直面しました。これはビジネスの観点からは良い問題ですが、エンジニアリングの観点からは難しい問題です。10 万個の GPU 用のプラットフォームを構築していて、突然 50 万個以上を処理する必要が生じたと想像してください。エアドロップ中は、急速なスケーリング中に大量のユーザー流入と潜在的な Sybil 攻撃に直面しました。
ボトルネックなしで 50 ~ 100 のクラスターを同時に処理でき、1 分あたり 1,000 個の GPU を迅速に供給できる、安全で安定したプラットフォームを作成することは、大きな課題でした。創設者は、会社を一定のレベルまで成長させることはできるものの、それ以上に成長させるには、スケーラブルなプラットフォームとビジネスを構築した経験を持つ人材が必要であることを認識していました。
私が彼を尊敬しているのは、彼がこの必要性を認識し、適切なチームを構築する権限を私に与えてくれたからです。私たちは、Amazon、VMware、その他さまざまなトップ企業から優秀な人材を採用しました。機械学習の博士号を持つ人材や、大手テクノロジー企業の製品エキスパートがいます。これらの経歴は、当社の Web サイトで確認できます。
創設者たちは、製品を実際のビジネスにするには、それを経験した人材が必要であることを理解し、このアプローチを支持しました。この移行における彼らのサポートは、私たちの成功にとって非常に重要でした。
ストーリーを「いいね!」してシェアするのを忘れないでください!
既得権益開示:この著者は、当社の