新しい歴史

『Grok 3: All the GPUs, None of the Breakthroughs』

Leo Khomenko8m2025/04/17
Read on Terminal Reader

長すぎる; 読むには

エロンはGrok 3が世界最高のAIだと主張し、2カ月後、GPT-4o、Claude 3.7 & Gemini 2.5とどう対立するか?
featured image - 『Grok 3: All the GPUs, None of the Breakthroughs』
Leo Khomenko HackerNoon profile picture

2月下旬、エロンは最新のモデルをリリースしたが、もちろん「世界で最高のモデル」だった。


これは本当に地球上で最もスマートなAIですか?


いつものように、マスクはハイプトレインをもたらしたが、発売時には客観的なデータはあまりなかった。 xAIの短編 ブログ投稿は、まだベータ版であり、モデルが積極的に訓練されていたと述べた。


They flashed some benchmarks showing Grok 3 ahead. However, they did not give access to the API. 独立した benchmarks use it for evaluation.


したがって、Elon は Grok 3 が「ほとんどスマートでない」と主張し、他のすべてを打ち負かすが、チェックする唯一の方法は、それ自身でそれとチャットしたり、彼らのベンチマークを見たりすることだった。


そしてそれらのベンチマーク? 見てください:

右側のより軽い領域をご覧ください? それは、より一貫した答えを得るために、より多くのコンピューティングパワー(テストタイムコンピューティング)を持つことによってGrokが得た推進です。


あなたはおそらく知っているでしょう AI モデルは、しばしば少し異なる答えを提供します - 時にはより良い、時にはより悪い. ほとんどのベンチマークは、この変数を無視し、最初の応答 (pass@1) のみを評価します。

しかし、Grokの結果はすべて cons@64 を使用して示されました。つまり、各質問に 64 回の試みがあり、最も一般的な答えを選択しました。


だから、一方で、彼らは次世代モデルであると主張し、他方で、彼らはかなり安価なトリックを使用している。


公平に言えば、このような競争の分野では、すべてのラボはルールを曲げます. They cherry-pick benchmarks or exclude stronger models from comparisons—but rarely as blatantly.

OK, benchmarks aside. What are experienced users saying after actually using it? 一般的なコンセンサスは:


このモデルは巨大ですが、進歩をもたらしませんでした. It still hallucinates and tends toward too long responses.


パフォーマンス面では、Grok 3はOpenAIのトップモデルに近い場所に着陸し、リリース時点でDeepSeekやGoogleのものよりも少し良いかもしれません。


しかし、2ヶ月後、ジェミニ2.5、クロード3.7、そして新しいGPT-4oが到着しました。我々はようやくGrok 3とそのミニバージョンのための部分的なAPIアクセスを手に入れました。

So today we know it's expensive and definitely not the absolute best.


But hold on, there’s still more to the story.


モデルは興味深く、見る価値があります。そしてあなたはそれを彼らに渡さなければなりません、エロンとxAIは急速に市場に飛び込んで、記録的な時間で重要なプレイヤーとなりました。

1 - ハードウェア

The big story here?


2024年、xAIは巨大なコンピューティングクラスターを構築しました。我々はNvidia H100 GPUの10万台をわずか4カ月で稼働させていることを話しています。


NvidiaのCEO、Jensen Huang、 言及したこれは通常約4年かかります。


これは巨大なエンジニアリングの業績で、今回は面白くないビジネスで、世界最大のデータセンターです。


通常、このようなクラスターは、コストの高いInfinibandケーブルでつながった複数の通常のデータセンターです。訓練中に、これらのセンターは、トンものデータを継続的に交換する必要があります。


典型的なデータセンターは、10,000〜20,000のGPUを持ち、20〜30メガワットの電力を吸収する可能性があります。 例えば、Microsoft(OpenAI)はアリゾナで100kのGPUのネットワークを運営し、Metaは128kを実行しています。

2つのH形の建物を見る? それは2つの標準メタデータセンターが隣接しています。


トップクラスターの電力需要は2022年以来10倍まで増加している。今ではクラスターあたり150メガワットを話している。それは小さな都市に電力を供給するようなものです。これは地域の電力ネットワークに大きな負担をもたらします。


それで、エロンは後ろからこの市場に入り、...「エロンの仕事」をする。彼のツイートを嫌い、彼は他の誰よりも工場を建てる方法を知っている。


彼はメンフィスの古いElectrolux工場を買収し、他の人と同じネットワークの代わりに巨大なデータセンターを構築することにした。


Predictably, power became a problem.


工場は地元のネットワークからわずか7MWしか持っていなかったが、わずか4000GPUに十分だった。地元のユーティリティ、テネシーバレー庁は、さらに50MWを約束したが、8月までにはなかった。


But waiting is not Musk's style.


Dylan Patel (from Semianalysis) spotted via satellite images that Elon just brought in 14 massive mobile diesel generators from VoltaGrid. Hooked them up to 4 mobile substations and powered the data center. Literally trucked in electricity.

Patelは、これらの発電機のために米国市場全体の30%を購入したかもしれないと述べた(私はそれについて何も見つけることができなかった)。


印象に残ることに、データセンターは液体冷却も使用しています。Googleだけがこれまで実際に規模でこれを行ったことがあります。Nvidiaの次世代チップ、Blackwell B200sは液体冷却を必要としているため、これは大きな問題です。


You can check out the first few minutes of this video to see what it looks like inside. I got a chuckle out of how hyped the guy is about grey boxes and cables:

それは真剣にクールなエンジニアリングで、ケーブル管理を見てください。


こんなに短い時間でこんなに大規模な仕事をした人はいない。

2 - もっとハードウェア!


エロンは、2025年夏までに、ブラックウェルB200チップを搭載した300KのGPUクラスターを持つだろうと述べています。マスクの過剰な習慣を考慮すると、2025年末までに200-400Kの新しいチップの間に現実的にどこかにあると言いましょう。


マスクは専用2.2GWの発電所を建設する予定で、これは中規模の都市が消費するより多くの電力です。


そして彼は一人ではない―すべての大きなプレイヤーが似たようなことをしている:


  • Metaはルイジアナに2つのガス工場を建設している。
  • OpenAI/Microsoftはテキサスで同様のものを設置している。


    Why not nuclear? It’s got the power, but building a nuclear plant takes way too long. You can’t just pop one up next to your data center in a year. 風力と太陽光の農場とバッテリーは有望ですが、必要な規模で展開するにはあまりにも時間がかかります。


    その結果、マイクロソフトとメタは既にグリーン再生可能エネルギーの約束を後押ししなければならなくなりました。 They broke their back raising Moloch to Heaven!

    3 - Grok 3 is Huge

    だから、エロンはこの巨大で高価な箱を建てた。


    推定では、Grok 2 は ~20k H100 で訓練され、Grok 3 は 100k を超えました。 文脈に関しては、GPT-4 は ~25k 古い A100 チップで約 90-100 日間訓練され、H100 は約 2.25 倍速でした。


    Grok 2はGPT-4と比べると約2倍のコンピューティングパワーを手に入れました。Grok 3はGrok 2の5倍を手に入れました。GoogleのGemini 2.0は、おそらく同様のハードウェア量(自社のTPUv6チップ100k)を使用しましたが、モデル自体は小さいでしょう。


    基本的には、Grok 3の計算コストの合計 は、その最も近い競合相手よりも大きい順序(10倍!)です。残念ながら、GPT-4.5 または Gemini 2.5 の公開データはありません。


    So they poured insane amounts of resources into building this mega-cluster, and the resulting model is... just on par with the incumbents. Definitely not leagues better.

    こうして彼らはこのメガクラスターの建設に狂った資源を注ぎ込んだ。


    XAIのトレーニングの専門知識は依然としてOpenAI、Google、またはAnthropicに遅れているように見えます。彼らは本質的にトップレベルへの道を強制的に強制しました。

    Epoch AI estimates that over the last decade, algorithmic improvements accounted for about a third of the progress in model capabilities. The other two-thirds came from just throwing more hardware and data at larger models.

アルゴリズムの改善は、モデル能力の進歩の約3分の1を占めたと推定しています。


Grute Forceは今回Grok 3で働きましたが、コストは増加し、改善が少なくなります。そしてxAIはアルゴリズム側に追いつかなければなりません。

4 - What's Good About Grok?

  1. それは完全に無料です(おそらく完全なリリースまで)。


    And without Anthropic's tight limits, DeepSeek's disruptions, or OpenAI's paid levels.


    過去数ヶ月ですべての新しいモデルがダウンしたにもかかわらず、GrokはまだChatbot Arena リーダーボードのトップ近くで独自のものを保持しています。


    We now also have an independent benchmarking by EpochAI:

    And by LiveBench:

    1. 理由と深い研究モード


    2月に、無料のDeep Research機能はほとんどがPerplexityを除くものであり、現在、GoogleとOpenAIは基本的なレベルでいくつか提供しており、グロックがそれらを押しつけたのかもしれません。


    このモードは、30〜100のリンクを自動的に解析します(Googleはそれ以上のことを行うかもしれません)数分で、あなたがスケムして事実を確認する必要があるだけの詳細な(および膨らんだ)概要を吐き出します。それはゼロから何かを研究するよりも簡単です。



    This could be its killer feature: semantic search not only for keywords, but for what you meant. You can also ask it to summarize posts on a topic to track trends. または、特定のユーザーからの最近の投稿を見つけるために。


    Twitterはリアルタイムの情報プラットフォームに最も近いので、それは素晴らしいですが、これまでグロックはしばしば遅れており、その代わりに過去数日からのデータを引っ張っています。



    そして、グランドファイナルでは、 18+ モードです。 Grok は、多くの努力なしにジャイルブレイクするのが非常に簡単です。 あなたはそれを実行することができます ... いいえ、あなたが望むことは何でも、フリートな声から疑わしいレシピまで。 声のモードの例は間違いなく野生です。

    Listen to the end, it’s hilarious!


    皮肉なことに、グロック自身はマスク(またはトランプ)を高く評価していないようだ。これが出たとき、xAIは修正を試みた――グロックがエロンを批判できないというルールを文字通りハードコードした。


    本当の問題は、グロックの意見は、彼のトレーニングデータ(すなわち、インターネット)の反映にすぎず、意図的な偏見ではありません。

    5 - Should You Bother Trying It?

    確実に試してみるが、あなたの2番目のパイロットとして。


    タグ:

    • 競合モデルよりもトレーニングの費用がかかります。

    • それにもかかわらず、パフォーマンスはほとんど最高のものに匹敵しています。

    • しかし、それは超高速で無料です(現時点では)。

  2. 深層調査モードは本当に役に立ちます―試してみてください。

  3. Twitter データへのアクセスを増やす


    xAIは前例のないスピードで世界クラスのインフラストラクチャを構築する能力を証明したが、実際のAI能力では、彼らは基本的に純粋なコンピューティングパワーでトップに進みつつある。


    これは、OpenAI、Google、Anthropicを圧迫するもう一つの強力なプレーヤーを加え、AI業界を商品化に向かわせています。


    Enjoyed this? Give an upvote or subscribe to my newsletter. I would appreciate it!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks