Ny historia

xAI:s Grok 3: Alla GPU:er, inga genombrott

förbi Leo Khomenko8m2025/04/17
Read on Terminal Reader

För länge; Att läsa

Elon hävdade att Grok 3 var världens bästa AI. Två månader senare, hur staplas det verkligen mot GPT-4o, Claude 3.7 och Gemini 2.5?
featured image - xAI:s Grok 3: Alla GPU:er, inga genombrott
Leo Khomenko HackerNoon profile picture

I slutet av februari lanserade Elon sin senaste modell. Självklart var den "den bästa i världen."


Är det verkligen den smartaste AI på jorden?


Som vanligt tog Musk med sig hype-tåget. men det fanns inte mycket objektiva data vid lanseringen. xAI: s korta bloggpost nämnde att det fortfarande var i beta och modellerna tränades aktivt.



De blinkade några benchmarks som visade Grok 3 framåt. emellertid gav de inte tillgång till API.


Så, Elon hävdar Grok 3 är "nästan smart" och överträffar allt annat. men de enda sätten att kontrollera var att chatta med det själv eller titta på deras benchmarks.


Och dessa benchmarks? ta en titt på:

Se det ljusare området till höger? Det är den ökningen Grok fick genom att ha mer beräkningskraft (testtidsberäkning) för att få mer konsekventa svar.


Du vet förmodligen att AI-modeller ofta ger något olika svar varje gång – ibland bättre, ibland sämre.De flesta referensvärden ignorerar denna variabilitet och utvärderar bara det första svaret (pass@1).

Men Groks resultat visades alla med cons@64. Det betyder att det fick 64 försök för varje fråga och valde det vanligaste svaret.


Så å ena sidan hävdar de att det är en nästa generations modell. å andra sidan använder de ganska billiga tricks.


För att vara rättvis, i ett sådant konkurrensutsatt fält böjer alla laboratorier reglerna.De väljer benchmarks eller utesluter starkare modeller från jämförelser – men sällan så blatant.

Okej, riktmärken åt sidan. Vad säger erfarna användare efter att de faktiskt har använt den?


Modellen är enorm men har inte medfört några genombrott.Den hallucinerar fortfarande och tenderar till alltför långa svar.


Vid prestanda landar Grok 3 någonstans nära de bästa OpenAI-modellerna, kanske lite bättre än DeepSeek och Googles saker vid tidpunkten för utgivningen.


Men två månader senare kom Gemini 2.5, Claude 3.7, och den nya GPT-4o. Vi fick äntligen också partiell API-åtkomst för Grok 3 och dess mini-version.

Så idag vet vi att det är dyrt och definitivt inte det absolut bästa.


Men håll utkik, det finns ännu mer till historien.


Modellen är intressant och värt att titta på. Och du måste överlämna den till dem, Elon och xAI hoppade in på marknaden snabbt, blir en nyckelspelare på rekordtid.

1 – Hårdvaran

Den stora historien här?


I 2024 byggde xAI en massiv datakluster.Vi pratar om 100 000 Nvidia H100-GPU: er upp och igång på bara 4 månader.


Nvidia vd, Jensen Huang, nämnde detta tar vanligtvis cirka 4 år.


Detta var en massiv teknisk prestation. Och den här gången, ingen rolig affär – det är det största datacentret i världen.


Typiskt är sådana kluster flera vanliga datacenter kopplade med dyra Infiniband-kablar. Under träningen måste dessa centra byta massor av data kontinuerligt.

Om anslutningen är långsam sitter de dyra GPU: erna tomma, vilket är dåliga nyheter.



Ett typiskt datacenter kan ha 10 000-20 000 GPU: er, som suger upp 20-30 megawatt. Till exempel Microsoft (för OpenAI) driver ett nätverk av 100 000 GPU: er i Arizona, och Meta kör 128 000.

Se de två H-formade byggnaderna? Det är två vanliga Meta-datacenter bredvid varandra.


Kraftbehovet för toppkluster har exploderat upp till 10x sedan 2022.Vi pratar nu om cirka 150 MW per kluster. Det är som att driva en liten stad. Detta skapar en enorm belastning på regionala elnät. På vissa ställen är det faktiskt billigare att generera el än att leverera den eftersom det inte finns tillräckligt med kraftledningar.


Så, Elon går in på den här marknaden bakåt. Och... gör "Elon sak." Hatar hans tweets allt du vill, mannen vet hur man bygger fabriker som ingen annan.


Han köpte en gammal Electrolux-fabrik i Memphis och bestämde sig för att bygga ett gigantiskt datacenter i stället för ett nätverk som alla andra.


Förutsägbart blev makten ett problem.


Fabriken hade bara 7 MW från det lokala nätet - tillräckligt för bara 4 000 GPU: er. Det lokala verktyget, Tennessee Valley Authority, lovade ytterligare 50 MW, men inte till augusti.


Men vänta är inte Musks stil.


Dylan Patel (från Semianalysis) spotted via satellitbilder som Elon just förde in 14 massiva mobila dieselgeneratorer från VoltaGrid. Hooked dem upp till 4 mobila substationer och drivs datacentret. Bokstavligen lastbil i el.

Patel nämnde att de kan ha köpt upp 30% av hela den amerikanska marknaden för dessa generatorer (även om jag inte kunde hitta något på det).


Det är imponerande att datacentret också använder flytande kylning. Endast Google har verkligen gjort detta i stor skala tidigare. Detta är en stor sak eftersom nästa generation av Nvidia-chips, Blackwell B200s, kräver flytande kylning.


Du kan kolla in de första minuterna av den här videon för att se hur det ser ut inuti. jag fick en chuckle av hur hyped killen är om grå lådor och kablar:

Det är allvarligt cool teknik – titta bara på kabelhanteringen.


Ingen har gjort så massivt arbete på så kort tid.

2 – ännu mer hårdvara!


Elon säger att de till sommaren 2025 kommer att ha en 300k GPU-kluster med Blackwell B200-chips. med tanke på Musks vana att överdriva, låt oss säga att det är realistiskt någonstans mellan 200-400k nya chips i slutet av 2025.


Musk planerar även att bygga ett dedikerat kraftverk på 2,2 GW. Det är mer kraft än en medelstor stad förbrukar.


Och han är inte ensam – alla de stora spelarna gör något liknande:


  • Meta bygger två gasanläggningar i Louisiana.
  • OpenAI/Microsoft sätter upp något liknande i Texas.
  • Amazon och Google bygger också gigawatt-skaliga datacenter.


Varför inte kärnkraft? Det har makten, men byggandet av ett kärnkraftverk tar för lång tid.Du kan inte bara poppa upp en bredvid ditt datacenter på ett år. Vind- och solfarmer plus batterier är lovande, men de tar också för lång tid att distribuera i den nödvändiga skala.


Som ett resultat har både Microsoft och Meta redan varit tvungna att backtrack på sina gröna förnybara energilöften. De bröt ryggen och lyfte Moloch till himlen!

3 – Grok 3 är enorma

Så Elon byggde den här massiva, dyra lådan.


Uppskattningar tyder på att Grok 2 tränades på ~20k H100s, medan Grok 3 använde över 100k. För sammanhanget tränade GPT-4 i cirka 90-100 dagar på ~25k äldre A100-chips, med H100 ungefär 2,25x snabbare.



Genom att göra matematiken fick Grok 2 ungefär dubbelt så mycket datorkraft som kastades på den jämfört med GPT-4. Och Grok 3 fick fem gånger mer än Grok 2. Googles Gemini 2.0 använde förmodligen en liknande mängd hårdvara (100k av sina egna TPUv6-chips), men modellen själv är förmodligen mindre.



I grund och botten är den totala beräkningskostnad för Grok 3 en ordning av storlek (10 gånger!) högre än dess närmaste konkurrent. Tyvärr har vi inte offentliga data för GPT-4.5 eller Gemini 2.5.


Så de hällde galna mängder resurser i att bygga denna mega-cluster, och den resulterande modellen är ... bara på samma nivå som de som är i tjänst.


Det verkar som om xAI:s expertis inom utbildning fortfarande ligger efter OpenAI, Google eller Anthropic. De har i huvudsak brutalt tvingat sig in på toppnivå. Inga magiska tricks visade sig, bara: "Om brutal kraft inte löser ditt problem, använder du inte tillräckligt av det."

Epoch AI estimates att under det senaste decenniet, algoritmiska förbättringar stod för ungefär en tredjedel av framstegen i modellfunktioner. De andra två tredjedelarna kom från bara kasta mer hårdvara och data på större modeller.



Grute Force fungerade för Grok 3 den här gången, men kostnaderna kommer att öka exponentiellt samtidigt som man levererar färre och färre förbättringar. Och xAI behöver fånga upp på algoritmens sida.

4 – Vad är bra med Grok?

  1. Det är helt gratis (förmodligen tills den fullständiga utgåvan).


Och utan Anthropics snäva gränser, DeepSeeks avbrott eller OpenAI: s betalda nivåer.


Även med alla nya modeller som släpptes under de senaste månaderna håller Grok fortfarande sin egen nära toppen av Chatbot Arena leaderboard.


Vi har nu också en oberoende benchmarking av EpochAI:

Och av LiveBench:

  1. Reasoning & Deep Research Mode


Tillbaka i februari var den fria Deep Research-funktionen mestadels Perplexity-exklusiv. Nu erbjuder Google och OpenAI några i en grundläggande nivå - kanske Grok tryckte dem?


Det här läget analyserar automatiskt 30-100 länkar (Google kan göra mer) på några minuter och spottar ut en detaljerad (och uppblåst) sammanfattning som du bara behöver skima och fakta-kontrollera.Det är mycket lättare än att undersöka något från grunden.Jag har funnit Groks version fungerar snabbare än de andra, så jag har börjat använda den när jag behöver undersöka något.


  1. Integration med X


Detta kan vara dess killer funktion: semantisk sökning inte bara för nyckelord, men för vad du menade.Du kan också be den att sammanfatta inlägg på ett ämne för att spåra trender.


Twitter är närmast en realtidsinformationsplattform, så det är bra.Men hittills är Grok ofta försenad och drar data från de senaste dagarna istället.


  1. Den ofiltrerade saken


Och för den stora finalen, 18+-läget. Grok är notoriskt lätt att jailbreak utan mycket ansträngning. Du kan få det att göra ... oavsett vad du vill, från flörtiga röster till tvivelaktiga recept.

Lyssna till slutet, det är roligt!


Ironiskt nog verkar Grok själv inte hålla Musk (eller Trump) i hög respekt. När detta kom ut försökte xAI en fix – bokstavligen hårdkodande en regel som Grok inte kunde kritisera Elon.


Det verkliga problemet är att Groks åsikter bara är en återspegling av dess utbildningsdata (dvs. internet), inte några avsiktliga bias.

5 - Skulle du våga prova det?

Försök definitivt, men som din andra pilot.


Länkar:

  • Det kostar mer att träna än konkurrenternas modeller.

  • Trots det är prestandan nästan på samma nivå som den bästa.

  • Men det är super snabbt och gratis (för tillfället).

  • Deep Research-läget är verkligen användbart – prova det om du inte har det.

  • Mer benägna att hallucinera och hoppa till slutsatser för snabbt.

    Svar är vanligtvis välstrukturerade men känns ofta svullna.

    U> tillgång till Twitter-data.



xAI har visat sig kunna bygga infrastruktur i världsklass med oöverträffad hastighet.Men i verkliga AI-kapaciteter köper de i princip sin väg till toppen med ren beräkningskraft.


Detta lägger till en annan stark aktör som pressar OpenAI, Google och Anthropic, vilket driver AI-industrin mot kommoditering.


Har du gillat det här? Ge en upvote eller prenumerera på mitt nyhetsbrev. Jag skulle uppskatta det!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks