At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Är det verkligen den smartaste AI på jorden?
Som vanligt tog Musk hype tåget. men det fanns inte mycket objektiva data vid lanseringen. xAI: s kortBlogginläggJag nämnde att det fortfarande var i beta och modellerna var aktivt utbildade.
De blinkade några benchmarks som visade Grok 3 framåt. men de gav inte tillgång till API. vilket är viktigt eftersom oberoende benchmarks använder den för utvärdering.
Så, Elon hävdar Grok 3 är "nästan smart" och överträffar allt annat. men de enda sätten att kontrollera var att chatta med det själv eller titta på deras benchmarks.
Vad är dessa benchmarks? ta en titt på:
Det är den ökningen Grok fick genom att ha mer beräkningskraft (testtidsberäkning) för att få mer konsekventa svar.
Du vet förmodligen att AI-modeller ofta ger något olika svar varje gång – ibland bättre, ibland sämre.De flesta referensvärden ignorerar denna variabilitet och utvärderar bara det första svaret (pass@1).
Men Groks resultat visades alla med cons@64. Det betyder att det fick 64 försök för varje fråga och valde det vanligaste svaret.
Så å ena sidan hävdar de att det är en nästa generations modell. å andra sidan använder de ganska billiga tricks.
För att vara rättvis, i ett sådant konkurrensutsatt fält, alla laboratorier böja reglerna. de körsbär-plocka benchmarks eller utesluta starkare modeller från jämförelser - men sällan så blatant.
Okej, benchmarks åt sidan. Vad är erfarna användare säger efter att faktiskt använda den?
Modellen är enorm men har inte medfört några genombrott.Den hallucinerar fortfarande och tenderar till alltför långa svar.
När det gäller prestanda landar Grok 3 någonstans nära de bästa OpenAI-modellerna, kanske lite bättre än DeepSeek och Googles saker vid tidpunkten för utgivningen.
Två månader senare kom dock Gemini 2.5, Claude 3.7 och den nya GPT-4o. Vi fick också slutligen partiell API-åtkomst för Grok 3 och dess mini-version. Tyvärr fick bara mini-versionen tänkande läge i API.
Så idag vet vi att det är dyrt och definitivt inte det absolut bästa.
Men håll utkik, det finns mer till historien.
Och du måste överlämna det till dem, Elon och xAI hoppade in på marknaden snabbt, blir en nyckelspelare på rekordtid.
1 - Hårdvara
Den stora historien här?
År 2024 byggde xAI en massiv datakluster.Vi pratar om 100 000 Nvidia H100-GPU: er upp och kör på bara 4 månader.
Nvidia vd Jensen Huang,nämntsVanligtvis tar det ungefär fyra år.
Och den här gången, ingen rolig affär – det är det största datacentret i världen.
Vanligtvis är sådana kluster flera vanliga datacenter kopplade med dyra Infiniband-kablar. Under träningen måste dessa centra ständigt byta ut massor av data. Om anslutningen är långsam sitter de dyra GPU: erna tomma, vilket är dåliga nyheter.
Ett typiskt datacenter kan ha 10 000–20 000 GPU:er som suger upp 20-30 megawatt ström.Till exempel, Microsoft (för OpenAI) driver 100k GPU-nätverk i Arizona, och Meta kör 128k.
Se de två H-formade byggnaderna? Det är två vanliga Meta-datacenter bredvid varandra.
Strömbehovet för toppkluster har exploderat upp till 10x sedan 2022. Vi pratar nu om cirka 150 MW per kluster. Det är som att driva en liten stad. Detta skapar en enorm belastning på regionala elnät. På vissa ställen är det faktiskt billigare att generera strömmen än att leverera den eftersom det inte finns tillräckligt med kraftledningar.
Så, Elon går in på den här marknaden bakåt. Och ... gör "Elon sak." Hatar hans tweets allt du vill, mannen vet hur man bygger fabriker som ingen annan.
Han köpte en gammal Electrolux-fabrik i Memphis och bestämde sig för att bygga ett gigantiskt datacenter i stället för ett nätverk som alla andra.
Förutsägbart blev makten en fråga.
Fabriken hade bara 7 MW från det lokala nätet - tillräckligt för bara 4 000 GPU: er. Det lokala verktyget, Tennessee Valley Authority, lovade ytterligare 50 MW, men inte förrän i augusti.
Men att vänta är inte Musks stil.
Dylan Patel (från Semianalysen)upptäcktvia satellitbilder som Elon just förde in 14 massiva mobila dieselgeneratorer från VoltaGrid. Hängde dem upp till 4 mobila understationer och drev datacentret.
Patel nämnde att de kan ha köpt upp 30% av hela den amerikanska marknaden för dessa generatorer (även om jag inte kunde hitta något på det).
Det är imponerande att datacentret också använder flytande kylning. Endast Google har verkligen gjort detta i stor skala tidigare. Detta är en stor sak eftersom nästa generations Nvidia-chips, Blackwell B200s, kräver flytande kylning. Alla andra kommer att behöva renovera sina befintliga datacenter.
Du kan kolla in de första minuterna av den här videon för att se hur det ser ut inuti. jag fick en chuckle av hur hyped killen är om grå lådor och kablar:
Det är allvarligt cool teknik - titta bara på kabelhanteringen.
Ingen har gjort ett så stort arbete på så kort tid.
2 – Ännu mer hårdvara!
Elon säger att sommaren 2025 kommer de att ha en 300k GPU-kluster med Blackwell B200-chips. med tanke på Musks vana att överdriva, låt oss säga att det är realistiskt någonstans mellan 200-400k nya chips i slutet av 2025.
Musk planerar till och med att bygga ett dedikerat kraftverk på 2,2 GW, vilket är mer kraft än en medelstor stad förbrukar.
Och han är inte ensam – alla stora spelare gör något liknande:
- är
- Meta bygger två gasanläggningar i Louisiana. är
- OpenAI/Microsoft sätter upp något liknande i Texas. är
- Amazon och Google bygger också gigawatt-storleksdatacenter. är
Varför inte kärnkraft? Det har kraften, men att bygga ett kärnkraftverk tar för lång tid. Du kan inte bara poppa upp en bredvid ditt datacenter på ett år. Vind- och solparker plus batterier är lovande, men de tar också för lång tid att distribuera i den nödvändiga skala.
Som ett resultat har både Microsoft och Meta redan tvingats backa tillbaka på sina löften om grön förnybar energi.De bröt ryggen och lyfte Moloch till himlen!
Grok 3 är jättestort
Så Elon byggde den här massiva, dyra lådan.
Uppskattningar tyder på att Grok 2 tränades på ~20k H100s, medan Grok 3 använde över 100k. För sammanhanget tränade GPT-4 i cirka 90-100 dagar på ~25k äldre A100-chips, med H100 ungefär 2,25x snabbare.
Genom att göra matematiken fick Grok 2 ungefär dubbelt så mycket datorkraft som kastades på den jämfört med GPT-4. Och Grok 3 fick fem gånger mer än Grok 2. Googles Gemini 2.0 använde förmodligen en liknande mängd hårdvara (100k av sina egna TPUv6-chips), men modellen själv är förmodligen mindre.
I grund och botten är den totalaDatorkostnadför Grok 3 är en storleksordning (10 gånger!) högre än sin närmaste konkurrent. Tyvärr har vi inte offentliga data för GPT-4.5 eller Gemini 2.5.
Så de hällde galna mängder resurser i att bygga denna mega-cluster, och den resulterande modellen är ... bara på samma nivå som de befintliga.
Det verkar som om xAI: s expertis i utbildning fortfarande ligger efter OpenAI, Google eller Anthropic. De i huvudsak brutalt tvingade sin väg till toppnivå. Inga magiska tricks visade, bara: "Om brutal kraft inte löser ditt problem, använder du inte tillräckligt av det."
Men det finns en fångst med det tillvägagångssättet.Epoch AIestimatesUnder det senaste decenniet stod algoritmiska förbättringar för ungefär en tredjedel av framstegen i modellkapacitet, medan de andra två tredjedelarna kom från att bara kasta mer hårdvara och data på större modeller.
Brute Force fungerade för Grok 3 den här gången, men kostnaderna kommer att öka exponentiellt samtidigt som man levererar mindre och mindre förbättring. Och xAI behöver ta tag i algoritmens sida.
4 – Vad är bra om Grok?
- är
- Det är helt gratis (förmodligen tills fullständig release). är
Och utan Anthropics snäva gränser, DeepSeeks avbrott eller OpenAI: s betalda nivåer.
Även med alla nya modeller som släpptes under de senaste månaderna, håller Grok fortfarande sin egen nära toppen avChatbot Arenaoch ledarbräda.
Vi har även en oberoende benchmarking.EpochAIoch :
och genomLivebänkeoch :
- är
- Reasoning och Deep Research Mode är
Redan i februari var den fria Deep Research-funktionen mestadels Perplexity-exklusiv. Nu erbjuder Google och OpenAI några i en grundläggande nivå - kanske Grok tryckte dem?
Detta läge analyserar automatiskt 30-100 länkar (Google kan göra mer) på minuter och spottar ut en detaljerad (och uppblåst) sammanfattning som du bara behöver skimma och fakta-kontrollera.Det är mycket lättare än att undersöka något från grunden.Jag har funnit Groks version fungerar snabbare än de andra, så jag har börjat använda den när jag behöver undersöka något.
- är
- Integration med X är
Detta kan vara dess killer funktion: semantisk sökning inte bara för nyckelord, men för vad du menade.Du kan också be den att sammanfatta inlägg på ett ämne för att spåra trender.
Twitter är närmast en realtidsinformationsplattform, så det är bra.Men hittills är Grok ofta försenad och drar data från de senaste dagarna istället.
- är
- Den Ofiltrerade Saken är
Och för den stora finalen, 18+-läget. Grok är notoriskt lätt att jailbreak utan mycket ansträngning. Du kan få det att göra ... ja, vad du vill, från flörtiga röster till tvivelaktiga recept.
Lyssna till slutet, det är roligt!
Ironiskt nog verkar Grok själv inte hålla Musk (eller Trump) i hög respekt. När detta kom ut försökte xAI en fix - bokstavligen hårdkodande en regel som Grok inte kunde kritisera Elon.
Det verkliga problemet är att Groks åsikter bara är en återspegling av dess träningsdata (dvs. internet), inte några avsiktliga bias.
5 - Skulle du våga prova det?
Försök definitivt, men som din andra pilot.
Från TLDR:
- är
- Det kostar mycket mer att träna än konkurrenternas modeller. är
- Trots det är prestandan nästan på samma nivå som den bästa. är
- Men det är super snabbt och gratis (för tillfället). är
- Deep Research-läget är verkligen användbart – prova om du inte har det. är
- Mer benägna att hallucinationer och hoppa till slutsatser för snabbt. är
- Svaren är vanligtvis välstrukturerade men känns ofta svullna. är
- Unik åtkomst till Twitter-data. är
xAI har visat sig kunna bygga infrastruktur i världsklass med oöverträffad hastighet, men i verkliga AI-kapaciteter köper de i princip sin väg till toppen med ren beräkningskraft.
Detta lägger till en annan stark aktör som pressar OpenAI, Google och Anthropic, som driver AI-industrin mot kommoditering.
Gillade det här? ge en upvote eller prenumerera påMitt nyhetsbrevJag skulle uppskatta det!