At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Is dit regtig die slimste AI op aarde?
Soos gewoonlik, het Musk die hype trein gebring.Maar daar was nie baie objektiewe data by die lancering nie. xAI se kortBlog PostDit was nog in die beta en die modelle was aktief in opleiding.
Hulle blink 'n paar benchmarks wat Grok 3 vooruit toon. Maar hulle het nie toegang tot die API gegee nie. wat belangrik is omdat onafhanklike benchmarks dit vir evaluering gebruik.
So, Elon beweer Grok 3 is "miskien slim" en verslaan alles anders.Maar die enigste maniere om te kyk was om met dit self te gesels of na hul benchmarks te kyk.
En wat is die benchmarks?Kyk:
Sien dat ligter gebied aan die regterkant? Dit is die boost Grok het deur meer berekening krag (toets-tyd berekening) te hê om meer konsekwente antwoorde te kry.
Jy weet waarskynlik dat AI-modelle dikwels 'n bietjie verskillende antwoorde gee elke keer - soms beter, soms erger. Die meeste benchmarks ignoreer hierdie variabiliteit, wat slegs die eerste reaksie evalueer (pass@1). Dit is eenvoudiger en ooreenstem met hoe ons werklik AI gebruik - ons verwag 'n goeie antwoord op die eerste poging.
Maar Grok se resultate is almal getoon met behulp van cons@64. Dit beteken dat dit 64 pogings vir elke vraag gehad het en die mees algemene antwoord gekies het.
So aan die een kant, hulle beweer dit is 'n volgende generasie model. Aan die ander kant, hulle gebruik redelik goedkoop truuks.
Om eerlik te wees, in so 'n mededingende veld, alle laboratoriums buig die reëls.
Oke, benchmarks af. Wat is ervare gebruikers sê nadat hulle dit eintlik gebruik het?
Die model is groot, maar het nie deurbrake gebring nie. Dit hallusinateer nog en is geneig tot te lang reaksies.
Op prestasiepunt land Grok 3 'n plek naby die top OpenAI-modelle, miskien 'n bietjie beter as DeepSeek en Google se dinge op die tyd van vrylating.
Maar twee maande later het die Gemini 2.5, Claude 3.7 en die nuwe GPT-4o aangekom. Ons het ook uiteindelik gedeeltelike API-toegang vir Grok 3 en sy mini-versie.
So vandag weet ons dit is duur en beslis nie die absolute beste nie.
Maar hou op, daar is nog meer aan die storie.
En jy moet dit aan hulle oordra, Elon en xAI het vinnig in die mark gespring, wat in rekord tyd 'n sleutelspeler geword het.
1 – The Hardware
Die groot verhaal hier?
In 2024 het xAI 'n massiewe rekenaarkluster gebou.Ons praat oor 100 000 Nvidia H100-GPU's wat in net 4 maande gewerk het.
Nvidia se hoofdirekteur, Jensen Huang,VerwysDit neem gewoonlik ongeveer 4 jaar.
Dit was 'n massiewe tegniese prestasie.En hierdie keer, geen grappige besigheid - dit is die grootste datasentrum in die wêreld nie.
Tipies, sulke clusters is verskeie gereelde datacenters gekoppel deur duur Infiniband kabels. Tydens opleiding, hierdie sentrums moet tonne van data voortdurend ruil. As die verbinding is stadig, daardie duur GPU's sit leeg, wat is slegte nuus.
'N Tipiese datasentrum kan 10 000 tot 20 000 GPU's hê, wat 20-30 megawatt krag absorbeer.ByvoorbeeldMicrosoft (vir OpenAI) bedryf 100k GPU's netwerk in Arizona, en Meta hardloop 128k.
Kyk na die twee H-vormige geboue? Dit is twee standaard Meta datacenters langs mekaar.
Elektrisiteitsbehoeftes vir topklasse clusters het sedert 2022 tot 10x ontploff. Ons praat nou oor 150 MW per cluster. Dit is soos om 'n klein stad te stroom. Dit skep 'n groot las op regionale kragnette. In sommige plekke is dit eintlik goedkoper om die krag te genereer as om dit te lewer omdat daar nie genoeg kraglynne is nie.
En ... doen die "Elon ding." Haat sy tweets al wat jy wil, die man weet hoe om fabrieke te bou soos niemand anders nie.
Hy het 'n ou Electrolux-fabriek in Memphis gekoop en besluit om een reuse datacentrum te bou in plaas van 'n netwerk soos almal anders.
Voorspelbaar het mag 'n kwessie geword.
Die fabriek het slegs 7 MW van die plaaslike netwerk gehad - genoeg vir slegs 4000 GPU's. Die plaaslike nutbedryf, die Tennessee Valley Authority, het nog 50 MW belowe, maar nie tot Augustus nie.
Maar wag is nie Musk se styl nie.
Dylan Patel (van Semianalyse)Geskryfdeur middel van satellietbeelde dat Elon net 14 massiewe mobiele dieselgeneratoren van VoltaGrid gebring het. Hok hulle tot 4 mobiele substasies en die datacentrum aangedryf het.
Patel het gesê hulle kon 30% van die hele Amerikaanse mark vir hierdie generators gekoop het (hoewel ek niks daarop kon vind nie).
Indrukwekkend, die datasentrum gebruik ook vloeistofkoeling. Slegs Google het dit regtig op 'n skaal voorheen gedoen. Dit is 'n groot saak omdat die volgende generasie van Nvidia chips, die Blackwell B200s, vloeistofkoeling benodig.
Jy kan kyk na die eerste paar minute van hierdie video om te sien hoe dit lyk binne. ek het 'n chok uit hoe hyp die man is oor grys bokse en kabels:
Dit is ernstig koel ingenieurswese - kyk net na die kabelbestuur.
Niemand het so groot werk in so kort tyd gedoen nie.
2 – Nog meer hardware!
Elon sê by die somer van 2025 sal hulle 'n 300k GPU-kluster met Blackwell B200-chips hê. Gegewe Musk se gewoonte om te oortree, laat ons sê dit is realisties ergens tussen 200-400k nuwe chips by die einde van 2025.
Musk beplan selfs om 'n toegewyde 2.2 GW kragstroom te bou, wat meer krag verbruik as wat 'n middelgrote stad verbruik.
En hy is nie alleen nie – al die groot spelers doen iets soortgelyks:
- die
- Meta bou twee gasstasies in Louisiana. die
- OpenAI / Microsoft stel iets soortgelyks in Texas op. die
- Amazon en Google bou ook gigawatt-skale datasentrums. die
Hoekom nie kernkrag nie? Dit het die krag, maar die bou van 'n kernkragstelsel neem te lank. Jy kan nie net 'n pop-up langs jou data-sentrum in 'n jaar nie. Wind- en sonfarms plus batterye is veelbelovend, maar hulle neem ook te lank om op die benodigde skaal te implementeer.
As a result, both Microsoft and Meta have already had to backtrack on their green renewable energy promises. Hulle het hul rug gebreek en Moloch na die hemel opgehef!
Grok 3 is groot
So, Elon het hierdie massiewe, duur boks gebou.
Skattings dui daarop dat Grok 2 op ~20k H100's opgelei is, terwyl Grok 3 meer as 100k gebruik het.
Om die wiskunde te doen, het Grok 2 ongeveer twee keer die rekenaar krag wat daarop gegooi word in vergelyking met GPT-4. En Grok 3 het vyf keer meer as Grok 2. Google se Gemini 2.0 het waarskynlik 'n soortgelyke hoeveelheid hardeware gebruik (100k van hul eie TPUv6-chips), maar die model self is waarskynlik kleiner.
In die algemeen, die totaleBerekening kosteGrok 3 is 'n orde van magnitude (10 keer!) hoër as sy naaste mededinger. ongelukkig het ons nie openbare data vir GPT-4.5 of Gemini 2.5.
So hulle het gek hoeveelhede hulpbronne gegooi om hierdie mega-cluster te bou, en die resulterende model is ... net op gelyk aan die huidige.
Dit lyk asof xAI se kundigheid in opleiding steeds agter OpenAI, Google, of Anthropic is. Hulle het in wese hul pad na die topvlak gedwing. Geen magiese truuks getoon nie, net: "As brute krag jou probleem nie oplos nie, gebruik jy dit nie genoeg nie."
Maar daar is 'n vang met daardie benadering. Epoch AISkattingsIn die afgelope dekade het algoritmiese verbeterings ongeveer 'n derde van die vooruitgang in modelvermoë verteenwoordig.
Brute Force het hierdie keer vir Grok 3 gewerk, maar die koste sal eksponensieel groei terwyl dit minder en minder verbetering lewer. En xAI moet op die algoritme kant vang. Die goeie nuus is dat hulle nou gesien word as die grens te dryf, so dit sal waarskynlik baie makliker wees om toptalente aan te trek.
4 – Wat is goed oor Grok?
- die
- Dit is heeltemal gratis (waarskynlik tot die volle vrylating). die
En sonder die strakke limiete van Anthropic, die onderbrekings van DeepSeek, of OpenAI se betaalde vlakke.
Selfs met al die nuwe modelle wat in die afgelope paar maande gedaal is, hou Grok nog steeds sy eie naby die top van dieDie Chatbot ArenaDie leierboord.
Ons het ook 'n onafhanklike benchmarking vandie tydperk: die
en deurDie LiveBench: die
- die
- Reasoning en diepe navorsingsmodus die
In Februarie was die gratis Deep Research-funksie meestal Perplexity-eksklusief. Nou bied Google en OpenAI 'n paar in 'n basiese vlak - miskien het Grok hulle gedryf?
Hierdie modus analiseer outomaties 30-100 skakels (Google kan meer doen) in minute en spuit 'n gedetailleerde (en opgeblaasde) opsomming uit wat jy net nodig het om te skim en feit-kontroleer.
- die
- Integrasie met X die
Dit kan sy moordenaar funksie wees: semantiese soektog nie net vir sleutelwoorde nie, maar vir wat jy bedoel het. Jy kan ook vra om poste op 'n onderwerp te samel om tendense te volg of om onlangse poste van 'n spesifieke gebruiker te vind.
Twitter is die naaste aan 'n real-time inligting platform, so dit is geweldig.Maar tot dusver is Grok dikwels agter, wat data van die laaste paar dae in plaas daarvan trek.
- die
- Die ongefilterde ding die
En vir die groot finale, die 18+-modus. Grok is berugte maklik om sonder baie moeite te jailbreek. Jy kan dit doen ... nou, wat jy wil, van flirtende stemme tot twyfelagtige resepte. Die stemmodus voorbeelde is beslis wild.
Luister na die einde, dit is lustig!
Ironies, Grok self lyk nie dat hy Musk (of Trump) in hoë respek hou nie. Toe dit kom, het xAI 'n oplossing probeer - letterlik hardkodeer 'n reël wat Grok nie Elon kon kritiseer nie.
Die werklike probleem is dat Grok se menings net 'n weerspieëling van sy opleiding data (dws, die internet), nie 'n opsetlike vooroordeel.
5 - Moet jy dit probeer?
Probeer dit beslis, maar as jou tweede piloot.
Die TLDR:
- die
- Dit kos baie meer om te trein as mededingers se modelle. die
- Ten spyte daarvan is die prestasie byna op die beste. die
- Maar dit is super vinnig en gratis (vir nou). die
- Die Deep Research-modus is werklik nuttig - probeer dit as jy dit nie het nie. die
- Meer geneig tot hallusinasies en spring te vinnig tot gevolgtrekkings. die
- Antwoorde is gewoonlik goed gestruktureer, maar voel dikwels opgeblaas. die
- Unieke toegang tot Twitter data. die
xAI het getoon dat dit in staat is om wêreldklas infrastruktuur te bou met 'n ongekende spoed.Maar in werklike AI-vermoëns, koop hulle basies hul weg na die top met suiwer berekening krag.
Dit voeg nog 'n sterk speler by wat OpenAI, Google en Anthropic druk, wat die AI-bedryf na kommoditisering stoot.
Geniet dit? gee 'n stem of abonneeOns nieuwsbriefEk sou dit waardeer!