Nuwe geskiedenis

xAI se Grok 3: Alle GPU's, geen van die Breakthroughs

deur Leo Khomenko8m2025/04/17
Read on Terminal Reader

Te lank; Om te lees

Elon beweer Grok 3 was die wêreld se beste AI. Twee maande later, hoe stapel dit regtig teen GPT-4o, Claude 3.7 en Gemini 2.5?
featured image - xAI se Grok 3: Alle GPU's, geen van die Breakthroughs
Leo Khomenko HackerNoon profile picture

In die einde van Februarie het Elon sy nuutste model uitgebring. Natuurlik was dit "die beste ter wêreld."


Is dit regtig die slimste AI op aarde?


Soos gewoonlik, het Musk die hype-trein gebring. Maar daar was nie baie objektiewe data by die lancering nie. xAI se kort blogpost genoem dat dit nog in beta was en die modelle aktief opgelei was.


Hulle blink 'n paar benchmarks wat Grok 3 vooruit toon. Maar hulle het nie toegang tot die API gegee nie. wat belangrik is omdat onafhanklike benchmarks dit gebruik vir evaluering.


So, Elon beweer Grok 3 is "slegs slim" en verslaan alles anders.Maar die enigste maniere om te kyk was om met dit self te gesels of na hul benchmarks te kyk.


En die benchmarks? Kyk na:

Sien dat ligter gebied aan die regterkant? Dit is die boost Grok het deur meer berekening krag te hê (toets-tyd berekening) om meer konsekwente antwoorde te kry.


Jy weet waarskynlik dat AI-modelle dikwels 'n bietjie verskillende antwoorde gee elke keer - soms beter, soms erger.Die meeste benchmarks ignoreer hierdie variabiliteit, wat slegs die eerste reaksie evalueer (pass@1). Dit is eenvoudiger en ooreenstem met hoe ons werklik AI gebruik - ons verwag 'n goeie antwoord op die eerste poging.

Maar Grok se resultate is almal getoon met behulp van cons@64. Dit beteken dat dit 64 pogings vir elke vraag gehad het en die mees algemene antwoord gekies het.


So aan die een kant, hulle beweer dit is 'n volgende generasie model. Aan die ander kant, hulle gebruik redelik goedkoop truuks.


Om eerlik te wees, in so 'n mededingende veld, alle laboratoriums buig die reëls.

Oké, benchmarks aan die kant. Wat sê ervare gebruikers nadat hulle dit eintlik gebruik het?Die algemene konsensus is:


Die model is groot, maar het nie deurbraak gebring nie. Dit hallusinateer nog en is geneig tot te lang antwoorde.


Uit die prestasiepunt land Grok 3 'n bietjie naby die top OpenAI-modelle, miskien 'n bietjie beter as DeepSeek en Google se dinge op die tyd van vrylating.


Maar twee maande later het die Gemini 2.5, Claude 3.7 en die nuwe GPT-4o aangekom. Ons het ook uiteindelik gedeeltelike API-toegang vir Grok 3 en sy mini-versie gekry.

So vandag weet ons dit is duur en beslis nie die absolute beste nie.


Maar hou op, daar is nog meer aan die storie.


Die model is interessant en die moeite werd om te kyk.En jy moet dit aan hulle oordra, Elon en xAI het vinnig in die mark gespring, wat 'n sleutelspeler in rekord tyd geword het.

1 – Die Hardware

Die groot storie hier?


In 2024 het xAI 'n massiewe rekenaarkluster gebou.Ons praat van 100,000 Nvidia H100-GPU's wat in net 4 maande gewerk het.


Nvidia se CEO, Jensen Huang, verwys dit neem gewoonlik ongeveer 4 jaar.


Dit was 'n massiewe tegniese prestasie.En hierdie keer, geen grappige besigheid - dit is die grootste datasentrum in die wêreld.Niemand anders het daarin geslaag om soveel GPU's op een plek te koppel nie.


Gewoonlik is sulke clusters verskeie gereelde datacenters wat verbind word deur duur Infiniband-kabels.Tydens opleiding moet hierdie sentrums voortdurend tonne data ruil.As die verbinding stadig is, sit daardie duur GPU's leeg, wat slegte nuus is.


'N Tipiese datasentrum kan 10,000-20,000 GPU's hê, wat 20-30 megawatt van krag absorbeer. Byvoorbeeld, Microsoft (vir OpenAI) bedryf 100k GPU's netwerk in Arizona, en Meta hardloop 128k.

Sien die twee H-vormige geboue? Dit is twee standaard Meta datacenters langs mekaar.


Die kragbehoefte vir topklusters het sedert 2022 tot 10x ontploff. Ons praat nou oor 150 MW per klusters. Dit is soos om 'n klein stad te voed. Dit skep 'n groot las op regionale kragnette. In sommige plekke is dit eintlik goedkoper om die krag te genereer as om dit te lewer omdat daar nie genoeg kraglynne is nie.


So, Elon betree hierdie mark agteruit. En ... doen die "Elon ding." Haat sy tweets al wat jy wil, die man weet hoe om fabrieke te bou soos niemand anders nie.


Hy het 'n ou Electrolux-fabriek in Memphis gekoop en besluit om een reuse datacentrum te bou in plaas van 'n netwerk soos almal anders.


Voorspelbaar het krag 'n kwessie geword.


Die fabriek het slegs 7 MW van die plaaslike netwerk gehad - genoeg vir slegs 4000 GPU's. Die plaaslike nutbedryf, die Tennessee Valley Authority, het nog 50 MW belowe, maar nie tot Augustus nie.


Maar wag is nie Musk se styl nie.


Dylan Patel (van Semianalysis) spotted via satellietbeelde dat Elon net in 14 massiewe mobiele diesel generators van VoltaGrid gebring het. Hook hulle tot 4 mobiele onderstasies en die datasentrum aangedryf het. Letterlik in elektrisiteit.

Patel het gesê hulle kon 30% van die hele Amerikaanse mark vir hierdie generators gekoop het (hoewel ek niks daarop kon vind nie).


Dit is indrukwekkend dat die datacentrum ook vloeibare koeling gebruik. Slegs Google het dit voorheen op 'n groot skaal gedoen.Dit is 'n groot saak omdat die volgende generasie Nvidia-chips, die Blackwell B200's, vloeibare koeling benodig.


Jy kan kyk na die eerste paar minute van hierdie video om te sien hoe dit lyk binne. ek het 'n chuckle uit hoe hype die man is oor grys bokse en kabels:

Dit is ernstig koel ingenieurswese - kyk net na die kabelbestuur.


Niemand het so groot werk in so kort tyd gedoen nie.

2 – Nog meer hardware!


Elon sê by die somer van 2025 sal hulle 'n 300k GPU-kluster met Blackwell B200-chips hê. Gegewe Musk se gewoonte om te oordryf, laat ons sê dit is realisties ergens tussen 200-400k nuwe chips by die einde van 2025.


Musk beplan selfs om 'n toegewyde 2.2 GW kragstroom te bou. dat is meer krag as wat 'n middelgrote stad verbruik.


En hy is nie alleen nie—al die groot spelers doen iets soortgelyks:


  • Meta bou twee gasstasies in Louisiana.
  • OpenAI/Microsoft stel iets soortgelyks in Texas op.
  • Amazon en Google bou ook gigawatt-skale datasentrums.


Waarom nie kernkrag nie? Dit het die krag, maar die konstruksie van 'n kernreeks neem te lank. Jy kan nie net in 'n jaar langs jou data-sentrum opkom nie. Wind- en sonfarms plus batterye is veelbelovend, maar hulle neem ook te lank om op die benodigde skaal te implementeer.


As gevolg hiervan het beide Microsoft en Meta reeds op hul groen hernubare energie beloftes teruggekeer. Hulle het hul rug gebreek en Moloch na die hemel opgehef!

3 – Grok 3 is groot

So, Elon het hierdie massiewe, duur boks gebou.


Beskattings dui daarop dat Grok 2 op ~20k H100's opgelei is, terwyl Grok 3 meer as 100k gebruik het.


Grok 2 het ongeveer twee keer die rekenaar krag wat daarop gegooi word in vergelyking met GPT-4. En Grok 3 het vyf keer meer as Grok 2. Google se Gemini 2.0 het waarskynlik 'n soortgelyke hoeveelheid hardeware gebruik (100k van hul eie TPUv6-chips), maar die model self is waarskynlik kleiner.



Basically, the total compute cost for Grok 3 is 'n orde van magnitude (10 keer!) hoër as sy naaste mededinger. Ongelukkig, ons het nie openbare data vir GPT-4.5 of Gemini 2.5.


So hulle gegooi gek hoeveelheid hulpbronne in die bou van hierdie mega-cluster, en die resulterende model is ... net op gelyk aan die huidige.


Dit lyk asof xAI se kundigheid in opleiding steeds agter OpenAI, Google, of Anthropic is. Hulle het in wese brute-verpligte hul pad na die boonste vlak. Geen magiese truuks getoon, net: "As brute krag nie jou probleem oplos nie, gebruik jy nie genoeg daarvan nie."

Maar daar is 'n vang met daardie benadering. Epoch AI skatting dat oor die afgelope dekade, algoritmiese verbeterings verteenwoordig ongeveer 'n derde van die vooruitgang in model vermoëns.


Bruto krag het hierdie keer vir Grok 3 gewerk, maar die koste sal eksponensieel groei terwyl dit minder en minder verbetering lewer. En xAI moet op die algoritme kant vang. Die goeie nuus is dat hulle nou gesien word as die dryf van die grens, so dit sal waarskynlik baie makliker wees om toptalente aan te trek.

4 – Wat is goed oor Grok?

  1. Dit is heeltemal gratis (waarskynlik tot die volle vrylating).


En sonder die strakke limiete van Anthropic, die onderbrekings van DeepSeek, of die betaalde vlakke van OpenAI.


Selfs met al die nuwe modelle wat in die afgelope paar maande gedaal is, hou Grok nog steeds sy eie naby die top van die Chatbot Arena leibord.


Ons het nou ook 'n onafhanklike benchmarking deur EpochAI:

En deur LiveBench:

  1. Wysig en diep navorsingsmodus


Terug in Februarie was die gratis Deep Research funksie meestal Perplexity eksklusief. Nou bied Google en OpenAI 'n paar in 'n basiese vlak - miskien het Grok hulle gedryf?


Hierdie modus analiseer outomaties 30-100 skakels (Google kan meer doen) in minute en spuit 'n gedetailleerde (en opgeblaasde) opsomming uit wat jy net nodig het om te skim en feit-kontroleer.


  1. Integrasie met X


Dit kan sy moordenaar funksie wees: semantiese soektog nie net vir sleutelwoorde nie, maar vir wat jy bedoel het.


Twitter is die naaste aan 'n real-time inligting platform, so dit is geweldig.Maar tot dusver is Grok dikwels agter, wat data van die laaste paar dae in plaas daarvan trek.



En vir die groot finale, die 18+-modus. Grok is berugte maklik om sonder baie moeite te jailbreek. Jy kan dit doen ... nou, wat jy wil, van flirtende stemme tot twyfelagtige resepte.

Luister na die einde, dit is grappig!


Ironies, Grok self lyk nie dat hy Musk (of Trump) in hoë respek hou nie. Toe dit uitkom, het xAI 'n oplossing probeer - letterlik hardkodeer 'n reël wat Grok nie Elon kon kritiseer nie.


Die werklike probleem is dat Grok se menings net 'n weerspieël van sy opleiding data (dws, die internet), nie 'n opsetlike vooroordeel.

5 - Moet jy dit beter probeer?

Probeer dit beslis, maar as jou tweede piloot.


Wysig:

  • Kos meer om te oefen as mededingers se modelle.

  • Ondanks dit is prestasie byna op gelyk aan die beste.

  • Maar dit is super vinnig en gratis (voor die oomblik).

  • Die Deep Research-modus is werklik nuttig—probeer dit as jy dit nie het nie.

  • More geneig tot hallusinasies en spring te vinnig tot gevolgtrekkings.

    Die antwoorde is gewoonlik goed gestruktureer maar voel dikwels opgeblaas.

    U> toegang tot Twitter-data.

    <

    xAI het getoon dat dit in staat is om wêreldklas infrastruktuur te bou met ongekende spoed.Maar in werklike AI-vermoëns, koop hulle basies hul weg na die top met suiwer berekening krag.


    Dit voeg nog 'n sterk speler by wat druk op OpenAI, Google en Anthropic, wat die AI-bedryf na kommoditisering stoot.


    Het jy daarvan geniet? Gee 'n opvoet of abonnee op my nuusbrief. Ek waardeer dit!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks