Nová historie

xAI Grok 3: Všechny GPU, žádné průlomy

podle Leo Khomenko8m2025/04/17
Read on Terminal Reader

Příliš dlouho; Číst

Elon tvrdil, že Grok 3 je nejlepší AI na světě.Dva měsíce později, jak to opravdu stahuje proti GPT-4o, Claude 3.7 a Gemini 2.5?
featured image - xAI Grok 3: Všechny GPU, žádné průlomy
Leo Khomenko HackerNoon profile picture

Na konci února Elon představil svůj nejnovější model. Samozřejmě, že to bylo "nejlepší na světě."


Je to opravdu nejchytřejší AI na Zemi?


Jak obvykle, Musk přinesl hype vlak. Ale nebylo tam mnoho objektivních dat na startu. xAI krátký blog post zmínil, že to bylo stále v beta a modely byly aktivně trénovat.


Bleskali některé referenční hodnoty ukazující Grok 3 dopředu. nicméně, nedali přístup k API. což je důležité, protože nezávislé referenční hodnoty ji používají pro hodnocení.


Takže Elon tvrdí, že Grok 3 je „příliš chytrý“ a porazí všechno ostatní.


A ty referenční hodnoty? podívejte se:

Podívejte se, že světlejší oblast vpravo? To je podnět Grok dostal tím, že má více výpočetní síly (test-time výpočet), aby se více konzistentní odpovědi.


Pravděpodobně víte, že modely AI často dávají pokaždé mírně odlišné odpovědi – někdy lepší, někdy horší.Většina referenčních hodnot ignoruje tuto variabilitu a hodnotí pouze první odpověď (pass@1). Je to jednodušší a odpovídá tomu, jak skutečně používáme AI – očekáváme dobrou odpověď na první pokus.

Ale výsledky Groku byly všechny zobrazeny pomocí cons@64. To znamená, že získalo 64 pokusů pro každou otázku a vybralo nejčastější odpověď.


Takže na jedné straně tvrdí, že je to model nové generace.Na druhé straně používají poměrně levné triky.


Abychom byli spravedliví, v tak konkurenčním poli všechny laboratoře ohýbají pravidla.Vyberou referenční hodnoty nebo z porovnání vyloučí silnější modely – ale zřídka tak zřetelně.

Dobře, referenční hodnoty stranou. Co říkají zkušení uživatelé po skutečném použití?


Model je obrovský, ale nepřinesl průlom. Stále halucinuje a má sklon k příliš dlouhým reakcím.


Z hlediska výkonu přistává Grok 3 někde poblíž nejlepších modelů OpenAI, možná o něco lépe než DeepSeek a Google v době vydání.



O dva měsíce později však dorazily Gemini 2.5, Claude 3.7 a nový GPT-4o. Konečně jsme také získali částečný přístup k API pro Grok 3 a jeho mini verzi.

Takže dnes víme, že je to drahé a rozhodně není to nejlepší.


Ale drž se dál, k příběhu je ještě víc.


A musíte jim to předat, Elon a xAI rychle vstoupili na trh a stali se klíčovým hráčem v rekordním čase.


1 – Hardwarové zařízení

Je to velký příběh tady?


V roce 2024 xAI vybudoval masivní výpočetní klastr. Hovoříme o 100 000 GPU Nvidia H100 a běží za pouhé 4 měsíce.


CEO společnosti Nvidia, Jensen Huang, uvedl to obvykle trvá asi 4 roky.


Bylo to masivní inženýrské úspěch.A tentokrát, žádné legrační podnikání – je to největší datové centrum na světě.Nikdo jiný se nepodařilo propojit tolik GPU na jednom místě.


Typicky se jedná o více pravidelných datových center propojených drahými kabely Infiniband.Během školení musí tato centra neustále vyměňovat tuny dat.Pokud je připojení pomalé, ty drahé GPU sedí prázdné, což je špatná zpráva.


Typické datové centrum by mohlo mít 10 000 až 20 000 GPU, které nasávají 20-30 megawattů napájení. Například Microsoft (pro OpenAI) provozuje síť 100 000 GPU v Arizoně a Meta běží 128 000.

Podívejte se na dvě budovy ve tvaru H? To jsou dvě standardní datová centra Meta vedle sebe.


Potřeba elektřiny pro klastry nejvyšší úrovně od roku 2022 explodovala až 10x.Mluvíme nyní o 150 MW na klastr. To je jako napájení malého města.To vytváří obrovskou zátěž na regionální elektrické sítě.Na některých místech je ve skutečnosti levnější generovat elektřinu než ji dodávat, protože není dostatek elektrických vedení.


Takže Elon vstupuje na tento trh zpět. A... dělá „Elon věc.“ Nenávidíte jeho tweety, co chcete, ten člověk ví, jak stavět továrny jako nikdo jiný.


Koupil starou továrnu Electrolux v Memphisu a rozhodl se postavit jedno obrovské datové centrum namísto sítě jako každý jiný.


Předvídatelně se moc stala problémem.


Závod měl pouze 7 MW z místní sítě – dost na pouhých 4 000 GPU.Místní úřad Tennessee Valley Authority slíbil dalších 50 MW, ale ne až do srpna.


Ale čekání není Muskovým stylem.


Dylan Patel (z Semianalysis) spotted prostřednictvím satelitních snímků, že Elon právě přinesl 14 masivních mobilních dieselových generátorů z VoltaGrid. Připojil je na 4 mobilní podstavce a napájal datové centrum. Doslova kamion v elektřině.

Patel zmínil, že mohli koupit 30% celého amerického trhu pro tyto generátory (i když jsem na tom nic nenašel).


Zajímavé je, že datové centrum také používá kapalné chlazení. Pouze Google to dříve skutečně dělal v rozsahu. To je velká věc, protože příští generace čipů Nvidie, Blackwell B200s, vyžaduje kapalné chlazení.


Můžete se podívat na prvních pár minut tohoto videa, abyste viděli, jak to vypadá uvnitř.

Je to vážně cool inženýrství – jen se podívejte na řízení kabelů.


Za tak krátkou dobu nikdo tak masivní práci neudělal.

2 – Ještě více hardwaru!


Elon říká, že do léta 2025 budou mít 300k GPU s čipy Blackwell B200. vzhledem k Muskovému zvyku přehánět, řekněme, že je to realisticky někde mezi 200-400k novými čipy do konce roku 2025.


Musk dokonce plánuje postavit speciální elektrárnu o výkonu 2,2 GW, což je více energie, než spotřebuje střední město.


A není sám – všichni velcí hráči dělají něco podobného:



  • Meta staví dvě plynáren v Louisianě.
  • OpenAI/Microsoft zřizuje něco podobného v Texasu.
  • Amazon a Google také staví datová centra v měřítku gigawattů.

  • Proč ne jaderné? má sílu, ale výstavba jaderné elektrárny trvá příliš dlouho.Nemůžete jen vyskakovat vedle datového centra za rok.Větrné a solární farmy plus baterie jsou slibné, ale také trvají příliš dlouho na nasazení v požadovaném měřítku.


    V důsledku toho se obě společnosti Microsoft a Meta již musely vrátit zpět ke svým slibům zelené obnovitelné energie. Zlomili si záda a pozvedli Molocha do nebe!

    3 – Grok 3 je obrovský

    Takže Elon postavil tuto masivní, drahou krabici.


    Odhady naznačují, že Grok 2 byl trénován na ~20k H100s, zatímco Grok 3 použil více než 100k.


    A Grok 3 dostal pětkrát více než Grok 2. Google Gemini 2.0 pravděpodobně použil podobné množství hardwaru (100 000 jejich vlastních TPUv6 čipů), ale samotný model je pravděpodobně menší.



    V podstatě je celková výpočetní cena počítačové náklady pro Grok 3 je v řádu velikosti (10 krát!) vyšší než jeho nejbližší konkurent. Bohužel nemáme žádné veřejné údaje pro GPT-4.5 nebo Gemini 2.5.


    Takže do budování tohoto mega-klusteru nalili šílené množství zdrojů a výsledný model je... jen na stejné úrovni jako stávající.


    Zdá se, že odborné znalosti xAI v oblasti školení stále zaostávají za OpenAI, Google nebo Anthropic. V podstatě brutálně donutili svou cestu do nejvyšší úrovně. Žádné magické triky ukázaly, jen: "Pokud brutální síla neřeší váš problém, nepoužíváte toho dost."

    Epoch AI odhaduje, že během posledního desetiletí představovaly algoritmické vylepšení zhruba třetinu pokroku ve schopnostech modelování.


    Brutální síla pracovala pro Grok 3 tentokrát, ale náklady budou růst exponenciálně a přinášet méně a méně zlepšení. a xAI potřebují chytit na straně algoritmu.

    4 – Co je dobré o Groku?

    1. Je zcela zdarma (pravděpodobně až do úplného uvolnění).


    A bez těsných limitů společnosti Anthropic, výpadků společnosti DeepSeek nebo placených úrovní společnosti OpenAI.


    I když všechny nové modely v posledních několika měsících klesly, Grok stále drží své vlastní blízko horní části Chatbot Arena leaderboard.


    Nyní máme také nezávislé vyhodnocení podle EpochAI:

    A podle LiveBench:

    1. Reasoning & Deep Research Mode


    V únoru byla bezplatná funkce Deep Research převážně exkluzivní pro Perplexity.Nyní Google a OpenAI nabízejí některé základní úrovně – možná je Grok tlačil?


    Tento režim automaticky analyzuje 30 až 100 odkazů (Google může udělat více) během několika minut a vypustí podrobné (a nafouklé) shrnutí, které stačí skimovat a zkontrolovat fakty.Je to mnohem jednodušší než zkoumat cokoliv od začátku.Zjistil jsem, že verze Groku funguje rychleji než ostatní, takže jsem ji začal používat, když potřebuji něco zkoumat.


    1. Integrace s X


    To by mohlo být jeho zabiják funkce: sémantické vyhledávání nejen pro klíčová slova, ale pro to, co jste si mysleli.Můžete také požádat, aby shrnout příspěvky na téma sledovat trendy.


    Twitter je nejblíže k informační platformě v reálném čase, takže je to skvělé.


    1. Nevhodné informace


    A pro velké finále, režim 18+. Grok je notoricky snadné jailbreak bez velkého úsilí. Můžete to udělat... no, cokoliv byste mohli chtít, od flirtujících hlasů až po pochybné recepty. Příklady hlasového režimu jsou určitě divoké.

    Slyšte do konce, je to zábavné!


    Ironicky, Grok sám se nezdá mít Muska (nebo Trumpa) ve vysoké úctě.Když se to stalo, xAI se pokusil opravit - doslova tvrdě kódovat pravidlo, že Grok nemohl kritizovat Elona.


    Skutečným problémem je, že názory Groka jsou pouze odrazem jeho vzdělávacích dat (tj. Internetu), nikoliv nějakým úmyslným předsudkem.

    5 - Měli byste se bát to zkusit?

    Určitě to zkuste, ale jako váš druhý pilot.


    ČSN ČR:

    • Cestuje mnohem víc než konkurenční modely.

    • Navzdory tomu je výkon téměř na stejné úrovni jako ten nejlepší.

    • Ale je to super rychlé a zdarma (prozatím).

    • Režim hlubokého výzkumu je skutečně užitečný – zkuste to, pokud to neuděláte.

    • Více náchylný k halucinacím a přeskakování k závěrům příliš rychle.

      Odpovědi jsou obvykle dobře strukturované, ale často se cítí nafouklé.

      U> přístup k

      xAI se ukázalo jako schopné budovat infrastrukturu světové třídy s bezprecedentní rychlostí, ale ve skutečných schopnostech umělé inteligence si v podstatě kupují cestu na vrchol s čistou výpočetní silou.


      Toto přidává dalšího silného hráče, který tlačí na OpenAI, Google a Anthropic, tlačí průmysl AI směrem k komoditizaci.


      To se vám líbilo? Přihlaste se nebo se přihláste k odběru můj newsletter. Moc bych to ocenil!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks