1,708 čtení
1,708 čtení

xAI Grok 3: Všechny GPU, žádné průlomy

podle Leo Khomenko8m2025/04/17
Read on Terminal Reader

Příliš dlouho; Číst

Elon tvrdil, že Grok 3 je nejlepší AI na světě.Dva měsíce později, jak to opravdu stahuje proti GPT-4o, Claude 3.7 a Gemini 2.5?
featured image - xAI Grok 3: Všechny GPU, žádné průlomy
Leo Khomenko HackerNoon profile picture

At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."


Je to opravdu nejchytřejší AI na Zemi?


Jako obvykle, Musk přinesl hype vlak. ale nebylo mnoho objektivních údajů na startu.Blogový článekByla to beta verze a modelky se aktivně trénovaly.


Některé referenční hodnoty ukázaly Grok 3 dopředu. Nicméně, nedali přístup k API. což je důležité, protože nezávislé referenční hodnoty ji používají pro hodnocení.


Takže Elon tvrdí, že Grok 3 je "příliš chytrý" a porazí všechno ostatní.


A jaké jsou tyto referenční hodnoty? podívejte se:

Vidět, že lehčí oblast na pravé straně? To je podnět Grok dostal tím, že má více výpočetní síly (test-time výpočetní) získat konzistentnější odpovědi.


Pravděpodobně víte, že modely AI často dávají pokaždé poněkud odlišné odpovědi – někdy lepší, někdy horší.Většina referenčních bodů tuto variabilitu ignoruje a hodnotí pouze první odpověď (pass@1).

To znamená, že měl 64 pokusů pro každou otázku a vybral nejčastější odpověď. poté, xAI porovnal, že zvýšené skóre proti pas@1 skóre konkurentů.


Takže na jedné straně tvrdí, že je to model nové generace, na druhé straně používají poměrně levné triky.


Chcete-li být spravedliví, v takovém konkurenčním poli, všechny laboratoře ohýbat pravidla. vyberou referenční hodnoty nebo vyloučit silnější modely z porovnání - ale zřídka tak zřetelně.

Co říkají zkušení uživatelé po skutečném použití? Obecný konsensus je:


Model je obrovský, ale nepřinesl průlom. Stále halucinuje a má sklon k příliš dlouhým reakcím.


Z hlediska výkonu přistává Grok 3 někde poblíž špičkových modelů OpenAI, možná o něco lépe než DeepSeek a Google v době vydání.


O dva měsíce později však dorazili Gemini 2.5, Claude 3.7 a nový GPT-4o. Konečně jsme také získali částečný přístup k API pro Grok 3 a jeho mini verzi.

Takže dnes víme, že je to drahé a rozhodně není to nejlepší.


Ale drž se dál, příběhu je ještě víc.


A musíte jim to předat, Elon a xAI rychle vstoupili na trh a stali se klíčovým hráčem v rekordním čase.

1 – Hardware

Velký příběh tady?


V roce 2024 xAI vybudoval masivní výpočetní klastr. Hovoříme o 100 000 GPU Nvidia H100 a běží za pouhé 4 měsíce.


Generální ředitel NVIDIA Jensen Huang.zmíněnéTo obvykle trvá asi 4 roky.


A tentokrát, žádné legrační podnikání – je to největší datové centrum na světě.


Obvykle se jedná o více pravidelných datových center propojených drahými kabely Infiniband. Během školení musí tato centra neustále vyměňovat tuny dat. Pokud je připojení pomalé, ty drahé GPU sedí prázdné, což je špatná zpráva.


Typické datové centrum by mohlo mít 10 000 až 20 000 GPU, které nasávají 20-30 megawattů výkonu.NapříkladMicrosoft (pro OpenAI) provozuje síť 100 000 GPU v Arizoně a Meta běží 128 000.

Podívejte se na dvě budovy ve tvaru H. To jsou dvě standardní datová centra Meta vedle sebe.


Potřeba elektřiny pro klastry nejvyšší úrovně od roku 2022 explodovala až 10x.Mluvíme nyní o 150 MW na klastr.To je jako napájení malého města.To vytváří obrovské zatížení regionálních elektrických sítí.Na některých místech je ve skutečnosti levnější generovat elektřinu než ji dodávat, protože není dostatek elektrických vedení.


A... dělá „Elon věc.“ Nenávidíte jeho tweety, co chcete, ten člověk ví, jak stavět továrny jako nikdo jiný.


He bought an old Electrolux factory in Memphis and decided to build one giant data center instead of a network like everyone else.


Předvídatelně se moc stala otázkou.


Továrna měla pouze 7 MW z místní sítě – dost na pouhých 4 000 GPU.Místní úřad Tennessee Valley Authority slíbil dalších 50 MW, ale ne až do srpna.


Ale čekání není Muskovým stylem.


Dylan Patel (z poloanalýzy)spatřilprostřednictvím satelitních snímků, které Elon právě přinesl 14 masivních mobilních dieselových generátorů z VoltaGrid. Připojil je až na 4 mobilní podstavce a napájel datové centrum.

Patel uvedl, že mohli koupit 30% celého amerického trhu pro tyto generátory (i když jsem na tom nic nenašel).


Překvapivě, datové centrum také používá kapalné chlazení. Pouze Google to skutečně udělal v měřítku dříve. To je velká věc, protože příští generace čipů Nvidie, Blackwell B200s, vyžaduje kapalné chlazení.


Můžete se podívat na prvních pár minut tohoto videa, abyste viděli, jak to vypadá uvnitř.

Je to vážně cool inženýrství - jen se podívejte na řízení kabelů.


Nikdo za tak krátkou dobu nedělal tak velkou práci.

2 – Ještě více hardwaru!


Elon říká, že do léta 2025 budou mít 300k GPU s čipy Blackwell B200. vzhledem k Muskovému zvyku přehánět, řekněme, že je to realisticky někde mezi 200-400k novými čipy do konce roku 2025.


Musk dokonce plánuje postavit dedikovanou elektrárnu o výkonu 2,2 GW, což je více energie, než spotřebuje střední město.


And he's not alone—all the big players are doing something similar:


    se
  • Meta staví dvě plynárenství v Louisianě.
  • se
  • OpenAI/Microsoft vytváří něco podobného v Texasu.
  • se
  • Amazon a Google také staví gigavatová datová centra.
  • se


Proč ne jaderné? má sílu, ale výstavba jaderné elektrárny trvá příliš dlouho. Nemůžete jen vyskakovat vedle vašeho datového centra za rok. Větrné a solární farmy plus baterie jsou slibné, ale také trvají příliš dlouho na nasazení v potřebném měřítku.


Výsledkem je, že jak Microsoft, tak Meta již musely ustoupit od svých slibů zelené obnovitelné energie.They broke their backs lifting Moloch to Heaven!

Grok 3 je obrovský

Takže Elon postavil tuto masivní, drahou krabici.


Odhady naznačují, že Grok 2 trénoval na ~20k H100s, zatímco Grok 3 používal více než 100k. Pro kontext, GPT-4 trénoval asi 90-100 dní na ~25k starších čipů A100, s H100 přibližně 2,25x rychlejší.


A Grok 3 dostal pětkrát více než Grok 2. Google Gemini 2.0 pravděpodobně použil podobné množství hardwaru (100k jejich vlastních TPUv6 čipů), ale samotný model je pravděpodobně menší.


Obecně platí, že celkovýPočítačové nákladypro Grok 3 je velikostní řád (10 krát!) vyšší než jeho nejbližší konkurent. Bohužel nemáme veřejné údaje pro GPT-4.5 nebo Gemini 2.5.


Takže do budování tohoto mega-klusteru nalili šílené množství zdrojů a výsledný model je... jen na stejné úrovni jako stávající.


Zdá se, že odborné znalosti xAI v oblasti školení stále zaostávají za OpenAI, Google nebo Anthropic. V podstatě brutálně donutili svou cestu do nejvyšší úrovně. Žádné magické triky ukázaly, jen: "Pokud brutální síla neřeší váš problém, nepoužíváte toho dost."

Ale je tu úlovek s tímto přístupem. Epoch AIOdhadyV průběhu posledního desetiletí představovaly algoritmické vylepšení zhruba třetinu pokroku ve schopnostech modelů, zatímco zbývající dvě třetiny pocházely z toho, že se na větší modely hodilo více hardwaru a dat.


Brutální síla pracovala pro Grok 3 tentokrát, ale náklady budou růst exponenciálně, zatímco přináší méně a méně zlepšení. a xAI potřebují chytit na straně algoritmu.

4 – Co je dobré o Groku?

    se
  1. Je zcela zdarma (pravděpodobně až do úplného uvolnění).
  2. se


A bez těsných limitů společnosti Anthropic, výpadků společnosti DeepSeek nebo placených úrovní OpenAI.


I se všemi novými modely v posledních několika měsících, Grok stále drží své vlastní blízko na vrcholuChatbot Arénavedoucího panelu.


Nyní máme také nezávislý benchmarkingEpochy• :

a odLiveBench• :

    se
  1. Reasoning a hluboký výzkum
  2. se

V únoru byla volná funkce hlubokého výzkumu převážně exkluzivní pro Perplexity.Nyní Google a OpenAI nabízejí některé základní úrovně - možná je Grok tlačil?


Tento režim automaticky analyzuje 30-100 odkazů (Google může udělat více) během několika minut a vypustí podrobné (a nafouklé) shrnutí, které stačí skim a zkontrolovat fakty.Je to mnohem jednodušší než výzkum cokoliv od začátku.Zjistil jsem, že Grokova verze funguje rychleji než ostatní, takže jsem ji začal používat, když potřebuji něco zkoumat.


    se
  1. Integrace s X
  2. se

To by mohlo být jeho vražednou funkcí: sémantické vyhledávání nejen pro klíčová slova, ale pro to, co jste si mysleli.Můžete jej také požádat, aby shrnul příspěvky na téma, aby sledoval trendy.


Twitter je nejblíže k informační platformě v reálném čase, takže je to skvělé, ale zatím Grok často zaostává, místo toho čerpá data z posledních několika dnů.


    se
  1. Nefiltrované věci
  2. se

A pro velké finále, režim 18+. Grok je notoricky snadné jailbreak bez velkého úsilí. Můžete to udělat ... no, cokoliv byste mohli chtít, od flirtujících hlasů až po pochybné recepty. Příklady hlasového režimu jsou určitě divoké.

Poslouchejte až do konce, je to zábavné!


Ironicky, Grok sám se nezdá mít Muska (nebo Trumpa) ve vysoké úctě.Když se to stalo, xAI se pokusil opravit - doslova tvrdě kódovat pravidlo, které Grok nemohl kritizovat Elona.Když to explodovalo, obvinili bývalého zaměstnance OpenAI, že "nehodí se do firemní kultury."


Skutečným problémem je, že názory Groka jsou pouze odrazem jeho vzdělávacích dat (tj. Internetu), nikoliv nějakým úmyslným předsudkem.

5 - Měli byste se odvážit to zkusit?

Rozhodně to zkuste, ale jako váš druhý pilot.


Třeba TLDR:

    se
  • Náklady jsou mnohem vyšší než u konkurenčních modelů.
  • se
  • Výkon je téměř na úrovni těch nejlepších.
  • se
  • Ale je to super rychlé a zdarma (prozatím).
  • se
  • Režim hlubokého výzkumu je opravdu užitečný – zkuste to, pokud ne.
  • se
  • Větší náchylnost k halucinacím a přeskakování k závěrům příliš rychle.
  • se
  • Odpovědi jsou obvykle dobře strukturované, ale často se cítí nafouklé.
  • se
  • Jedinečný přístup k datům Twitteru.
  • se

xAI se ukázalo jako schopné budovat infrastrukturu světové třídy s bezprecedentní rychlostí, ale ve skutečných schopnostech umělé inteligence si v podstatě kupují cestu na vrchol s čistou výpočetní silou.


To přidává další silný hráč, který tlačí na OpenAI, Google a Anthropic, tlačí průmysl AI směrem k komoditizaci.


Líbilo se vám to? Přihlaste se nebo přihlaste seMůj newsletterJá bych to ocenil!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks