At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Vai tas tiešām ir gudrākais AI uz Zemes?
Kā parasti, Musks atnesa hype vilcienu. bet izlaišanas laikā nebija daudz objektīvu datu. xAI īssBlog PostsAtgādinām, ka tas joprojām ir beta versijā, un modeļi aktīvi apmācās.
Viņi mirdzēja dažus kritērijus, kas parādīja Grok 3 uz priekšu. Tomēr viņi nedod piekļuvi API, kas ir svarīgi, jo neatkarīgi kritēriji to izmanto novērtēšanai.
Tātad, Elons apgalvo, ka Grok 3 ir "gandrīz gudrs" un pārspēj visu pārējo. bet vienīgie veidi, kā pārbaudīt, bija tērzēt ar to pats vai apskatīt savus kritērijus.
Un kādi ir šie kritēriji? paskatīsimies:
Redzēt, ka vieglāks apgabals labajā pusē? Tas ir stimuls Grok ieguva, kam ir daudz lielāka aprēķina jauda (testēšanas laika aprēķins), lai iegūtu konsekventākas atbildes.
Jūs droši vien zināt, ka AI modeļi katru reizi bieži sniedz nedaudz atšķirīgas atbildes - dažreiz labāk, dažreiz sliktāk.Lielākā daļa kritēriju ignorē šo mainīgumu, novērtējot tikai pirmo atbildi (pass@1).
Bet Groka rezultāti visi tika parādīti, izmantojot cons@64. Tas nozīmē, ka katram jautājumam tika veikti 64 mēģinājumi un tika izvēlēta visbiežāk sastopamā atbilde.
Tātad, no vienas puses, viņi apgalvo, ka tas ir nākamās paaudzes modelis, no otras puses, viņi izmanto diezgan lētus trikus.
Lai būtu godīgi, šādā konkurētspējīgā jomā visas laboratorijas saliek noteikumus, izvēloties kritērijus vai izslēdzot spēcīgākus modeļus no salīdzinājumiem, bet reti tik atklāti.
Kas ir pieredzējuši lietotāji saka pēc faktiskās lietošanas?
Modelis ir milzīgs, bet nav devis pārsteigumus. tas joprojām halucinē un tendē uz pārāk ilgu reakciju.
No veiktspējas viedokļa Grok 3 nokrīt kaut kur tuvu OpenAI modeļiem, varbūt nedaudz labāk nekā DeepSeek un Google lietas izlaišanas brīdī.
Tomēr divus mēnešus vēlāk ieradās Gemini 2.5, Claude 3.7 un jaunais GPT-4o. Mums beidzot arī bija daļēja API piekļuve Grok 3 un tā mini versijai. Diemžēl tikai mini versija saņēma domāšanas režīmu API.
Tātad šodien mēs zinām, ka tas ir dārgs un noteikti nav absolūts labākais.
Bet palieciet, stāstam vēl ir vairāk.
Un jums ir jānodod viņiem, Elons un xAI ātri iekāpa tirgū, kļūstot par galveno spēlētāju rekordālos laikos.
1 - aparatūra
Lielais stāsts šeit?
2024. gadā xAI uzcēla masveida skaitļošanas klāstu. Mēs runājam par 100 000 Nvidia H100 GPU uzstādīšanu un darbību tikai 4 mēnešos.
NVIDIA ģenerāldirektors Jensen Huang.MinētaisParasti tas aizņem apmēram 4 gadus.
Un šoreiz, nav smieklīgi bizness – tas ir lielākais datu centrs pasaulē. neviens cits nav izdevies savienot tik daudz GPU vienā vietā.
Parasti šādi klasteri ir vairāki regulāri datu centri, kas savienoti ar dārgiem Infiniband kabeļiem. Apmācības laikā šiem centriem ir nepieciešams pastāvīgi apmainīties ar tonnām datu.
Tipiskam datu centram varētu būt 10 000-20 000 GPU, absorbējot 20-30 megawattus jaudas.PiemēramMicrosoft (OpenAI) darbojas 100k GPU tīklu Arizona, un Meta darbojas 128k.
Redzēt divas H-veida ēkas? Tas ir divi standarta Meta datu centri blakus viens otram.
Kopš 2022. gada elektroenerģijas pieprasījums augsta līmeņa klasteriem ir palielinājies līdz pat 10 reizēm.Mēs tagad runājam par aptuveni 150 MW vienā klasterī.Tas ir tāpat kā maza pilsēta.Tas rada milzīgu slodzi reģionālajiem elektroenerģijas tīkliem.Dažās vietās faktiski ir lētāk ģenerēt elektroenerģiju nekā piegādāt to, jo nav pietiekami daudz elektroenerģijas līniju.
Tātad, Elons nonāk šajā tirgū aizmugurē. un... dara "Elon lieta." ienīst savus tweets visu, ko vēlaties, cilvēks zina, kā veidot rūpnīcas, kā neviens cits.
Viņš nopirka veco Electrolux rūpnīcu Memphisā un nolēma būvēt vienu milzīgu datu centru, nevis tīklu, kā visi pārējie.
Iespējams, ka spēks kļuva par problēmu.
Rūpnīcai bija tikai 7 MW no vietējā tīkla - pietiekami, lai izveidotu tikai 4000 GPU. Vietējais pakalpojums, Tennessee Valley Authority, solīja vēl 50 MW, bet ne līdz augustam.
Bet gaidīšana nav Muska stils.
Dylan Patel (no pusanalīzes)Ieraudzījacaur satelīta attēliem, ka Elons tikko ieveda 14 masveida mobilo dīzeļdzinēju ģeneratorus no VoltaGrid. piestiprināja tos līdz 4 mobilo apakšstacijām un darbināja datu centru.
Patels minēja, ka viņi varētu iegādāties 30% no visa ASV tirgus šiem ģeneratoriem (lai gan es nevarēju atrast neko par to).
Pārsteidzoši, ka datu centrs izmanto arī šķidro dzesēšanu. Tikai Google to ir paveicis agrāk mērogā. Tas ir liels darījums, jo nākamās paaudzes Nvidia mikroshēmām, Blackwell B200, būs nepieciešama šķidra dzesēšana. Visiem pārējiem būs jāpārveido esošie datu centri.
Jūs varat pārbaudīt pirmās dažas minūtes no šī video, lai redzētu, kā tas izskatās iekšā. es saņēmu smiekli par to, cik hyped puisis ir par pelēkām kastēm un kabeļiem:
Tas ir nopietni atdzist inženierija - vienkārši paskatieties uz kabeļu pārvaldību.
Neviens nav paveicis tik milzīgu darbu tik īsā laikā.
2 – vēl vairāk aparatūras!
Elons saka, ka līdz 2025. gada vasarai viņiem būs 300k GPU klāsts ar Blackwell B200 mikroshēmām. Ņemot vērā Muska paradumu pārspīlēt, pieņemsim, ka tas ir reāli kaut kur starp 200-400k jauniem mikroshēmām līdz 2025. gada beigām.
Musks pat plāno uzbūvēt īpašu 2,2 GW elektrostaciju, kas ir vairāk enerģijas, nekā vidēja lieluma pilsēta patērē.
Un viņš nav viens – visi lielie spēlētāji dara kaut ko līdzīgu:
- Tātad
- "Meta" Luiziānā būvē divas gāzes iekārtas Tātad
- OpenAI / Microsoft izveido kaut ko līdzīgu Teksasā. Tātad
- Amazon un Google arī būvē gigavatu mēroga datu centrus. Tātad
Kāpēc ne kodolenerģija? Tā ir enerģija, bet kodolspēkstacijas būvniecība aizņem pārāk ilgu laiku. Jūs nevarat tikai vienu reizi uzkrāties blakus jūsu datu centram gada laikā.
Tā rezultātā gan Microsoft, gan Meta jau ir bijuši spiesti atkāpties no saviem zaļo atjaunojamo energoresursu solījumiem.Viņi salauza muguru un pacēla Moloch uz debesīm!
Grok 3 ir milzīgs
Tātad, Elons uzcēla šo milzīgo, dārgo kastīti.
Aprēķini liecina, ka Grok 2 tika apmācīts uz ~20k H100s, bet Grok 3 izmantoja vairāk nekā 100k. kontekstā GPT-4 apmācīja apmēram 90-100 dienas uz ~25k vecākiem A100 mikroshēmām, ar H100 aptuveni 2,25 reizes ātrāk.
Veicot matemātiku, Grok 2 saņēma aptuveni divas reizes lielāku datoru jaudu, nekā tas tika izmests GPT-4, un Grok 3 saņēma piecas reizes vairāk nekā Grok 2. Google Gemini 2.0, iespējams, izmantoja līdzīgu aparatūras daudzumu (100 000 viņu pašu TPUv6 mikroshēmu), bet pats modelis, iespējams, ir mazāks.
Būtībā kopējaisDatora izmaksasGrok 3 ir lieluma kārtībā (10 reizes!) augstāks nekā tās tuvākais konkurents. diemžēl mums nav publisku datu par GPT-4.5 vai Gemini 2.5.
Tātad viņi izlija trakas resursu summas, lai izveidotu šo megaklusteri, un iegūtais modelis ir ... tikai vienāds ar esošajiem.
Šķiet, ka xAI kompetence apmācībā joprojām atpaliek no OpenAI, Google vai Anthropic. Viņi būtībā brute-piespiež savu ceļu uz augstāko līmeni.
Bet ar šo pieeju ir nozvejas.Epoch AIAprēķiniPēdējā desmitgadē algoritmiskie uzlabojumi veidoja aptuveni trešdaļu no progresa modeļu iespējām, bet pārējās divas trešdaļas nāca no papildu aparatūras un datu izmantošanas lielākiem modeļiem.
Brute Force strādāja Grok 3 šoreiz, bet izmaksas pieaugs eksponenciāli, vienlaikus nodrošinot arvien mazāk un mazāk uzlabojumu. un xAI ir nepieciešams nokļūt algoritma pusē. Labā ziņa ir tā, ka tagad viņi tiek uztverti kā šķērsojot robežu, tāpēc, iespējams, būs daudz vieglāk piesaistīt top talantus.
4 – Kas ir labs par Groku?
- Tātad
- Tas ir pilnīgi bezmaksas (iespējams, līdz pilnīgai izlaišanai). Tātad
Un bez Anthropic stingrām robežām, DeepSeek pārtraukumiem vai OpenAI apmaksātajiem līmeņiem.
Pat ar visiem jaunajiem modeļiem, kas pēdējo pāris mēnešu laikā ir izlaisti, Grok joprojām tur savu pie augšas.Chatbot arēnaLīderu saraksts.
Tagad mums ir arī neatkarīgs benchmarkingEpoķes: no
un pēcLiveBench: no
- Tātad
- Iemesli un dziļo pētījumu modeļi Tātad
Jau februārī bezmaksas Deep Research funkcija lielākoties bija ekskluzīva Perplexity. Tagad Google un OpenAI piedāvā dažus pamata līmeņos - varbūt Grok tos nospieda?
Šis režīms automātiski analizē 30-100 saites (Google varētu darīt vairāk) minūtēs un izplūst detalizētu (un pietūkušu) kopsavilkumu, kas jums vienkārši ir nepieciešams, lai skim un faktu pārbaudi.
- Tātad
- Integrācija ar X Tātad
Tas varētu būt tās slepkavas iezīme: semantiska meklēšana ne tikai pēc atslēgvārdiem, bet arī pēc tā, ko jūs domājāt.
Twitter ir visvairāk tuvu reāllaika informācijas platformai, tāpēc tas ir lieliski. bet līdz šim Grok bieži atpaliek, savukārt ņemot datus no pēdējām pāris dienām.
- Tātad
- Nefiltrētā lieta Tātad
And for the grand finale, the 18+ mode. Grok is notoriously easy to jailbreak without much effort. You can get it to do... well, whatever you might want, from flirty voices to questionable recipes. The voice mode examples are particularly wild.
Klausieties līdz galam, tas ir jautri!
Ironiski, Grok pats nešķiet, ka Musk (vai Tramps) augstu vērtē.Kad tas iznāca, xAI mēģināja labot - burtiski kodējot noteikumu, ka Grok nevarēja kritizēt Elonu.
Patiesais jautājums ir tāds, ka Groka viedokļi ir tikai tās apmācību datu atspoguļojums (t.i., internets), nevis kāda tīša aizspriedums.
# 5 Vai jums vajadzētu mēģināt to darīt?
Noteikti izmēģiniet to, bet kā savu otro pilotu.
Tālrunis :
- Tātad
- Tas maksā daudz vairāk nekā konkurentu modeļi. Tātad
- Neskatoties uz to, sniegums ir gandrīz vienāds ar labāko. Tātad
- Bet tas ir super ātri un bez maksas (pašlaik). Tātad
- Dziļo pētījumu režīms ir patiešām noderīgs - izmēģiniet to, ja neesat. Tātad
- Vairāk pakļauti halucinācijām un pārāk ātri nonāk pie secinājumiem. Tātad
- Atbildes parasti ir labi strukturētas, bet bieži jūtas pietūkušas. Tātad
- Unikāla piekļuve Twitter datiem. Tātad
xAI izrādījās spējīgs veidot pasaules klases infrastruktūru ar nepieredzētu ātrumu, bet faktiskajās AI spējās viņi būtībā pērk savu ceļu uz augšu ar tīru skaitļošanas jaudu.
Tas pievieno vēl vienu spēcīgu spēlētāju, kas spiež OpenAI, Google un Anthropic, virzot AI nozari uz preču tirdzniecību.
Vai jums tas patika?Dodiet balsi vai abonējietMūsu newsletterEs to novērtētu!