Februāra beigās Elons izlaida savu jaunāko modeli. Vai tas tiešām ir gudrākais AI uz Zemes? Kā parasti, Musk atnesa hype vilcienu. bet sākumā nebija daudz objektīvu datu. xAI īss blog post minēja, ka tas joprojām bija beta un modeļi aktīvi apmācījās. Viņi mirgoja dažus kritērijus, kas parādīja Grok 3 priekšā. tomēr viņi nesniedza piekļuvi API. kas ir svarīgi, jo neatkarīgi kritēriji to izmanto novērtēšanai. Tātad, Elons apgalvo, ka Grok 3 ir "gandrīz gudrs" un pārspēj visu pārējo. bet vienīgie veidi, kā pārbaudīt, bija tērzēt ar to pats vai apskatīt viņu kritērijus. Un šie kritēriji? ņemiet vērā: Redziet, ka vieglāks apgabals labajā pusē? Tas ir stimuls, ko Groks ieguva, iegūstot vairāk aprēķina jaudas (testēšanas laika aprēķinu), lai iegūtu konsekventākas atbildes. Jūs droši vien zināt, ka AI modeļi katru reizi bieži sniedz nedaudz atšķirīgas atbildes - dažreiz labāk, dažreiz sliktāk.Lielākā daļa kritēriju ignorē šo mainīgumu, novērtējot tikai pirmo atbildi (pass@1). Bet Grok rezultāti visi tika parādīti, izmantojot cons@64. Tas nozīmē, ka tas saņēma 64 mēģinājumus katram jautājumam un izvēlējās visbiežāk sastopamo atbildi. Tātad, no vienas puses, viņi apgalvo, ka tas ir nākamās paaudzes modelis, no otras puses, viņi izmanto diezgan lētus trikus. Lai būtu taisnīgi, šādā konkurences jomā visas laboratorijas saliek noteikumus, izvēloties kritērijus vai izslēdzot spēcīgākus modeļus no salīdzinājumiem, bet reti tik atklāti. Labi, atsauces punkti. ko pieredzējuši lietotāji saka pēc faktiskās lietošanas? Modelis ir milzīgs, bet nav devis pārsteigumus. tas joprojām halucinē un ir tendēts uz pārāk ilgām atbildēm.
Tomēr divus mēnešus vēlāk ieradās Gemini 2.5, Claude 3.7 un jaunais GPT-4o. Mums beidzot arī bija daļēja API piekļuve Grok 3 un tā mini versijai.
Tātad šodien mēs zinām, ka tas ir dārgs un noteikti nav absolūts labākais.
Bet turpiniet, stāstam vēl ir vairāk.
Modelis ir interesants un ir vērts apskatīt. un jums ir jānodod viņiem, Elons un xAI ātri iekāpa tirgū, kļūstot par galveno spēlētāju rekordālos laikos.
1 – Darbības veids
Vai lielais stāsts šeit?
2024. gadā xAI uzcēla milzīgu skaitļošanas klāstu. Mēs runājam par 100 000 Nvidia H100 GPU, kas darbojas tikai 4 mēnešos.
Nvidia CEO, Jensen Huang, minēts tas parasti aizņem apmēram 4 gadus.
Tas bija milzīgs inženiertehniskais sasniegums.Un šoreiz nav smieklīgi – tas ir lielākais datu centrs pasaulē.Neviens cits nav spējis savienot tik daudz GPU vienā vietā.
Parasti šādi klasteri ir vairāki regulāri datu centri, kas savienoti ar dārgiem Infiniband kabeļiem. Apmācības laikā šiem centriem ir nepieciešams pastāvīgi apmainīties ar tonnām datu.
Tipiskajam datu centram varētu būt 10 000-20 000 GPU, kas sūkā 20-30 megavatus jaudas. Piemēram, Microsoft (OpenAI) darbojas 100k GPU tīklā Arizona, un Meta darbojas 128k.
Redziet divas H-veida ēkas? Tas ir divi standarta Meta datu centri blakus viens otram.
Pieprasījums pēc jaudas augsta līmeņa klasteros kopš 2022. gada ir palielinājies līdz pat 10 reizēm.Mēs tagad runājam par aptuveni 150 MW vienā klasterī.Tas ir tāpat kā maza pilsēta.Tas rada milzīgu slodzi reģionālajiem elektroenerģijas tīkliem.Dažās vietās patiešām ir lētāk ģenerēt enerģiju nekā piegādāt to, jo nav pietiekami daudz elektroenerģijas.
Tātad, Elons ienāk šajā tirgū. un... dara "Elon lieta." ienīstiet savus tweets visu, ko vēlaties, cilvēks zina, kā veidot rūpnīcas kā neviens cits.
Paredzami, ka spēks kļuva par problēmu.
Rūpnīcai bija tikai 7 MW no vietējā tīkla - pietiekami, lai izveidotu tikai 4000 GPU. Vietējais pakalpojums, Tennessee Valley Authority, solīja vēl 50 MW, bet ne līdz augustam.
Bet gaidīšana nav Muska stils.
Dylan Patel (no Semianalysis) spotted ar satelīta attēliem, ka Elon tikko ieviesa 14 masīvus mobilo dīzeļdzinēju ģeneratorus no VoltaGrid. Piesaistīja tos līdz 4 mobilo apakšstacijām un darbināja datu centru.
Patel minēja, ka viņi varētu iegādāties 30% no visa ASV tirgus šiem ģeneratoriem (lai gan es nevarēju atrast neko par to).
Iespaidīgi, ka datu centrs izmanto arī šķidro dzesēšanu.Tikai Google to ir paveicis lielā mērogā iepriekš.Tas ir liels darījums, jo nākamās paaudzes Nvidia mikroshēmām, Blackwell B200s, būs nepieciešama šķidra dzesēšana.
Jūs varat pārbaudīt pirmās dažas minūtes no šī video, lai redzētu, kā tas izskatās iekšpusē. es saņēmu chuckle no tā, kā hyped puisis ir par pelēkām kastēm un kabeļiem:
Tas ir nopietni atdzist inženierija - vienkārši paskatieties uz kabeļu pārvaldību.
Neviens nav darījis tik masveida darbu tik īsā laikā.
2 – vēl vairāk aparatūras!
Un viņš nav viens – visi lielie spēlētāji dara kaut ko līdzīgu:
- Meta Luiziānā būvē divas gāzes rūpnīcas.
- OpenAI/Microsoft izveido kaut ko līdzīgu Teksasā.
- Amazon un Google arī būvē gigavatu mēroga datu centrus.
Kāpēc ne kodolenerģija?Tā ir jauda, bet kodolspēkstacijas būvniecība aizņem pārāk ilgu laiku.Jūs nevarat tikai uzkrāties blakus jūsu datu centram gada laikā.Vēja un saules enerģijas fermas plus baterijas ir daudzsološas, bet tās arī aizņem pārāk ilgu laiku, lai to ieviestu vajadzīgajā mērogā.
Tā rezultātā gan Microsoft, gan Meta jau ir bijuši spiesti atkāpties no saviem zaļo atjaunojamo energoresursu solījumiem. Viņi lauza muguru un pacēla Moloch uz debesīm!
3 – Grok 3 ir milzīgs
Tātad Elons uzcēla šo masveida, dārgo kasti.
Pārskati liecina, ka Grok 2 tika apmācīts uz ~20k H100s, bet Grok 3 izmantoja vairāk nekā 100k. kontekstā GPT-4 apmācīja apmēram 90-100 dienas uz ~25k vecākiem A100 mikroshēmām, ar H100 aptuveni 2,25x ātrāk.
Būtībā kopējās aprēķina izmaksas Grok 3 ir lieluma kārtībā (10 reizes!) augstāka nekā tās tuvākais konkurents. Diemžēl mums nav publisku datu par GPT-4.5 vai Gemini 2.5.
Tātad viņi izlija traku resursu daudzumu, lai izveidotu šo megaklusteri, un iegūtais modelis ir ... tikai vienāds ar esošajiem.
Šķiet, ka xAI kompetence apmācībā joprojām atpaliek no OpenAI, Google vai Anthropic. Viņi būtībā brute-piespiež savu ceļu uz augstāko līmeni. nav burvju triku parādīts, tikai: "Ja brute spēks neatrisina jūsu problēmu, jūs neizmantojat pietiekami daudz no tā."
Epoch AI novērtē ka pēdējā desmitgadē algoritmiskie uzlabojumi veidoja aptuveni trešdaļu no progresa modelēšanas iespējām.
4 – Kas ir labs par Groku?
- Tas ir pilnīgi bez maksas (iespējams, līdz pilnīgai izlaišanai).
Un bez Anthropic stingrām robežām, DeepSeek pārtraukumiem vai OpenAI apmaksātajiem līmeņiem.
Pat ar visiem jaunajiem modeļiem, kas pēdējo pāris mēnešu laikā ir izlaisti, Grok joprojām tur savu pie augšējā Chatbot Arena līderi.
Mums tagad ir arī neatkarīgs benchmarking ar EpochAI:
Un ar LiveBench:
-
Domāšana un dziļa pētniecības režīms
Atpakaļ februārī bezmaksas Deep Research funkcija lielākoties bija ekskluzīva. tagad Google un OpenAI piedāvā dažus pamata līmeņus - varbūt Grok tos nospieda?
Šis režīms automātiski analizē 30-100 saites (Google varētu darīt vairāk) minūtēs un izplūst detalizētu (un pietūkušu) kopsavilkumu, kas jums vienkārši ir nepieciešams, lai skim un faktu pārbaudi.
-
Integrācija ar X
Tas varētu būt tās slepkavas iezīme: semantiska meklēšana ne tikai pēc atslēgvārdiem, bet arī pēc tā, ko jūs domājāt.
Twitter ir visvairāk tuvu reāllaika informācijas platformai, tāpēc tas ir lieliski. bet līdz šim Groks bieži atpaliek, savukārt ņemot datus no pēdējām pāris dienām.
-
Nefiltrēta lieta
Un lielajā finālā, 18+ režīmā. Grok ir zināmā mērā viegli jailbreak bez lielām pūlēm. Jūs varat to izdarīt... labi, ko jūs varētu vēlēties, no flirtu balsis uz apšaubāmiem receptēm. balss režīma piemēri ir noteikti savvaļas.
Klausīties līdz galam, tas ir jautri!
Ironija ir tāda, ka pats Grok nešķiet, ka Musks (vai Tramps) ir augstu novērtēts.Kad tas iznāca, xAI mēģināja labot - burtiski kodējot noteikumu, ka Grok nevarēja kritizēt Elonu.Kad tas uzsprāga, viņi vainoja bijušo OpenAI darbinieku par "neiekļaušanos uzņēmuma kultūrā."
Patiesais jautājums ir tāds, ka Groka viedokļi ir tikai viņa apmācību datu atspoguļojums (t.i., internets), nevis kāda tīša aizspriedums.
5 - Vai jums vajadzētu mēģināt to mēģināt?
Protams, izmēģiniet to, bet kā savu otro pilotu.
LATVIJAS RĪGA:
-
Tas maksā daudz vairāk nekā konkurentu modeļi.
-
Neskatoties uz to, sniegums ir gandrīz vienāds ar labāko.
-
Deep Research režīms ir patiešām noderīgs – izmēģiniet to, ja neesat.
Bet tas ir super ātri un bez maksas (pašlaik).
Vairāk pakļauti halucinācijām un lēkt uz secinājumiem pārāk ātri.
Atbildes parasti ir labi strukturētas, bet bieži jūtas pietūkušas.
U> piekļūt Twitter datiem.xAI izrādījās spējīgs veidot pasaules klases infrastruktūru ar nepieredzētu ātrumu. bet faktiskajās AI iespējās viņi būtībā pērk savu ceļu uz augšu ar tīru skaitļošanas jaudu.
Tas pievieno vēl vienu spēcīgu spēlētāju, kas spiež OpenAI, Google un Anthropic, virzot AI nozari uz preču tirdzniecību.
Vai jums tas patika? Dodiet savu balsi vai abonējiet uz mūsu biļetenu. Es to novērtētu!