At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Apakah itu benar-benar AI paling cerdas di Bumi?
Seperti biasa, Musk membawa kereta hype. tetapi tidak ada banyak data obyektif pada peluncuran.Blog Postingandisebutkan bahwa itu masih dalam beta dan model sedang aktif dilatih.
They flashed some benchmarks showing Grok 3 ahead. However, they did not give access to the API. Which is important because independent benchmarks use it for evaluation.
Jadi, Elon mengklaim Grok 3 "kurang cerdas" dan mengalahkan segalanya. tetapi satu-satunya cara untuk memeriksa adalah chatting dengan itu sendiri atau melihat benchmarks mereka.
Apa yang dimaksud dengan benchmark? lihat di bawah ini:
Itulah dorongan Grok yang diperoleh dengan memiliki lebih banyak daya komputasi (test-time compute) untuk mendapatkan jawaban yang lebih konsisten.
Anda mungkin tahu bahwa model AI sering memberikan jawaban yang sedikit berbeda setiap saat – kadang-kadang lebih baik, kadang-kadang lebih buruk. sebagian besar referensi mengabaikan variabilitas ini, hanya mengevaluasi respons pertama (pass@1).
Tetapi hasil Grok semuanya ditampilkan menggunakan cons@64. artinya, ia mendapatkan 64 percobaan untuk setiap pertanyaan dan memilih jawaban yang paling umum.
Jadi di satu sisi, mereka mengklaim itu adalah model generasi berikutnya. di sisi lain, mereka menggunakan trik yang cukup murah.
Untuk menjadi adil, dalam bidang kompetitif seperti itu, semua laboratorium membungkus aturan. mereka memilih benchmark atau mengecualikan model yang lebih kuat dari perbandingan - tetapi jarang begitu jelas.
Apa yang dikatakan pengguna yang berpengalaman setelah benar-benar menggunakannya? konsensus umum adalah:
Model ini besar tetapi tidak membawa terobosan. masih halusinasi dan cenderung terhadap respons yang terlalu lama.
Dalam hal kinerja, Grok 3 mendarat di suatu tempat dekat dengan model OpenAI teratas, mungkin sedikit lebih baik daripada DeepSeek dan Google pada saat rilis.
Namun, dua bulan kemudian, Gemini 2.5, Claude 3.7, dan GPT-4o baru tiba. Kami juga akhirnya mendapatkan akses API parsial untuk Grok 3 dan versi mini. Sayangnya, hanya versi mini yang menerima mode berpikir dalam API.
Jadi hari ini kita tahu itu mahal dan tentu saja tidak yang terbaik.
Tapi tetap saja, ada lebih banyak lagi untuk cerita.
Dan Anda harus memberikannya kepada mereka, Elon dan xAI melompat ke pasar dengan cepat, menjadi pemain kunci dalam waktu rekor.
1 – Hardware
Cerita besar di sini?
Pada tahun 2024, xAI membangun cluster komputasi besar. kita berbicara 100.000 GPU Nvidia H100 dan berjalan hanya dalam 4 bulan.
Direktur Eksekutif Nvidia, Jensen Huang.disebutkanBiasanya membutuhkan waktu sekitar 4 tahun.
Dan kali ini, tidak ada bisnis yang lucu – ini adalah pusat data terbesar di dunia. tidak ada orang lain yang berhasil menghubungkan begitu banyak GPU di satu tempat.
Biasanya, cluster tersebut adalah beberapa pusat data reguler yang dihubungkan oleh kabel Infiniband yang mahal. Selama pelatihan, pusat-pusat ini perlu bertukar ton data secara konstan.
Sebuah pusat data biasa mungkin memiliki 10.000-20.000 GPU, menyerap 20-30 megawatt daya.MisalnyaMicrosoft (untuk OpenAI) mengoperasikan jaringan 100k GPU di Arizona, dan Meta berjalan 128k.
Lihat dua bangunan berbentuk H? Ini adalah dua pusat data meta standar di samping satu sama lain.
Kebutuhan listrik untuk cluster tingkat atas telah meledak hingga 10x sejak 2022. Kami sekarang berbicara sekitar 150 MW per cluster. Itu seperti mengisi daya kota kecil. Ini menciptakan beban besar pada jaringan listrik regional. Di beberapa tempat, sebenarnya lebih murah untuk menghasilkan daya daripada untuk mengirimkannya karena tidak ada cukup jalur listrik.
Jadi, Elon memasuki pasar ini ke belakang. dan ... melakukan "Itu Elon." benci tweet-nya semua yang Anda inginkan, pria itu tahu bagaimana membangun pabrik seperti tidak ada yang lain.
Dia membeli pabrik lama Electrolux di Memphis dan memutuskan untuk membangun satu pusat data raksasa alih-alih jaringan seperti yang lain.
Secara prediktif, kekuatan menjadi masalah.
Pabrik hanya memiliki 7 MW dari jaringan lokal - cukup untuk hanya 4.000 GPU. utilitas lokal, Tennessee Valley Authority, menjanjikan 50 MW lagi, tetapi tidak sampai Agustus.
Tapi menunggu bukan gaya Musk.
Dylan Patel (dari Semianalisis)Melihatmelalui gambar satelit yang Elon baru saja membawa 14 generator diesel seluler massal dari VoltaGrid. menghubungkan mereka hingga 4 sub stasiun seluler dan memberi daya pusat data.
Patel menyebutkan mereka mungkin telah membeli 30% dari seluruh pasar AS untuk generator ini (meskipun saya tidak bisa menemukan apa-apa tentang itu).
Yang mengejutkan, pusat data juga menggunakan pendinginan cair. Hanya Google yang benar-benar telah melakukan ini dalam skala sebelumnya. Ini adalah masalah besar karena generasi chip Nvidia berikutnya, Blackwell B200s, membutuhkan pendinginan cair.
Anda dapat memeriksa beberapa menit pertama video ini untuk melihat apa yang terlihat di dalamnya. saya mendapat senyum dari bagaimana hyped pria itu tentang kotak abu-abu dan kabel:
Ini benar-benar rekayasa keren - lihat saja manajemen kabel.
Tidak ada yang melakukan pekerjaan besar-besaran dalam waktu yang begitu singkat.
2 – Lebih banyak hardware!
Elon mengatakan pada musim panas 2025, mereka akan memiliki cluster GPU 300k dengan chip Blackwell B200. Mengingat kebiasaan Musk berlebihan, mari kita katakan itu realistis di antara 200-400k chip baru pada akhir 2025.
Musk bahkan berencana untuk membangun pembangkit listrik 2,2 GW yang didedikasikan.
Dan dia tidak sendirian - semua pemain besar melakukan sesuatu yang sama:
- yang
- Meta akan membangun dua pabrik gas di Louisiana. yang
- OpenAI/Microsoft sedang membangun sesuatu yang serupa di Texas. yang
- Amazon dan Google juga membangun pusat data skala gigawatt. yang
Mengapa tidak nuklir? Ini memiliki daya, tetapi membangun pembangkit listrik nuklir membutuhkan waktu yang terlalu lama.Anda tidak bisa hanya menonjol di sebelah pusat data Anda dalam setahun.Perkebunan angin dan surya ditambah baterai menjanjikan, tetapi mereka juga membutuhkan waktu yang terlalu lama untuk didistribusikan pada skala yang dibutuhkan.
Akibatnya, Microsoft dan Meta sudah harus mundur dari janji energi terbarukan hijau mereka.Mereka mematahkan punggung mereka mengangkat Moloch ke surga!
Grok 3 adalah Raksasa
Jadi, Elon membangun kotak besar, mahal ini.
Perkiraan menunjukkan Grok 2 dilatih pada ~20k H100s, sementara Grok 3 digunakan lebih dari 100k. Untuk konteks, GPT-4 dilatih selama sekitar 90-100 hari pada ~25k chip A100 yang lebih tua, dengan H100 kira-kira 2,25x lebih cepat.
Melakukan matematika, Grok 2 mendapatkan sekitar dua kali daya komputasi yang dibuang ke dalamnya dibandingkan dengan GPT-4. dan Grok 3 mendapatkan lima kali lebih banyak daripada Grok 2. Google Gemini 2.0 mungkin menggunakan jumlah perangkat keras yang sama (100k dari chip TPUv6 mereka sendiri), tetapi model itu sendiri mungkin lebih kecil.
Pada dasarnya, totalBiaya Komputeruntuk Grok 3 adalah urutan magnitud (10 kali!) lebih tinggi daripada pesaing terdekatnya. sayangnya, kami tidak memiliki data publik untuk GPT-4.5 atau Gemini 2.5.
Jadi mereka menumpahkan jumlah sumber daya yang gila untuk membangun mega-cluster ini, dan model yang dihasilkan adalah ... hanya setara dengan yang ada.
Tampaknya keahlian xAI dalam pelatihan masih tertinggal di belakang OpenAI, Google, atau Anthropic. Mereka pada dasarnya brutal-memaksa jalan mereka ke tingkat atas. tidak ada trik sihir ditunjukkan, hanya: "Jika kekuatan brutal tidak memecahkan masalah Anda, Anda tidak menggunakannya cukup."
Tetapi ada tangkapan dengan pendekatan itu.Epoch AIPerkiraanSelama dekade terakhir, perbaikan algoritma menyumbang sekitar sepertiga dari kemajuan dalam kemampuan model. dua pertiga lainnya datang dari hanya membuang lebih banyak perangkat keras dan data pada model yang lebih besar.
Brute Force bekerja untuk Grok 3 kali ini, tetapi biaya akan tumbuh secara eksponensial sambil memberikan kurang dan kurang perbaikan. dan xAI perlu menangkap sisi algoritma. kabar baiknya adalah bahwa sekarang mereka dilihat sebagai mendorong perbatasan, sehingga kemungkinan akan jauh lebih mudah untuk menarik bakat top.
4 – Apa yang baik tentang Grok?
- yang
- Ini benar-benar gratis (mungkin sampai rilis penuh). yang
Dan tanpa batas yang ketat Anthropic, gangguan DeepSeek, atau tingkat dibayar OpenAI.
Bahkan dengan semua model baru yang ditinggalkan dalam beberapa bulan terakhir, Grok masih memegang sendiri dekat dengan puncakPertandingan Chatbot Arenadengan leaderboard.
Sekarang kita juga memiliki benchmarking independen dariPeriode: :
dan olehLiveBench: :
- yang
- Reasoning dan Deep Research Mode yang
Pada bulan Februari, fitur Deep Research gratis sebagian besar eksklusif untuk Perplexity. Sekarang, Google dan OpenAI menawarkan beberapa di tingkat dasar - mungkin Grok mendorong mereka?
Mode ini secara otomatis menganalisis 30-100 tautan (Google mungkin melakukan lebih banyak) dalam beberapa menit dan mengeluarkan ringkasan terperinci (dan bengkak) yang hanya perlu Anda skim dan periksa fakta. itu jauh lebih mudah daripada meneliti apa pun dari awal.
- yang
- Integrasi dengan X yang
Ini bisa menjadi fitur pembunuh: pencarian semantik tidak hanya untuk kata kunci, tetapi untuk apa yang Anda maksudkan. Anda juga dapat meminta untuk merangkum posting pada topik untuk melacak tren. atau untuk menemukan posting terbaru dari pengguna tertentu.
Twitter adalah yang terdekat dengan platform informasi real-time, jadi itu bagus. tetapi sejauh ini Grok sering terlambat, menarik data dari beberapa hari terakhir alih-alih.
- yang
- Barang yang tidak difilterkan yang
Dan untuk final besar, mode 18+. Grok terkenal mudah untuk jailbreak tanpa banyak usaha. Anda dapat melakukannya ... baik, apa pun yang Anda inginkan, dari suara yang menggoda hingga resep yang mencurigakan. contoh mode suara pasti liar.
Dengarkan sampai akhir, itu lucu!
Ironisnya, Grok sendiri tampaknya tidak memandang tinggi Musk (atau Trump). ketika ini muncul, xAI mencoba memperbaiki - secara harfiah mengkode aturan yang Grok tidak bisa mengkritik Elon.
Masalah sebenarnya adalah bahwa pendapat Grok hanyalah refleksi dari data pelatihan (yaitu, internet), bukan beberapa bias yang disengaja.
5 - Haruskah Anda mencobanya?
Tentu saja coba, tapi sebagai pilot kedua Anda.
Untuk TLDR:
- yang
- Harganya jauh lebih mahal untuk melatih dibandingkan dengan model kompetitor. yang
- Meskipun demikian, kinerja hampir setara dengan yang terbaik. yang
- Tapi itu super cepat dan gratis (untuk saat ini). yang
- Mode Deep Research benar-benar berguna – cobalah jika Anda tidak. yang
- Lebih rentan terhadap halusinasi dan melompat ke kesimpulan terlalu cepat. yang
- Tanggapan biasanya terstruktur dengan baik tetapi sering terasa bengkak. yang
- Akses unik ke data Twitter. yang
xAI terbukti mampu membangun infrastruktur kelas dunia dengan kecepatan yang belum pernah terjadi sebelumnya, tetapi dalam kemampuan AI sebenarnya, mereka pada dasarnya membeli jalan ke puncak dengan daya komputasi murni.
Ini menambahkan pemain kuat lain yang menekan OpenAI, Google, dan Anthropic, mendorong industri AI menuju komoditisasi.
Menikmati ini? berikan voting atau berlanggananUntuk newsletterSaya akan menghargai itu!