Pada akhir Februari, Elon meluncurkan model terbaru. tentu saja, itu adalah "yang terbaik di dunia."
Apakah itu benar-benar AI paling cerdas di Bumi?
Seperti biasa, Musk membawa hype train. tetapi tidak ada banyak data obyektif pada peluncuran. xAI singkat blog post menyebutkan bahwa itu masih dalam beta dan model sedang aktif pelatihan.
Mereka meledak beberapa benchmark yang menunjukkan Grok 3 di depan. namun, mereka tidak memberikan akses ke API. yang penting karena benchmarks independen menggunakannya untuk evaluasi.
Jadi, Elon mengklaim Grok 3 "sangat pintar" dan mengalahkan segalanya. tetapi satu-satunya cara untuk memeriksa adalah chatting dengan itu sendiri atau melihat benchmarks mereka.
Dan referensi itu? lihatlah:
Lihat area yang lebih ringan di sebelah kanan? itulah dorongan Grok yang diperoleh dengan memiliki lebih banyak daya komputasi (test-time compute) untuk mendapatkan jawaban yang lebih konsisten.
Anda mungkin tahu bahwa model AI sering memberikan jawaban yang sedikit berbeda setiap saat – kadang-kadang lebih baik, kadang-kadang lebih buruk. sebagian besar referensi mengabaikan variabilitas ini, hanya mengevaluasi respons pertama (pass@1).
Tapi hasil Grok semuanya ditampilkan menggunakan cons@64. artinya, ia mendapatkan 64 percobaan untuk setiap pertanyaan dan memilih jawaban yang paling umum.
Jadi di satu sisi, mereka mengklaim itu adalah model generasi berikutnya. di sisi lain, mereka menggunakan trik yang cukup murah.
Untuk menjadi adil, dalam bidang kompetitif seperti itu, semua laboratorium membungkus aturan. mereka memilih benchmarks atau mengecualikan model yang lebih kuat dari perbandingan-tetapi jarang begitu jelas.
Okay, referensi di samping. apa yang dikatakan pengguna berpengalaman setelah benar-benar menggunakannya? konsensus umum adalah:
Model ini besar tetapi tidak membawa terobosan. ia masih berhalusinasi dan cenderung terhadap respons yang terlalu lama.
Tetapi, dua bulan kemudian, Gemini 2.5, Claude 3.7, dan GPT-4o baru tiba. Kami juga akhirnya mendapatkan akses API parsial untuk Grok 3 dan versi mini. Sayangnya, hanya versi mini yang menerima mode berpikir dalam API.
Jadi hari ini kita tahu itu mahal dan tentu saja bukan yang terbaik.
Tapi terus, masih ada lebih banyak untuk cerita.
1 – Perangkat Lunak
Apa yang terjadi di sini?
Pada tahun 2024, xAI membangun cluster komputasi besar. kita berbicara 100.000 GPU Nvidia H100 dan berjalan hanya dalam 4 bulan.
CEO Nvidia, Jensen Huang, mencatat ini biasanya membutuhkan waktu sekitar 4 tahun.
Ini adalah prestasi rekayasa besar. dan kali ini, tidak ada bisnis yang lucu—itu adalah pusat data terbesar di dunia.
Biasanya, cluster seperti itu adalah beberapa pusat data reguler yang dihubungkan oleh kabel Infiniband yang mahal. Selama pelatihan, pusat-pusat ini perlu bertukar ton data secara konstan.
Jika koneksi lambat, GPU-GPU mahal itu duduk kosong, yang merupakan berita buruk.
Sebuah pusat data biasa mungkin memiliki 10.000-20.000 GPU, menyerap 20-30 megawatt daya. Misalnya, Microsoft (untuk OpenAI) mengoperasikan jaringan 100k GPU di Arizona, dan Meta berjalan 128k.
Lihat dua bangunan berbentuk H? Itu dua pusat data Meta standar di samping satu sama lain.
Kebutuhan daya untuk cluster kelas atas telah meledak hingga 10x sejak 2022. Kami sekarang berbicara sekitar 150 MW per cluster. Itu seperti menggerakkan kota kecil. Ini menciptakan beban besar pada jaringan listrik regional. Di beberapa tempat, sebenarnya lebih murah untuk menghasilkan daya daripada untuk mengantarkannya karena tidak ada cukup jalur listrik.
Jadi, Elon memasuki pasar ini ke belakang. dan ... melakukan "Itu Elon." benci tweet-nya semua yang Anda inginkan, pria itu tahu bagaimana membangun pabrik seperti tidak ada yang lain.
Dia membeli pabrik Electrolux lama di Memphis dan memutuskan untuk membangun satu pusat data raksasa alih-alih jaringan seperti yang lain.
Sepertinya, kekuatan menjadi masalah.
Pabrik hanya memiliki 7 MW dari jaringan lokal - cukup untuk hanya 4.000 GPU. utilitas lokal, Tennessee Valley Authority, menjanjikan 50 MW lagi, tetapi tidak sampai Agustus.
Tapi menunggu bukan gaya Musk.
Dylan Patel (dari Semianalysis) spotted via satellite images that Elon just brought in 14 massive mobile diesel generators from VoltaGrid. Hooked them up to 4 mobile substations and powered the data center. Literally trucked in electricity.
Patel menyebutkan mereka mungkin telah membeli 30% dari seluruh pasar AS untuk generator ini (meskipun saya tidak bisa menemukan apa-apa tentang itu).
Sangat mengejutkan, pusat data juga menggunakan pendinginan cair. Hanya Google yang benar-benar telah melakukan ini dalam skala sebelumnya. Ini adalah masalah besar karena generasi chip Nvidia berikutnya, Blackwell B200s, membutuhkan pendinginan cair.
Anda dapat memeriksa beberapa menit pertama dari video ini untuk melihat apa yang terlihat di dalamnya. saya mendapat senyum dari bagaimana hyped pria itu tentang kotak abu-abu dan kabel:
Ini benar-benar rekayasa keren — lihat saja manajemen kabel.
Tidak ada yang melakukan pekerjaan besar-besaran seperti itu dalam waktu singkat.
2 – Lebih Banyak Hardware!
Musk bahkan berencana untuk membangun pembangkit listrik 2,2 GW yang didedikasikan.
Dan dia tidak sendirian—semua pemain besar melakukan sesuatu yang sama:
- Meta membangun dua pabrik gas di Louisiana.
- OpenAI/Microsoft mendirikan sesuatu yang serupa di Texas.
- Amazon dan Google juga membangun pusat data skala gigawatt.
Mengapa tidak nuklir? Ini memiliki daya, tetapi membangun pembangkit listrik nuklir membutuhkan waktu yang terlalu lama.Anda tidak bisa hanya muncul di sebelah pusat data Anda dalam setahun.Perkebunan angin dan surya ditambah baterai menjanjikan, tetapi mereka juga membutuhkan waktu yang terlalu lama untuk didistribusikan pada skala yang dibutuhkan.
Sebagai hasilnya, baik Microsoft dan Meta sudah harus mundur dari janji energi terbarukan hijau mereka. Mereka memecahkan punggung mereka mengangkat Moloch ke Surga!
3 – Grok 3 adalah Besar
Jadi, Elon membangun kotak besar dan mahal ini.
Pada dasarnya, total perhitungan biaya untuk Grok 3 adalah urutan ukuran (10 kali!) lebih tinggi daripada pesaing terdekatnya. Sayangnya, kami tidak memiliki data publik untuk GPT-4.5 atau Gemini 2.5.
Jadi mereka menumpahkan jumlah sumber daya yang gila untuk membangun mega-cluster ini, dan model yang dihasilkan adalah ... hanya setara dengan yang ada.
Tampaknya keahlian xAI dalam pelatihan masih tertinggal di belakang OpenAI, Google, atau Anthropic. Mereka pada dasarnya brutal-memaksa jalan mereka ke tingkat atas. tidak ada trik sihir ditunjukkan, hanya: "Jika kekuatan brutal tidak memecahkan masalah Anda, Anda tidak menggunakannya cukup."
Epoch AI hargai bahwa selama dekade terakhir, perbaikan algoritma menyumbang sekitar sepertiga dari kemajuan dalam kemampuan model.
Brute force bekerja untuk Grok 3 kali ini, tetapi biaya akan tumbuh secara eksponensial sambil memberikan kurang dan kurang perbaikan. dan xAI perlu menangkap sisi algoritma. kabar baiknya adalah bahwa sekarang mereka dilihat sebagai mendorong perbatasan, sehingga kemungkinan akan jauh lebih mudah untuk menarik bakat top.
4 – Apa yang baik tentang Grok?
- Ini benar-benar gratis (mungkin sampai rilis penuh).
Dan tanpa batas yang ketat Anthropic, gangguan DeepSeek, atau tingkat dibayar OpenAI.
Bahkan dengan semua model baru yang turun dalam beberapa bulan terakhir, Grok masih memegang sendiri di dekat bagian atas Chatbot Arena leaderboard.
Kami sekarang juga memiliki benchmarking independen oleh EpochAI:
Dan oleh LiveBench:
-
Rasional & Deep Research Mode
Kembali pada bulan Februari, fitur Deep Research gratis sebagian besar eksklusif untuk Perplexity. Sekarang, Google dan OpenAI menawarkan beberapa di tingkat dasar—mungkin Grok mendorong mereka?
Modus ini secara otomatis menganalisis 30-100 tautan (Google mungkin melakukan lebih banyak) dalam beberapa menit dan mengeluarkan ringkasan terperinci (dan bengkak) yang hanya perlu Anda skim dan periksa fakta. itu jauh lebih mudah daripada meneliti apa pun dari awal.
-
Integrasi dengan X
Ini bisa menjadi fitur pembunuh: pencarian semantik tidak hanya untuk kata kunci, tetapi untuk apa yang Anda maksudkan. Anda juga dapat meminta untuk merangkum posting pada topik untuk melacak tren. atau untuk menemukan posting terbaru dari pengguna tertentu.
Twitter adalah yang terdekat dengan platform informasi real-time, jadi itu bagus. tetapi sejauh ini Grok sering terlambat, menarik data dari beberapa hari terakhir.
Tidak terinfeksi
Dan untuk final besar, mode 18+. Grok terkenal mudah untuk jailbreak tanpa banyak usaha. Anda dapat melakukannya ... baik, apa pun yang Anda inginkan, dari suara yang menggoda hingga resep yang mencurigakan. contoh mode suara pasti liar.
Dengarkan sampai akhir, itu lucu!
Ironisnya, Grok sendiri tampaknya tidak memandang tinggi Musk (atau Trump) ketika ini muncul, xAI mencoba memperbaiki – secara harfiah mengkode aturan yang Grok tidak bisa mengkritik Elon.
Masalah sebenarnya adalah bahwa pendapat Grok hanyalah refleksi dari data pelatihan (yaitu, internet), bukan beberapa bias yang disengaja.
5 - Haruskah Anda lebih berani mencobanya?
Tentu saja cobalah, tetapi sebagai pilot kedua Anda.
Pengguna :
-
Biaya lebih banyak untuk melatih dibandingkan dengan model pesaing.
-
Meskipun demikian, kinerja hampir sama dengan yang terbaik.
-
Modus Deep Research sangat berguna—coba jika Anda belum.
Tapi itu sangat cepat dan gratis (untuk saat ini).
Lebih rentan terhadap halusinasi dan melompat ke kesimpulan terlalu cepat.
Tanggapan biasanya terstruktur dengan baik tetapi sering terasa bengkak.
U> akses ke data Twitter.
xAI terbukti mampu membangun infrastruktur kelas dunia dengan kecepatan yang belum pernah terjadi sebelumnya. tetapi dalam kemampuan AI sebenarnya, mereka pada dasarnya membeli jalan ke puncak dengan daya komputasi murni.
Ini menambahkan pemain kuat lain yang menekan OpenAI, Google, dan Anthropic, mendorong industri AI menuju komoditisasi.
Apakah Anda menyukai ini? Tinggalkan voting atau berlangganan ke my newsletter. Saya akan menghargai itu!