At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Gerçekten Dünya’nın en zeki insanı mı?
Her zamanki gibi, Musk hype treni getirdi. ama başlatmada çok objektif veri yoktu. xAI'nin kısablog yazısıBeta sürümünün hala beta sürümünde olduğunu ve modellerin aktif olarak eğitildiğini belirtti.
Ancak, API'ye erişim sağlamadılar.Bu önemli çünkü bağımsız benchmarks değerlendirme için kullanıyor.
Yani, Elon, Grok 3'ün "çok zeki" olduğunu ve diğer her şeyi öne sürdüğünü iddia ediyor. ama kontrol etmenin tek yolu kendinizle sohbet etmek ya da referanslarına bakmaktı.
Peki ya bu örnekler? bir göz atın:
Bu Grok daha fazla hesaplama gücü (test-time compute) daha tutarlı cevaplar almak için aldığınız artıştır.
Muhtemelen biliyorsunuz ki, AI modelleri her seferinde biraz farklı cevaplar verir - bazen daha iyi, bazen daha kötü. Çoğu benchmark bu değişkenliği göz ardı eder ve sadece ilk yanıtı değerlendirir (pass@1). Daha basittir ve aslında AI'yi nasıl kullandığımızla eşleşir - ilk denemede iyi bir cevap bekliyoruz.
Ama Grok sonuçları hepsi cons@64 kullanılarak gösterildi. yani, her soru için 64 deneme yaptı ve en yaygın cevabı seçti.
Yani bir yandan, bir sonraki nesil model olduğunu iddia ediyorlar, diğer yandan, oldukça ucuz hile kullanıyorlar.
Dürüst olmak gerekirse, bu kadar rekabetçi bir alanda, tüm laboratuvarlar kuralları eğerler.
Okay, benchmarks bir kenara. deneyimli kullanıcılar aslında kullanıldıktan sonra ne diyor? genel konsensüs şudur:
Model büyük ama yenilikler getirmedi. hala halüsinasyon yapar ve çok uzun cevaplara eğilim gösterir.
Performans açısından, Grok 3, OpenAI'nin en iyi modellerine yakın bir yerde yer alıyor, belki de DeepSeek ve Google'ın ürünlerinden biraz daha iyiydi.
Ancak, iki ay sonra, Gemini 2.5, Claude 3.7 ve yeni GPT-4o geldi. Sonunda Grok 3 ve mini sürümleri için kısmi API erişimi de aldık. Ne yazık ki, sadece mini sürüm API'de düşünme modunu aldı.
Yani bugün biliyoruz ki pahalı ve kesinlikle mutlak en iyi değil.
Ama devam edin, hikayede daha fazlası var.
Model ilginç ve bakmaya değer. ve onlara teslim etmek zorundasınız, Elon ve xAI hızlı bir şekilde pazara atladı, rekor sürede önemli bir oyuncu haline geldi.
1. Hardware Hakkında
Buradaki büyük hikaye?
2024'te, xAI büyük bir bilgisayar kümesi inşa etti. 100,000 Nvidia H100 GPU'yu sadece 4 ay içinde çalıştırıyoruz.
NVIDIA CEO’su Jensen Huang,bahsettiğimBu genellikle yaklaşık 4 yıl sürer.
Bu büyük bir mühendislik başarıydı ve bu sefer komik bir iş değil - dünyanın en büyük veri merkezi.
Tipik olarak, bu tür kümeler, pahalı Infiniband kablolarıyla bağlantılı çok sayıda düzenli veri merkezidir. Eğitim sırasında, bu merkezlerin sürekli olarak tonlarca veri değiştirmeleri gerekir. Bağlantı yavaş ise, bu pahalı GPU'lar boş duruyor, bu kötü haber.
Tipik bir veri merkezi 10,000-20,000 GPU'ya sahip olabilir ve 20-30 megawatt güç emebilir.ÖrneğinMicrosoft (OpenAI için) Arizona'da 100 bin GPU ağı işletiyor ve Meta 128 bin çalışıyor.
İki H şekli binayı görüyorsunuz? Bu iki standart Meta veri merkezi birbirlerinin yanında.
2022 yılından bu yana en üst düzey kümeler için güç ihtiyaçları 10 kat arttı.Şu anda bir kümeden 150 MW civarında konuşuyoruz.Bu, küçük bir şehre güç vermek gibidir.Bu, bölgesel güç ağına büyük bir yük oluşturur.Bazı yerlerde, güç üretmek, yeterli güç hattı olmadığı için teslim etmekten daha ucuzdur.
Yani, Elon bu pazara geriye doğru girer ve... “Elon’un işi” yapar. “Tweet’lerini ne kadar istersen nefret et, adam başka hiç kimse gibi fabrika inşa etmeyi bilmiyor.
Memphis’teki eski bir Electrolux fabrikasını satın aldı ve herkes gibi bir ağ yerine bir dev veri merkezi inşa etmeye karar verdi.
Önceden tahmin ediliyordu ki, güç bir sorun haline geldi.
Fabrika, yerel ağdan sadece 7 MW'a sahipti - sadece 4.000 GPU için yeterli. yerel servis, Tennessee Valley Authority, ek 50 MW vaat etti, ancak Ağustos'a kadar değil. ve xAI'nin kendi 150 MW yerleşim tesisi hala inşa ediliyordu, yıl sonuna kadar hazır değil.
Ama beklemek Musk’ın tarzı değil.
Dylan Patel (Yarı Analizden)GörüldüElon, VoltaGrid'den 14 büyük mobil dizel jeneratör getirdiği uydu görüntüleri aracılığıyla onları 4 mobil alt istasyona bağladı ve veri merkezini güçlendirdi.
Patel, bu jeneratörler için tüm ABD pazarının% 30'unu satın alabileceğini belirtti (bu konuda hiçbir şey bulamadım).
İnanılmaz bir şekilde, veri merkezi aynı zamanda sıvı soğutma kullanıyor. Sadece Google bunu daha önce ölçekli olarak yapmıştı. Bu, Nvidia'nın yeni nesil çiplerinin, Blackwell B200'lerin sıvı soğutmasını gerektirdiği için büyük bir şey.
İçinde ne görünüyor görmek için bu videonun ilk birkaç dakikasına bakabilirsiniz. adamın gri kutular ve kablolar hakkında ne kadar hyped olduğunu şaşırdım:
Ciddi bir mühendislik - sadece kablo yönetimine bakın.
Hiç kimse bu kadar kısa bir sürede bu kadar büyük bir iş yapmadı.
2. Daha Fazla Hardware!
Elon 2025 yazına kadar, Blackwell B200 çipleri ile 300k GPU kümesi olacaklarını söylüyor. Musk'un aşırı alışkanlığını göz önünde bulundurarak, 2025 sonuna kadar 200-400k yeni çip arasında bir yer olduğunu söyleyelim. B200, model eğitimi için H100'den yaklaşık 2.2 kat daha iyidir (Nov 2024 tahminlerine dayanarak).
Musk, 2,2 GW'lik özel bir enerji santrali inşa etmeyi planlıyor, bu da orta ölçekli bir şehirin tükettiğinden daha fazla güç.
Ve o yalnız değil - tüm büyük oyuncular benzer bir şey yapıyor:
- Şöyle
- Meta, Louisiana’da iki gaz santrali inşa ediyor. Şöyle
- OpenAI/Microsoft, Teksas’ta benzer bir şey kuruyor. Şöyle
- Amazon ve Google da gigawatt ölçekli veri merkezlerini inşa ediyor. Şöyle
Neden nükleer değil? Güç var, ancak bir nükleer santralin inşaatı çok uzun sürer. Bir yıl içinde veri merkezinizin yanında bir tane açamazsınız. Rüzgar ve güneş çiftlikleri ve piller umut vericidir, ancak gerekli ölçekte dağıtmak için de çok uzun sürerler.
Sonuç olarak, hem Microsoft hem de Meta, yeşil yenilenebilir enerji vaatlerini geride bırakmak zorunda kaldı.Moloch'u cennete kaldırmak için sırtlarını kırdılar!
3. Grok 3 Çok Büyük
Yani, Elon bu büyük, pahalı kutuyu inşa etti.
Değerlendirmeler Grok 2 ~20k H100s üzerinde eğitildiğini, Grok 3 ise 100k üzerinde kullanıldığını gösteriyor. bağlam için, GPT-4 ~25k daha eski A100 çiplerinde yaklaşık 90-100 gün boyunca eğitildi, H100 ise yaklaşık 2.25 kat daha hızlıydı.
Matematiği yaparken, Grok 2 GPT-4 ile karşılaştırıldığında yaklaşık iki kat daha fazla bilgisayar gücü aldı. ve Grok 3 Grok 2'den beş kat daha fazla aldı. Google'ın Gemini 2.0 muhtemelen benzer bir miktar donanım kullandı (100k kendi TPUv6 çipleri), ancak modelin kendisi muhtemelen daha küçük.
Genel olarak, toplamBilgisayar maliyetiGrok 3 en yakın rakiplerinden 10 kat daha yüksektir. ne yazık ki, GPT-4.5 veya Gemini 2.5 için kamuya açık verilerimiz yok.
Bu yüzden bu mega-klavyeyi inşa etmek için çılgın miktarda kaynak attılar ve elde edilen model ... sadece görevli ile aynı. kesinlikle daha iyi ligler değil.
xAI'nin eğitim konusunda uzmanlığı hala OpenAI, Google veya Anthropic'in gerisinde görünüyor. Temel olarak en üst seviyeye doğru yollarını zorladılar. hiçbir sihirli hile gösterilmedi, sadece: "Eğer brute force sorunu çözmüyorsa, yeterince kullanmıyorsun."
Ama bu yaklaşımla bir yaklaşım var.Epoch AItahminleriSon on yılda, algoritmik gelişmeler, model yeteneklerinin yaklaşık üçte birini oluşturdu. diğer üçte ikisi sadece daha büyük modellerde daha fazla donanım ve veri atarak geldi.
Brute Force bu sefer Grok 3 için çalıştı, ancak maliyetler eksponensiyel olarak artar ve daha az ve daha az iyileştirme sağlar. ve xAI algoritma tarafında yakalamak gerekir. İyi haber şu ki, şimdi sınırı aşan olarak görülüyorlar, bu yüzden muhtemelen en iyi yetenekleri çekmek çok daha kolay olacaktır.
4 - Grok hakkında ne iyi?
- Şöyle
- Tamamen ücretsiz (muhtemelen tam sürümüne kadar). Şöyle
Ve Anthropic'in sıkı sınırları, DeepSeek'in kesintileri veya OpenAI'nin ücretli seviyeleri olmadan.
Son birkaç ayda düşen tüm yeni modellerle birlikte, Grok hala en üst sırada yer almaktadır.Chatbot ArasıLiderlik tablosu
Aynı zamanda bağımsız bir benchmarking sistemimiz var.Çağlar: Hakkında
ve tarafındanCanlı Bench: Hakkında
- Şöyle
- Düşünce ve Derin Araştırma Modu Şöyle
Şubat ayında, ücretsiz Deep Research özelliği çoğunlukla Perplexity hariç. Şimdi, Google ve OpenAI bazı temel bir seviye sunuyor - belki Grok onları zorladı?
Bu mod otomatik olarak 30-100 bağlantıları analiz eder (Google daha fazlasını yapabilir) dakika içinde ve sadece skim ve gerçeği kontrol etmeniz gereken ayrıntılı (ve şişkin) bir özet atar. baştan her şeyi araştırmaktan daha kolaydır. Grok'un sürümünün diğerlerinden daha hızlı çalıştığını buldum, bu yüzden bir şey araştırmaya ihtiyacım olduğunda kullanmaya başladım.
- Şöyle
- X ile entegrasyon Şöyle
Bu onun katil özelliği olabilir: sadece anahtar kelimeler için değil, ama ne demek istediğiniz için semantik arama. aynı zamanda bir konuyla ilgili mesajları bir araya getirmek için trendleri izlemek için isteyebilirsiniz.
Twitter, gerçek zamanlı bir bilgi platformuna en yakın olanıdır, bu yüzden harika.Ama şimdiye kadar Grok genellikle geride kalıyor, bunun yerine son birkaç günün verilerini çekiyor.
- Şöyle
- Filtrelenmemiş Şeyler Şöyle
Ve büyük final için, 18+ modu. Grok çok fazla çaba olmadan jailbreak etmek bilinen bir şekilde kolaydır. Bunu yapabilirsiniz ... evet, flört seslerinden şüpheli tariflere kadar istediğiniz her şeyi.
Sonuna kadar dinleyin, çok eğlenceli!
Ironik olarak, Grok kendisi Musk'ı (veya Trump'ı) yüksek derecede tutmuyor gibi görünüyor. Bu çıktıktan sonra, xAI bir düzeltme denedi - Grok'un Elon'u eleştiremediği bir kuralın tam anlamıyla sertleştiği.
Gerçek sorun, Grok'un görüşlerinin sadece eğitim verilerinin (yani internetin) bir yansıması olmasıdır, bazı kasıtlı önyargılar değil.
5. Bunu denemek ister misin?
Kesinlikle deneyin, ama ikinci pilotunuz olarak.
TLDR Hakkında:
- Şöyle
- Rakiplerin modellerinden daha pahalıya mal oluyor. Şöyle
- Bununla birlikte, performans neredeyse en iyi ile eşittir. Şöyle
- Ama süper hızlı ve ücretsiz (Şu an için). Şöyle
- Derin Araştırma modu gerçekten yararlıdır - yapmadığınız takdirde deneyin. Şöyle
- Daha fazla halüsinasyonlara ve çok hızlı sonuçlara atlamaya eğilimlidir. Şöyle
-
Responses are usually well-structured but often feels bloated.
Şöyle - Twitter verilerine özel erişim sağlar. Şöyle
xAI, daha önce görülmemiş bir hızda dünya standartlarındaki altyapıyı inşa etme yeteneğini kanıtladı.Ama gerçek AI yeteneklerinde, temel olarak saf hesaplama gücüyle üst düzeyde yollarını satın alıyorlar.
This adds another strong player pressuring OpenAI, Google, and Anthropic, pushing the AI industry toward commoditization. Competition is heating up and the exclusivity of top-tier models is fading.
hoşunuza gitti mi? oy verin veya abone olunYeni NewsletterOnu takdir edeceğim!