Наприкінці лютого Елон випустив свою останню модель. Звичайно, це була "найкраща в світі".
Чи дійсно це найрозумніший AI на Землі?
Як завжди, Маск приніс потяг. Але при запуску не було багато об'єктивних даних. xAI короткий блог пост згадував, що він все ще був в бета-версії і моделі активно тренувалися.
Вони пролунали деякі бенчмарки, що показують Grok 3 вперед. Однак, вони не дали доступу до API.
І ці бенчмарки? Подивіться:
Дивіться, що більш легка область праворуч? Це стимул, який Грок отримав, маючи набагато більше обчислювальної потужності (обчислення тестового часу), щоб отримати більш послідовні відповіді.
Ви, напевно, знаєте, що моделі штучного інтелекту часто дають дещо різні відповіді кожен раз – іноді краще, іноді гірше.Більшість бенчмарків ігнорують цю змінність, оцінюючи тільки першу відповідь (pass@1).
Але результати Grok були показані за допомогою cons@64. Це означає, що вона отримала 64 спроби для кожного питання і вибрала найпоширенішу відповідь.
Так, з одного боку, вони стверджують, що це модель наступного покоління, а з іншого, вони використовують досить дешеві трюки.
Щоб бути справедливим, в такій конкурентній галузі всі лабораторії згинають правила.Вони вибирають бенчмарки або виключають сильніші моделі з порівнянь, але рідко так явно.
ОК, відмітки осторонь. Що говорять досвідчені користувачі після того, як вони насправді використовують його? Загальний консенсус:
Модель величезна, але не принесла проривів. вона все ще галюцинує і схильна до занадто довгих відповідей.
Однак, через два місяці приїхали Gemini 2.5, Claude 3.7, а також новий GPT-4o. Ми також нарешті отримали частковий доступ до API для Grok 3 і його міні-версії.
Тому сьогодні ми знаємо, що це дорого і, безумовно, не найкраще.
Але тримайтеся, до історії ще більше.
1 – Управління та обладнання
Це велика історія тут?
У 2024 році xAI побудував масивний обчислювальний кластер.Ми говоримо про 100 000 GPU Nvidia H100 і працюємо всього за 4 місяці.
CEO Nvidia, Дженсен Хуанг, згадано це зазвичай займає близько 4 років.
Це було великим інженерним досягненням. І цього разу, без смішного бізнесу - це найбільший дата-центр у світі.
Зазвичай такі кластери являють собою кілька регулярних центрів даних, пов'язаних дорогими кабелями Infiniband. Під час навчання ці центри повинні постійно обмінюватися тоннами даних.
Дивіться дві будівлі у формі H? Це два стандартних мета-центри даних поруч один з одним.
Попит на електроенергію для кластерів найвищого рівня з 2022 року вибухнув у 10 разів.Ми зараз говоримо про 150 МВт на кластер. Це схоже на живлення невеликого міста. Це створює величезне навантаження на регіональні електромережі.У деяких місцях, насправді, дешевше генерувати електроенергію, ніж доставляти її, тому що немає достатньої кількості електроліній.
Так, Елон вступає на цей ринок позаду. І... робить «Елон річ.» ненавидіть його твіти все, що ви хочете, чоловік знає, як будувати фабрики, як ніхто інший.
Предбачувано, що енергія стала проблемою.
Завод мав лише 7 МВт від місцевої мережі — достатньо для всього 4000 GPU. Місцева комунальна компанія, Управління Долини Теннессі, пообіцяла ще 50 МВт, але не до серпня.
Але очікування – це не стиль Маска.
Dylan Patel (від Semianalysis) спостерігалося через супутникові зображення, що Elon тільки що привів 14 масивних мобільних дизельних генераторів з VoltaGrid. З'єднав їх до 4 мобільних підстанцій і живлення центру даних. Буквально вантажівка в електриці.
Патель зазначив, що вони могли придбати 30% всього американського ринку для цих генераторів (хоча я не міг знайти нічого на цьому).
Дивно, що дата-центр також використовує рідке охолодження. Тільки Google дійсно зробив це в масштабі раніше. Це велика справа, тому що наступне покоління чіпів Nvidia, Blackwell B200, потребує рідкого охолодження.
Ви можете переглянути перші кілька хвилин цього відео, щоб побачити, як це виглядає всередині.
Це серйозно крута інженерія - просто подивіться на управління кабелем.
Ніхто не робив такої масивної роботи за такий короткий час.
2 – Ще більше обладнання!
Елон каже, що до літа 2025 року у них буде 300-кілограмовий кластер GPU з чіпами Blackwell B200. Враховуючи звичку Маска перебільшувати, скажімо, що це реалістично десь між 200-400 тисячами нових чіпів до кінця 2025 року.
Муск навіть планує побудувати спеціальну електростанцію на 2,2 ГВт, що більше, ніж споживає середнє місто.
- Meta будує дві газові станції в Луїзіані.
- OpenAI/Microsoft створює щось подібне в Техасі.
- Amazon і Google також будують гігават-масштабні центри даних.
Чому не ядерна? Вона має потужність, але будівництво атомної електростанції займає занадто багато часу.Ви не можете просто піднятися поруч з вашим центром даних за рік. Вітрові та сонячні ферми плюс батареї є перспективними, але вони також займають занадто багато часу, щоб розгортатися в необхідному масштабі.
В результаті, як Microsoft, так і Meta вже повинні були відступити від своїх обіцянок зеленої відновлюваної енергії. Вони зламали спину, піднявши Молоха до Неба!
3 – Grok 3 є великим
Так, Елон побудував цей величезний, дорогий ящик.
В основному, загальна обчислювальна вартість для Grok 3 є порядком величини (10 разів!) вище, ніж його найближчий конкурент. На жаль, ми не маємо публічних даних для GPT-4.5 або Gemini 2.5.
Так вони вилили божевільні суми ресурсів на будівництво цього мега-кластеру, і отримана модель ... просто на рівні з існуючими.
Здається, що досвід xAI у навчанні все ще відстає від OpenAI, Google або Anthropic. Вони, по суті, брутто примушували свій шлях до верхнього рівня. немає магічних трюків, просто: "Якщо брутальна сила не вирішує вашу проблему, ви не використовуєте її достатньо".
Epoch AI оцінює що протягом останнього десятиліття алгоритмічні вдосконалення становили приблизно третину прогресу у можливостях моделей.
Брутальна сила працювала для Grok 3 цього разу, але витрати будуть зростати експоненціально, при цьому забезпечуючи все менше і менше поліпшень. і xAI потрібно підхопити з боку алгоритму. Хороша новина полягає в тому, що тепер вони розглядаються як просування кордону, тому, ймовірно, буде набагато простіше залучити топ-таланти.
4 – Що хорошого в Grok?
- Це абсолютно безкоштовно (ймовірно, до повного випуску).
І без жорстких обмежень Anthropic, зупинок DeepSeek або платних рівнів OpenAI.
Навіть з усіма новими моделями, випущеними за останні кілька місяців, Grok все ще тримає свою власну поруч з верхньою частиною Chatbot Arena.
Ми тепер також маємо незалежне бенчмаркування за EpochAI:
І по LiveBench:
-
Реалізація & Deep Research Mode
Назад у лютому, безкоштовна функція Deep Research була переважно ексклюзивною для Perplexity.Тепер Google і OpenAI пропонують деякі з базових рівнів - можливо, Грок підштовхнув їх?
Цей режим автоматично аналізує 30-100 посилань (Google може зробити більше) за хвилини і виділяє детальне (і набрякло) резюме, яке вам просто потрібно скемувати і перевірити факти. Це набагато простіше, ніж досліджувати що-небудь з нуля.
-
Інтеграція з X
Це може бути його вбивця функція: семантичний пошук не тільки для ключових слів, але для того, що ви мали на увазі. ви також можете попросити його підсумовувати публікації на тему, щоб відслідковувати тенденції.
Twitter є найближчою до інформаційної платформи в реальному часі, тому це чудово. але поки що Grok часто відстає, замість цього витягуючи дані з останніх декількох днів.
-
Нефільтровані речі
І для великого фіналу, режим 18+. Grok відомий тим, що його легко ігнорувати без великих зусиль. Ви можете зробити це... добре, все, що ви хочете, від фліртуючих голосів до сумнівних рецептів. Приклади голосового режиму безумовно дикі.
Послухайте до кінця, це смішно!
Іронічно, сам Грок, здається, не тримає Маска (або Трампа) на високому рівні. Коли це вийшло, xAI спробував виправити - буквально жорстко кодуючи правило, яке Грок не міг критикувати Елона.
Справжня проблема полягає в тому, що думки Грока є лише відображенням його даних про навчання (тобто Інтернету), а не деякими навмисними упередженнями.
5 - Чи варто пробувати?
Напевно спробуйте це, але як ваш другий пілот.
Укрзалізниця:
-
Коштує набагато більше, ніж тренувати моделі конкурентів.
-
Незважаючи на це, продуктивність майже на рівні з кращими.
-
Режим глибокого дослідження дійсно корисний — спробуйте його, якщо ви цього не зробили.
Але це надзвичайно швидко і безкоштовно (на даний момент).
Більше схильні до галюцинацій і стрибають до висновків занадто швидко.
Реакції зазвичай добре структуровані, але часто відчувають себе набряклими.
U>
xAI довели, що вони здатні будувати інфраструктуру світового класу з безпрецедентною швидкістю, але в реальних можливостях AI вони, в основному, купують свій шлях до вершини з чистою обчислювальною потужністю.
Це додає ще одного сильного гравця, який надає тиск на OpenAI, Google і Anthropic, штовхаючи індустрію штучного інтелекту до товарності.
Чи сподобалося вам це? Дайте голос або підпишіться на моя розсилка. Мені дуже подобається!