At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
Чи справді це найрозумніший AI на Землі?
Як завжди, Маск приніс потяг, але при запуску не було багато об'єктивних даних.Блог постВін зазначив, що все ще знаходиться в стадії бета-тестування, і моделі активно тренувалися.
Вони пролунали деякі бенчмарки, що показують Grok 3 вперед. Однак, вони не дали доступу до API. Що важливо, тому що незалежні бенчмарки використовують його для оцінки.
Отже, Елон стверджує, що Grok 3 є "недостатньо розумним" і перевершує все інше.
А що з цими критеріями? дивіться тут:
Це стимул, який Грок отримав, маючи набагато більше обчислювальної потужності (обчислення тестового часу), щоб отримати більш послідовні відповіді.
Ви, напевно, знаєте, що моделі штучного інтелекту часто дають дещо різні відповіді кожен раз - іноді краще, іноді гірше.Більшість бенчмарків ігнорують цю змінність, оцінюючи тільки першу відповідь (pass@1).
Але результати Grok були показані за допомогою cons@64. Це означає, що він отримав 64 спроби для кожного питання і вибрав найпоширенішу відповідь.
Так, з одного боку, вони стверджують, що це модель наступного покоління, з іншого боку, вони використовують досить дешеві трюки.
Щоб бути справедливим, в такій конкурентній області всі лабораторії згинають правила.Вони вибирають бенчмарки або виключають сильніші моделі з порівнянь - але рідко так явно.
Що говорять досвідчені користувачі після того, як насправді використовують його? Загальний консенсус полягає в тому, що:
Модель величезна, але не принесла проривів, вона все ще галюцинує і схильна до занадто довгих відповідей.
З точки зору продуктивності, Grok 3 приземляється десь поблизу топ-моделей OpenAI, можливо, трохи краще, ніж DeepSeek і Google на момент випуску.
Однак через два місяці приїхали Gemini 2.5, Claude 3.7, а також новий GPT-4o. Ми також нарешті отримали частковий доступ до API для Grok 3 і його міні-версії. На жаль, тільки міні-версія отримала режим мислення в API.
Отже, сьогодні ми знаємо, що це дорого і, безумовно, не найкраще.
Але тримайтеся, в історії ще більше.
І ви повинні передати його їм, Елон і xAI швидко стрибнули на ринок, ставши ключовим гравцем за рекордний час.
1 - Апаратний
Велика історія тут?
У 2024 році xAI побудував масивний обчислювальний кластер.Ми говоримо про 100 000 GPU Nvidia H100 і працюємо всього за 4 місяці.
Генеральний директор NVIDIA Дженсен ХуангЗгаданаЗазвичай це займає близько чотирьох років.
І цього разу, без смішного бізнесу – це найбільший дата-центр у світі. ніхто інший не зміг з'єднати стільки GPU в одному місці.
Як правило, такі кластери - це кілька регулярних центрів даних, пов'язаних дорогими кабелями Infiniband. Під час навчання, ці центри повинні постійно обмінюватися тоннами даних.
Типовий дата-центр може мати від 10 000 до 20 000 GPU, що поглинає 20-30 мегават потужності.НаприкладMicrosoft (для OpenAI) управляє мережею 100 000 GPU в Арізоні, а Meta працює на 128 000.
Дивіться дві будівлі у формі H? Це два стандартних мета-центри даних поруч один з одним.
Потреба в електроенергії для кластерів найвищого рівня вибухнула до 10 разів з 2022 року.Ми зараз говоримо про 150 МВт на кластер. Це схоже на живлення маленького міста. Це створює величезне навантаження на регіональні електромережі. У деяких місцях, насправді, дешевше генерувати електроенергію, ніж доставляти її, тому що немає достатньо ліній електроенергії.
Отже, Елон вступає на цей ринок позаду. І... робить «Елон річ». ненавидіть його твіти все, що хочете, чоловік знає, як будувати фабрики, як ніхто інший.
Він купив старий завод Electrolux в Мемфісі і вирішив побудувати один гігантський дата-центр замість мережі, як і всі інші.
Зрозуміло, що влада стала проблемою.
Завод мав лише 7 МВт від місцевої мережі - достатньо для всього 4000 GPU. Місцева комунальна компанія, Управління долини Теннессі, обіцяла ще 50 МВт, але не до серпня.
Але очікування – це не стиль Маска.
Ділан Патель (з напіваналізу)спостереження via satellite images that Elon just brought in 14 massive mobile diesel generators from VoltaGrid. Hooked them up to 4 mobile substations and powered the data center. Literally trucked in the electricity.
Пател зазначив, що вони могли придбати 30% всього американського ринку для цих генераторів (хоча я не міг знайти нічого на цьому).
Дивно, що дата-центр також використовує рідке охолодження. Тільки Google дійсно зробив це в масштабі раніше. Це велика справа, тому що наступне покоління чіпів Nvidia, Blackwell B200s, вимагають рідкого охолодження.
Ви можете переглянути перші кілька хвилин цього відео, щоб побачити, як це виглядає всередині.
Це серйозно прохолодна інженерія - просто подивіться на управління кабелем.
Ніхто не робив такої великої роботи за такий короткий час.
2 – ще більше харчування!
Ілон каже, що до літа 2025 року у них буде 300 тисяч графічних процесорів з чіпами Blackwell B200. Враховуючи звичку Маска перебільшувати, скажімо, що це реалістично десь між 200-400 тисячами нових чіпів до кінця 2025 року.
Маск навіть планує побудувати спеціальну електростанцію потужністю 2,2 ГВт, що більше, ніж споживає середнє місто.
І він не один – всі великі гравці роблять щось подібне:
- І
- «Мета» будує дві газові станції в Луїзіані І
- OpenAI / Microsoft створює щось подібне в Техасі. І
- Amazon і Google також будують гігават-масштабні центри даних.
Чому не ядерна? Вона має потужність, але будівництво атомної електростанції займає занадто багато часу.Ви не можете просто піднятися поруч з вашим центром даних за рік. Вітрові та сонячні ферми плюс батареї є перспективними, але вони також займають занадто багато часу, щоб розгортати в необхідному масштабі.
В результаті, як Microsoft, так і Meta вже повинні були відступити від своїх обіцянок зеленої відновлюваної енергії.Вони зламали спину, піднявши Молоха на небо!
Грук 3 - це величезний
Так, Елон побудував цей масивний, дорогий ящик.
Оцінки показують, що Grok 2 тренувався на ~20 000 H100, в той час як Grok 3 використовував понад 100 000.
Робивши математику, Grok 2 отримав приблизно вдвічі більшу обчислювальну потужність, ніж GPT-4. і Grok 3 отримав в п'ять разів більше, ніж Grok 2. Google Gemini 2.0, ймовірно, використовував аналогічну кількість апаратного забезпечення (100 000 власних чипів TPUv6), але сама модель, ймовірно, менша.
В основному, загальнаКомп'ютерні витратидля Grok 3 є порядком величини (10 разів!) вище, ніж його найближчий конкурент. На жаль, у нас немає публічних даних для GPT-4.5 або Gemini 2.5.
Так що вони вилили божевільні суми ресурсів на будівництво цього мега-кластеру, і отримана модель є ... просто на рівні з існуючими.
Здається, що досвід xAI у навчанні все ще відстає від OpenAI, Google або Anthropic. Вони, по суті, брутально примусили свій шлях до верхнього рівня. немає магічних трюків, просто: "Якщо брутальна сила не вирішує вашу проблему, ви не використовуєте її достатньо".
Але є улов з цим підходом. Epoch AIОцінкиПротягом останнього десятиліття алгоритмічні вдосконалення становили приблизно третину прогресу в можливостях моделей, а інші дві третини прийшли від просто викидання більше апаратного забезпечення та даних на більші моделі.
Груба сила працювала для Grok 3 цього разу, але витрати будуть зростати експоненціально, при цьому забезпечуючи все менше і менше поліпшення. і xAI потрібно підхопити на алгоритмовій стороні. Хороша новина полягає в тому, що тепер вони розглядаються як підштовхування кордону, тому, ймовірно, буде набагато простіше залучити топ-таланти.
4 - Що хорошого в Grok?
- І
- Це абсолютно безкоштовно (можливо до повного випуску). І
І без жорстких обмежень Anthropic, зупинок DeepSeek або платних рівнів OpenAI.
Навіть з усіма новими моделями, випущеними за останні кілька місяців, Grok все ще тримає свою власну близько до вершини.Chatbot аренаЛідерський договір .
Тепер у нас також є незалежний бенчмаркЕпоха:
І заLiveBench:
- І
- Роздуми & Deep Research Mode І
Ще в лютому безкоштовна функція Deep Research була переважно ексклюзивною для Perplexity.Тепер Google і OpenAI пропонують деякі в базовому рівні - можливо, Грок підштовхнув їх?
Цей режим автоматично аналізує 30-100 посилань (Google може зробити більше) протягом декількох хвилин і виділяє детальне (і набрякло) резюме, яке вам просто потрібно розглянути і перевірити факти. Це набагато простіше, ніж досліджувати що-небудь з нуля.
- І
- Інтеграція з X І
Це може бути його вбивця функція: семантичний пошук не тільки для ключових слів, але для того, що ви мали на увазі. ви також можете попросити його підсумовувати публікації на тему, щоб відслідковувати тенденції.
Twitter є найближчою до інформаційної платформи в реальному часі, тому це чудово, але поки що Grok часто відстає, витягуючи дані з останніх декількох днів.
- І
- Нефільтровані речі І
І для великого фіналу, режим 18+. Grok відомий тим, що його легко розбивати без великих зусиль. Ви можете зробити це ... добре, все, що ви хочете, від фліртуючих голосів до сумнівних рецептів. Приклади голосового режиму безумовно дикі.
Слухайте до кінця, це смішно!
Іронічно, що сам Грок, здається, не тримає Маска (або Трампа) у високій повазі. Коли це вийшло, xAI спробував виправити - буквально жорстко кодуючи правило, яке Грок не міг критикувати Елона.
Справжня проблема полягає в тому, що думки Грока є лише відображенням його даних про навчання (тобто Інтернет), а не деякими навмисними упередженнями.
5 - Чи варто спробувати?
Спробуйте це, але як ваш другий пілот.
ТЛДР :
- І
- Це коштує набагато дорожче, ніж моделі конкурентів.
- Незважаючи на це, продуктивність майже на рівні з кращими. І
- Але це супер швидко і безкоштовно (на даний момент). І
- Режим глибоких досліджень дійсно корисний - спробуйте, якщо у вас немає. І
- Більш схильні до галюцинацій і стрибають до висновків занадто швидко. І
- Відповіді зазвичай добре структуровані, але часто відчувають набряк. І
- Унікальний доступ до даних Twitter. І
xAI довели, що вони здатні будувати інфраструктуру світового класу з безпрецедентною швидкістю, але в реальних можливостях AI вони, в основному, купують свій шлях до вершини з чистою обчислювальною потужністю.
Це додає ще одного сильного гравця, який надає тиск на OpenAI, Google і Anthropic, штовхаючи індустрію AI до товарності.
Вам це подобається?Подайте голос або підпишіться наНаш NewsletterЯ б це оцінив!