1,708 чтения
1,708 чтения

Игра Grok 3: All the GPUs, None of the Breakthroughs

к Leo Khomenko8m2025/04/17
Read on Terminal Reader

Слишком долго; Читать

Илон утверждал, что Grok 3 был лучшим в мире ИИ. Два месяца спустя, как он действительно складывается против GPT-4o, Claude 3.7 и Gemini 2.5?
featured image - Игра Grok 3: All the GPUs, None of the Breakthroughs
Leo Khomenko HackerNoon profile picture

At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."


Действительно ли это самый умный ИИ на Земле?


Как обычно, Маск принес поезд, но при запуске не было много объективных данных.Блог постОн упомянул, что все еще находится в стадии бета-тестирования, и модели активно тренировались.


Они вспыхнули некоторые показатели, показывающие Grok 3 вперед. Тем не менее, они не дали доступ к API. Что важно, потому что независимые показатели используют его для оценки.


Итак, Элон утверждает, что Grok 3 «вряд ли умный» и побеждает все остальное, но единственные способы проверить были самим общаться с ним или смотреть на их показатели.


А как насчет этих ценных бумаг?Посмотрите:

Это стимул, который Грок получил, имея больше вычислительной мощности (вычислительное время испытаний), чтобы получить более последовательные ответы.


Вероятно, вы знаете, что модели ИИ часто дают несколько разные ответы каждый раз — иногда лучше, иногда хуже.Большинство эталонов игнорируют эту изменчивость, оценивая только первый ответ (pass@1).

Но результаты Grok были показаны с использованием cons@64. Это означает, что он получил 64 попытки для каждого вопроса и выбрал самый распространенный ответ.


Так что, с одной стороны, они утверждают, что это модель следующего поколения, а с другой, они используют довольно дешевые трюки.


Чтобы быть справедливым, в таком конкурентном поле все лаборатории сгибают правила.Они выбирают критерии или исключают более сильные модели из сравнений, но редко так явно.

Что говорят опытные пользователи после того, как они действительно используют его?Общий консенсус заключается в следующем:


Модель огромна, но не принесла прорывов.Она все еще галлюцинирует и склонна к чрезмерно длительным реакциям.


С точки зрения производительности, Grok 3 приземляется где-то рядом с лучшими моделями OpenAI, возможно, немного лучше, чем DeepSeek и Google в момент выпуска.


Однако спустя два месяца появились Gemini 2.5, Claude 3.7 и новый GPT-4o. Мы также наконец-то получили частичный доступ к API для Grok 3 и его мини-версии. К сожалению, только мини-версия получила режим мышления в API.

Так что сегодня мы знаем, что это дорого и, безусловно, не самое лучшее.


Но держитесь, сюжета еще больше.


И вы должны передать им, Элон и xAI быстро выпрыгнули на рынок, став ключевым игроком за рекордное время.

1 - Хардвер

Большая история здесь?


В 2024 году xAI построил огромный вычислительный кластер.Мы говорим о 100 000 GPU Nvidia H100, которые будут работать всего за 4 месяца.


Генеральный директор NVIDIA Дженсен Хуанг,упомянутойОбычно это занимает около 4 лет.


И на этот раз это не смешное дело — это самый большой центр обработки данных в мире.


Как правило, такие кластеры представляют собой несколько регулярных центров обработки данных, соединенных дорогостоящими кабелями Infiniband. Во время обучения эти центры должны постоянно обмениваться тоннами данных.


Типичный центр обработки данных может иметь от 10 000 до 20 000 GPU, поглощая 20-30 мегаватт мощности.НапримерMicrosoft (для OpenAI) управляет сетью 100 000 GPU в Аризоне, а Meta работает на 128 000.

Смотрите два здания в форме H? Это два стандартных мета-центров данных рядом друг с другом.


Потребность в электроэнергии для кластеров верхнего уровня взорвалась до 10 раз с 2022 года.Мы сейчас говорим о 150 МВт на кластер. Это как питание небольшого города. Это создает огромную нагрузку на региональные электросети. В некоторых местах, на самом деле, дешевле генерировать электроэнергию, чем доставлять ее, потому что не хватает линий питания.


И... делает «Элон вещь». ненавидеть его твиты все, что вы хотите, человек знает, как строить фабрики, как никто другой.


Он купил старый завод Electrolux в Мемфисе и решил построить один гигантский дата-центр вместо сети, как и все остальные.


Предсказуемо, власть стала проблемой.


Фабрика имела только 7 МВт от местной сети — достаточно для всего 4000 GPU. Местная коммунальная служба, власть в долине Теннесси, пообещала еще 50 МВт, но не до августа.


Но ждать – это не стиль Маска.


Дилан Пател (из полуанализа)Видетьчерез спутниковые изображения, которые Элон только что привез 14 массивных мобильных дизельных генераторов из VoltaGrid. Привязал их до 4 мобильных подстанций и зарядил центр данных.

Пател упомянул, что они могли купить 30% всего американского рынка для этих генераторов (хотя я не мог найти ничего на этом).


Впечатляюще, дата-центр также использует жидкое охлаждение. Только Google действительно сделал это в масштабе раньше. Это большая проблема, потому что следующее поколение чипов Nvidia, Blackwell B200s, требуют жидкого охлаждения.


Вы можете проверить первые несколько минут этого видео, чтобы увидеть, как это выглядит внутри. я получил шутку из того, как хиппил парень о серых коробках и кабелях:

Это серьезно прохладная инженерия — просто посмотрите на управление кабелями.


Никто не выполнял столь масштабную работу за столь короткое время.

2 – еще больше оборудования!


Илон говорит, что к лету 2025 года у них будет 300-километровый кластер GPU с чипами Blackwell B200. Учитывая привычку Маска преувеличивать, скажем, что это реалистично где-то между 200-400 000 новыми чипами к концу 2025 года.


Маск даже планирует построить специальную электростанцию мощностью 2,2 ГВт, что больше, чем потребляет средний город.


И он не один — все крупные игроки делают что-то похожее:


  • Meta построит в Луизиане две газовые станции
  • OpenAI/Microsoft создает что-то похожее в Техасе.
  • Amazon и Google также строят гигаваттовые дата-центры.


Почему бы не ядерное?Это получило мощность, но строительство атомной электростанции занимает слишком много времени.Вы не можете просто подняться рядом с вашим центром обработки данных в течение года.Ветровые и солнечные фермы плюс батареи являются многообещающими, но они также занимают слишком много времени, чтобы развернуть в необходимом масштабе.


В результате и Microsoft, и Meta уже вынуждены были отступить от своих обещаний по зеленой возобновляемой энергии.Они сломали спину, поднимая Молоха на небо!

Оригинальное название: Grok 3 Is Huge

Итак, Элон построил эту массивную, дорогую коробку.


По оценкам, Grok 2 тренировался на ~20 000 H100, в то время как Grok 3 использовал более 100 000. для контекста, GPT-4 тренировался около 90-100 дней на ~25 000 старых чипов A100, с H100 примерно в 2,25 раза быстрее.


Делая математику, Grok 2 получил примерно в два раза больше вычислительной мощности, чем GPT-4.И Grok 3 получил в пять раз больше, чем Grok 2.Google Gemini 2.0, вероятно, использовал аналогичное количество аппаратного обеспечения (100 000 собственных чипов TPUv6), но сама модель, вероятно, меньше.


В основном, общаяКомпьютерные затратыдля Grok 3 является порядком величины (10 раз!) выше, чем его ближайший конкурент. К сожалению, у нас нет публичных данных для GPT-4.5 или Gemini 2.5.


Так что они вылили сумасшедшие суммы ресурсов в строительство этого мега-кластера, и получившаяся модель... только на равных с действующими.


Кажется, что опыт xAI в обучении по-прежнему отстает от OpenAI, Google или Anthropic.Они по существу брутально заставили свой путь в верхний уровень.Никаких магических трюков не показано, просто: "Если брутальная сила не решает вашу проблему, вы не используете ее достаточно".

Но есть улов с этим подходом. Epoch AIОценкиВ течение последнего десятилетия алгоритмические улучшения составляли около трети прогресса в возможностях моделей, а остальные две трети пришли от простого выброса большего количества оборудования и данных на более крупные модели.


Грубая сила работала для Grok 3 на этот раз, но затраты будут расти экспоненциально, при этом обеспечивая все меньше и меньше улучшений.И xAI нужно поймать на алгоритмической стороне.Хорошая новость заключается в том, что теперь они рассматриваются как толкающие границу, так что, вероятно, будет намного легче привлечь лучшие таланты.

4 - Что хорошего в Grok?

  1. Это совершенно бесплатно (вероятно, до полного выхода).


И без жестких ограничений Anthropic, отключений DeepSeek или платных уровней OpenAI.


Даже несмотря на то, что все новые модели были выпущены за последние несколько месяцев, Grok по-прежнему держит свои близко к вершине.Chatbot аренаЛидерская доска .


Теперь у нас также есть независимый бенчмаркингЭпоха:

и поLiveBench: →

  1. Размышление и глубокие методы исследования

Еще в феврале бесплатная функция Deep Research была в основном эксклюзивной для Perplexity. Теперь Google и OpenAI предлагают некоторые в базовом уровне — может быть, Grok их подтолкнул?


Этот режим автоматически анализирует 30-100 ссылок (Google может сделать больше) за минуты и выплескивает подробное (и вздутое) резюме, которое вам просто нужно сканировать и проверить факты.Это намного проще, чем исследовать что-либо с нуля.Я обнаружил, что версия Grok работает быстрее, чем другие, поэтому я начал использовать его, когда мне нужно что-то исследовать.


  1. Интеграция с X

Это может быть его убийца функция: семантический поиск не только для ключевых слов, но для того, что вы имели в виду. вы также можете попросить его обобщить сообщения на тему, чтобы отследить тенденции.


Twitter ближе всего к информационной платформе в режиме реального времени, поэтому это здорово, но пока Grok часто отстает, вытягивая данные из последних нескольких дней вместо этого.


  1. Нефильтрованные вещи

И для грандиозного финала, режим 18+. Grok известен тем, что его легко отключить без особых усилий. Вы можете сделать это... ну, что бы вы ни хотели, от флиртовых голосов до сомнительных рецептов. Примеры голосового режима безусловно дикие.

Слушайте до конца, это забавно!


По иронии судьбы, сам Грок, похоже, не держит Маска (или Трампа) в высоком уважении.Когда это вышло, xAI попытался исправить — буквально зашифровав правило, которое Грок не мог критиковать Элона.Когда это взорвалось, они обвинили бывшего сотрудника OpenAI в том, что «не вписывается в культуру компании».


Реальная проблема заключается в том, что мнения Грока являются лишь отражением его данных о тренировках (т.е. интернета), а не какой-то предвзятостью.

5 - Вы хотите попробовать?

Обязательно попробуйте, но как ваш второй пилот.


ТЛДР :

  • Стоимость поездов намного выше, чем у конкурентов.
  • Несмотря на это, производительность почти на уровне с лучшими.
  • Но это супер быстро и бесплатно (на данный момент).
  • Режим глубокого исследования действительно полезен — попробуйте, если нет.
  • Более склонны к галлюцинациям и слишком быстро приходят к выводам.
  • Ответы обычно хорошо структурированы, но часто ощущают вздутие живота.
  • Уникальный доступ к данным Twitter.

xAI доказали способность строить инфраструктуру мирового класса с беспрецедентной скоростью, но в реальных возможностях ИИ они в основном покупают свой путь на вершину с чистой вычислительной мощностью.


Это добавляет еще одного сильного игрока, оказывающего давление на OpenAI, Google и Anthropic, подталкивая индустрию ИИ к товарной коммерциализации.


Нравится ли вам это?Подарите голос или подпишитесь наМой NewsletterЯ бы это оценил!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks