Новая история

Игра Grok 3: All the GPUs, None of the Breakthroughs

к Leo Khomenko8m2025/04/17
Read on Terminal Reader

Слишком долго; Читать

Илон утверждал, что Grok 3 был лучшим в мире ИИ. Два месяца спустя, как он действительно складывается против GPT-4o, Claude 3.7 и Gemini 2.5?
featured image - Игра Grok 3: All the GPUs, None of the Breakthroughs
Leo Khomenko HackerNoon profile picture

В конце февраля Элон выпустил свою последнюю модель.Конечно, она была «лучшей в мире».


На самом деле это самый умный ИИ на Земле?


Как обычно, Маск принес поезд. но на запуск не было много объективных данных. xAI короткий блог пост упомянул, что он все еще был в бета-версии и модели активно тренировались.


Они вспыхнули некоторые показатели, показывающие Grok 3 вперед. Однако они не дали доступ к API. Что важно, потому что независимые показатели используют его для оценки.


Итак, Элон утверждает, что Grok 3 «не слишком умный» и превзошел все остальное, но единственные способы проверить были самим общаться с ним или смотреть на их показатели.



И эти бенчмарки? Посмотрите:

Видите, что более легкая область справа? Это стимул, который Грок получил, имея больше вычислительной мощности (вычисление в тестовое время), чтобы получить более последовательные ответы.


Вы, вероятно, знаете, что модели ИИ часто дают несколько разные ответы каждый раз — иногда лучше, иногда хуже.Большинство эталонов игнорируют эту изменчивость, оценивая только первый ответ (pass@1).

Но все результаты Grok были показаны с использованием cons@64. Это означает, что он получил 64 попытки для каждого вопроса и выбрал самый распространенный ответ.


Так, с одной стороны, они утверждают, что это модель следующего поколения. с другой стороны, они используют довольно дешевые трюки.


Честно говоря, в таком конкурентном поле все лаборатории сгибают правила.Они выбирают критерии или исключают более сильные модели из сравнений, но редко так явно.

Хорошо, бенчмарки в сторону. Что говорят опытные пользователи после того, как они действительно используют его?Общий консенсус заключается в следующем:


Модель огромна, но не принесла прорывов.Она все еще галлюцинирует и склоняется к слишком длинным откликам.


С точки зрения производительности, Grok 3 приземляется где-то рядом с лучшими моделями OpenAI, возможно, немного лучше, чем DeepSeek и Google в момент выпуска.


Однако спустя два месяца появились Gemini 2.5, Claude 3.7 и новый GPT-4o. Мы также наконец-то получили частичный доступ к API для Grok 3 и его мини-версии.

Так что сегодня мы знаем, что это дорого и, безусловно, не самое лучшее.


Но держитесь, сюжета еще больше.


И вы должны передать им, Элон и xAI быстро выпрыгнули на рынок, став ключевым игроком в рекордное время.


1 – Устройство и оборудование

Великая история здесь?


В 2024 году xAI построил огромный вычислительный кластер.Мы говорим о 100 000 GPU Nvidia H100, которые будут работать всего за 4 месяца.


CEO Nvidia, Дженсен Хуанг, упомнил это обычно занимает около 4 лет.


Это было огромным инженерным достижением.И на этот раз, не смешно — это самый большой центр обработки данных в мире.Никто еще не смог связать столько GPU в одном месте.


Обычно такие кластеры представляют собой несколько регулярных центров обработки данных, соединенных дорогостоящими кабелями Infiniband. Во время обучения эти центры нуждаются в постоянном обмене тоннами данных.


Типичный центр обработки данных может иметь 10 000-20 000 GPU, поглощая 20-30 мегаватт мощности. Например, Microsoft (для OpenAI) управляет сетью 100 000 GPU в Аризоне, а Meta работает на 128 000.

Видите два здания в форме H? Это два стандартных мета-центров данных рядом друг с другом.


Потребность в электроэнергии для кластеров верхнего уровня взорвалась в 10 раз с 2022 года.Мы сейчас говорим о 150 МВт на кластер. Это как питание небольшого города. Это создает огромную нагрузку на региональные электросети.В некоторых местах фактически дешевле генерировать электроэнергию, чем доставлять ее, потому что не хватает линий питания.


И... делает «элон вещь». ненавидеть его твиты все, что вы хотите, человек знает, как строить фабрики, как никто другой.


Он купил старый завод Electrolux в Мемфисе и решил построить один гигантский дата-центр вместо сети, как и все остальные.


Предсказуемо, власть стала проблемой.


Завод имел только 7 МВт от местной сети — достаточно для всего 4000 GPU. Местная коммунальная служба, власть в долине Теннесси, пообещала еще 50 МВт, но не до августа.


Но ждать – это не стиль Маска.


Dylan Patel (from Semianalysis) spotted через спутниковые изображения, которые Elon только что привез в 14 массивных мобильных дизельных генераторов из VoltaGrid. Привязал их до 4 мобильных подстанций и подавал в центр данных. Буквально грузовик в электричестве.

Патель упомянул, что они могли купить 30% всего американского рынка для этих генераторов (хотя я не мог найти ничего на этом).


Впечатляюще, дата-центр также использует жидкое охлаждение. Только Google действительно сделал это в масштабе раньше.Это большая проблема, потому что следующее поколение чипов Nvidia, Blackwell B200s, требуют жидкого охлаждения.


Вы можете проверить первые несколько минут этого видео, чтобы увидеть, как это выглядит внутри.

Это серьезно прохладная инженерия — просто посмотрите на управление кабелями.


Никто не делал столь масштабную работу за столь короткое время.

2 – Еще больше оборудования!


Элон говорит, что к лету 2025 года у них будет 300-километровый кластер GPU с чипами Blackwell B200. Учитывая привычку Маска преувеличивать, скажем, что это реалистично где-то между 200-400-километровыми новыми чипами к концу 2025 года.


Муск даже планирует построить специальную электростанцию мощностью 2,2 ГВт, что больше, чем потребляет средний город.


И он не один — все крупные игроки делают что-то подобное:


  • Meta строит два газовых завода в Луизиане.
  • OpenAI/Microsoft устанавливает что-то похожее в Техасе.
  • Amazon и Google также строят гигаваттовые дата-центры.


Почему не ядерное?Это получило мощность, но строительство атомной электростанции занимает слишком много времени.Вы не можете просто подняться рядом с вашим центром обработки данных в течение года.Ветровые и солнечные фермы плюс батареи являются многообещающими, но они также занимают слишком много времени, чтобы развернуть в необходимом масштабе.


В результате и Microsoft, и Meta уже вынуждены были отступить от своих обещаний по зеленой возобновляемой энергии. Они сломали спину, подняв Молоха на небо!

3 – Grok 3 является огромным

Итак, Элон построил эту массивную, дорогую коробку.


Оценки показывают, что Grok 2 тренировался на ~20 000 H100, в то время как Grok 3 использовал более 100 000. для контекста, GPT-4 тренировался около 90-100 дней на ~25 000 старых чипов A100, с H100 примерно в 2,25 раза быстрее.


Выполняя математику, Grok 2 получил примерно в два раза больше вычислительной мощности, чем GPT-4.И Grok 3 получил в пять раз больше, чем Grok 2.Google Gemini 2.0, вероятно, использовал аналогичное количество оборудования (100 000 собственных чипов TPUv6), но сама модель, вероятно, меньше.



В основном, общая расчетная стоимость для Grok 3 является порядком величины (10 раз!) выше, чем его ближайший конкурент. К сожалению, у нас нет публичных данных для GPT-4.5 или Gemini 2.5.


Так что они вылили сумасшедшие суммы ресурсов в строительство этого мега-кластера, и получившаяся модель... только на равных с действующими.


Кажется, что опыт xAI в обучении по-прежнему отстает от OpenAI, Google или Anthropic. Они по существу брутально заставили свой путь в верхний уровень. Нет магических трюков, показанных, просто: "Если брутальная сила не решает вашу проблему, вы не используете ее достаточно".

Epoch AI оценивает что за последнее десятилетие алгоритмические улучшения составили около трети прогресса в возможностях моделирования.


Грубая сила работала для Grok 3 на этот раз, но затраты будут расти экспоненциально, при этом обеспечивая все меньше и меньше улучшений.И xAI нужно поймать на алгоритмической стороне.Хорошая новость заключается в том, что теперь они рассматриваются как продвижение границы, так что, вероятно, будет намного легче привлечь лучших талантов.


4 – Что хорошего в Grok?

  1. Это совершенно бесплатно (вероятно, до полного выпуска).


И без жестких ограничений Anthropic, отключений DeepSeek или платных уровней OpenAI.


Даже несмотря на то, что все новые модели были выпущены за последние несколько месяцев, Grok по-прежнему держит свою собственную вершину Chatbot Arena.


У нас теперь также есть независимый бенчмаркинг по EpochAI:

И по LiveBench:

  1. Размышление и глубокий исследовательский режим


В феврале бесплатная функция Deep Research была в основном эксклюзивной для Perplexity. теперь Google и OpenAI предлагают некоторые базовые уровни — может быть, Grok их подтолкнул?


Этот режим автоматически анализирует 30-100 ссылок (Google может сделать больше) за минуты и выплескивает подробное (и вздутое) резюме, которое вам просто нужно сканировать и проверить факты.Это намного проще, чем исследовать что-либо с нуля.Я обнаружил, что версия Grok работает быстрее, чем другие, поэтому я начал использовать его, когда мне нужно что-то исследовать.


  1. Интеграция с X


Это может быть его функция убийцы: семантический поиск не только для ключевых слов, но и для того, что вы имели в виду.


Твиттер ближе всего к информационной платформе в режиме реального времени, поэтому это здорово. но до сих пор Грок часто отстает, вытягивая данные из последних нескольких дней вместо этого.


  1. Нефильтрованные вещи


И для грандиозного финала, режим 18+. Grok известен тем, что его легко отключить без особых усилий. Вы можете сделать это... ну, что бы вы ни хотели, от флиртовых голосов до сомнительных рецептов. Примеры голосового режима безусловно дикие.

Послушайте до конца, это забавно!


Иронично, что сам Грок, похоже, не держит Маска (или Трампа) в высоком уважении.Когда это вышло, xAI попытался исправить — буквально закрепив правило, которое Грок не мог критиковать Элона.Когда это взорвалось, они обвинили бывшего сотрудника OpenAI в том, что «не вписывается в культуру компании».


Настоящая проблема заключается в том, что мнения Грока являются лишь отражением его учебных данных (т.е. интернета), а не какой-то предвзятостью.

5 - Должны ли вы бояться попробовать его?

Определенно попробуйте, но как ваш второй пилот.


ТРТР:


  • Стоит дороже тренировать, чем модели конкурентов.

  • Несмотря на это, производительность почти на равных с лучшими.

  • Но это супер быстро и бесплатно (на данный момент).

  • Режим глубокого исследования действительно полезен — попробуйте, если вы этого не сделали.

  • Более склонны к галлюцинациям и прыжкам к выводам слишком быстро.

  • Ответы обычно хорошо структурированы, но часто чувствуют себя вздутыми.

  • U> доступ к данным Twitter.



    xAI доказали способность строить инфраструктуру мирового класса с беспрецедентной скоростью, но в реальных возможностях ИИ они в основном покупают свой путь на вершину с чистой вычислительной мощностью.


    Это добавляет еще одного сильного игрока, оказывающего давление на OpenAI, Google и Anthropic, подталкивая индустрию ИИ к товарной коммерциализации.


    Нравилось ли вам это? Подпишитесь или подпишитесь на мой информационный бюллетень. Я бы очень оценил это!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks