At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world."
¿Es realmente la más inteligente de la Tierra?
Como de costumbre, Musk trajo el tren hype. pero no había muchos datos objetivos en el lanzamiento.Blog PostSe mencionó que todavía estaba en beta y los modelos estaban entrenando activamente.
Flasharon algunos benchmarks mostrando Grok 3 adelante. Sin embargo, no dieron acceso a la API. Lo que es importante porque los benchmarks independientes lo usan para la evaluación.
Así, Elon afirma que Grok 3 es "escasamente inteligente" y supera a todo lo demás, pero las únicas maneras de comprobarlo eran charlar con él mismo o mirar sus referencias.
¿Cuáles son los parámetros de referencia? mirad:
Eso es el impulso que Grok obtuvo al tener mucho más poder de computación (computación de prueba-tiempo) para obtener respuestas más consistentes.
Probablemente sepa que los modelos de IA a menudo dan respuestas ligeramente diferentes cada vez -a veces mejores, a veces peores.La mayoría de los índices de referencia ignoran esta variabilidad, evaluando sólo la primera respuesta (pass@1).
Pero los resultados de Grok fueron todos mostrados usando cons@64. Significa que obtuvo 64 intentos para cada pregunta y seleccionó la respuesta más común.
Así que, por un lado, afirman que es un modelo de próxima generación. Por otro lado, están utilizando trucos bastante baratos.
Para ser justo, en un campo tan competitivo, todos los laboratorios doblan las reglas.Ellos eligen criterios de referencia o excluyen modelos más fuertes de las comparaciones, pero rara vez tan claramente.
¿Qué dicen los usuarios experimentados después de usarlo realmente?El consenso general es:
El modelo es enorme pero no ha traído avances.Todavía alucina y tiende a reacciones demasiado largas.
En términos de rendimiento, Grok 3 aterriza en algún lugar cerca de los mejores modelos de OpenAI, quizás un poco mejor que DeepSeek y las cosas de Google en el momento del lanzamiento.
Sin embargo, dos meses más tarde, llegaron Gemini 2.5, Claude 3.7, y el nuevo GPT-4o. También finalmente recibimos acceso parcial a la API para Grok 3 y su versión mini. Desafortunadamente, sólo la versión mini recibió el modo de pensamiento en API.
Así que hoy sabemos que es caro y definitivamente no es el mejor.
Pero sigue adelante, hay más en la historia.
Y tienes que entregarlo a ellos, Elon y xAI saltaron al mercado rápidamente, convirtiéndose en un jugador clave en tiempo récord.
1 – El hardware
¿La gran historia aquí?
En 2024, xAI construyó un enorme clúster de computación.Estamos hablando de 100,000 GPUs de Nvidia H100 y funcionan en sólo 4 meses.
El CEO de Nvidia, Jensen Huang,mencionadoEsto suele durar unos 4 años.
Y esta vez, no es un negocio divertido, es el centro de datos más grande del mundo.Nadie más ha logrado conectar tantas GPU en un solo lugar.
Normalmente, tales clusters son múltiples centros de datos regulares conectados por costosos cables Infiniband. Durante el entrenamiento, estos centros necesitan intercambiar toneladas de datos constantemente. Si la conexión es lenta, esas GPUs caras se sienten vacías, lo que es mala noticia.
Un centro de datos típico podría tener entre 10.000 y 20.000 GPUs, absorbiendo entre 20 y 30 megawatts de potencia.Por ejemploMicrosoft (para OpenAI) opera una red de 100k de GPUs en Arizona, y Meta ejecuta 128k.
Ver los dos edificios en forma de H? que son dos centros de datos Meta estándar al lado del otro.
Las necesidades de energía para los clústeres de nivel superior han explotado hasta 10 veces desde 2022.Estamos hablando ahora de alrededor de 150 MW por clúster. Eso es como alimentar a una pequeña ciudad. Esto crea una enorme carga en las redes eléctricas regionales. En algunos lugares, en realidad es más barato generar la energía que entregarla porque no hay suficientes líneas eléctricas.
Así que Elon entra en este mercado hacia atrás.Y... hace la "cousa de Elon."Odiar sus tweets todo lo que quieras, el hombre sabe cómo construir fábricas como nadie más.
Compró una vieja fábrica de Electrolux en Memphis y decidió construir un centro de datos gigante en lugar de una red como cualquier otra.
Predeciblemente, el poder se convirtió en un problema.
La fábrica sólo tenía 7 MW de la red local, lo que era suficiente para sólo 4.000 GPUs.La utilidad local, la Autoridad del Valle de Tennessee, prometió otros 50 MW, pero no hasta agosto.
Pero esperar no es el estilo de Musk.
Dylan Patel (de Semianálisis)Observadoa través de imágenes de satélite que Elon acaba de traer 14 generadores diésel móviles masivos de VoltaGrid. los conectó hasta 4 subestaciones móviles y alimentó el centro de datos. literalmente camionado en la electricidad.
Patel mencionó que podrían haber comprado el 30% de todo el mercado estadounidense para estos generadores (aunque no pude encontrar nada sobre eso).
Impresionante, el centro de datos también utiliza refrigeración líquida. Solo Google ha hecho esto realmente a escala antes. Esto es un gran problema porque la próxima generación de chips de Nvidia, los Blackwell B200s, requieren refrigeración líquida.
Puedes ver los primeros minutos de este vídeo para ver cómo se ve en el interior. he tenido un chiste de cómo el muchacho es sobre cajas y cables grises:
Es seriamente ingeniería fresca - sólo mira la gestión de cables.
Nadie ha hecho tanto trabajo en tan poco tiempo.
2 ¡Más hardware!
Elon dice que para el verano de 2025, tendrán un clúster de GPU de 300k con chips Blackwell B200. Dado el hábito de la exageración de Musk, digamos que sea realista entre 200-400k nuevos chips para finales de 2025.
Musk incluso planea construir una central eléctrica dedicada de 2,2 GW, que es más energía que una ciudad de tamaño mediano consume.
Y él no está solo, todos los grandes jugadores están haciendo algo similar:
- y
- Meta está construyendo dos plantas de gas en Louisiana. y
- OpenAI/Microsoft está creando algo similar en Texas. y
- Amazon and Google are also building gigawatt-scale data centers. y
¿Por qué no nuclear? tiene la energía, pero la construcción de una planta nuclear toma demasiado tiempo.No se puede simplemente subir una al lado de su centro de datos en un año.
Como resultado, tanto Microsoft como Meta ya han tenido que retroceder en sus promesas de energía verde renovable.¡Se rompieron las espaldas alzando a Moloch al cielo!
Grok 3 es gigante
Así que Elon construyó esta enorme, cara caja.
Las estimaciones sugieren que Grok 2 se entrenó en ~20k H100s, mientras que Grok 3 usó más de 100k. Para el contexto, GPT-4 se entrenó durante unos 90-100 días en ~25k chips A100 más viejos, con H100 aproximadamente 2,25 veces más rápido.
Al hacer las matemáticas, Grok 2 obtuvo aproximadamente el doble de la potencia de computación lanzada en él en comparación con GPT-4. y Grok 3 obtuvo cinco veces más que Grok 2.
En general, el totalCosto de computaciónpara Grok 3 es un orden de magnitud (10 veces!) mayor que su competidor más cercano. lamentablemente, no tenemos datos públicos para GPT-4.5 o Gemini 2.5.
Así que derramaron cantidades locas de recursos en la construcción de este mega-cluster, y el modelo resultante es... sólo en par con los actuales.
Parece que la experiencia de xAI en la capacitación todavía se queda atrás de OpenAI, Google o Anthropic. En esencia, brute-forzado su camino a la parte superior. sin trucos mágicos mostrados, simplemente: "Si la fuerza bruta no está resolviendo su problema, usted no está usando lo suficiente de él."
Pero hay una presa con ese enfoque.Epoch AIEstimacionesEn la última década, las mejoras algorítmicas representaron aproximadamente un tercio del progreso en las capacidades de los modelos, mientras que los otros dos tercios provienen de simplemente lanzar más hardware y datos en los modelos más grandes.
La fuerza bruta trabajó para Grok 3 esta vez, pero los costos crecerán exponencialmente mientras proporcionan menos y menos mejoras.Y xAI necesita coger el lado de los algoritmos.La buena noticia es que ahora se ven como empujando la frontera, por lo que probablemente será mucho más fácil atraer a los mejores talentos.
4 - ¿Qué hay de bueno en Grok?
- y
- Es totalmente gratuito (probablemente hasta el lanzamiento completo). y
Y sin los estrictos límites de Anthropic, las interrupciones de DeepSeek o los niveles pagados de OpenAI.
Incluso con todos los nuevos modelos descartados en los últimos meses, Grok sigue manteniendo su propia cerca de la cima de la marca.Chatbot ArenaEl liderazgo .
También tenemos un sistema de referencia independiente deépocas: de
y porLiveBench: de
- y
- Modo de Razonamiento y Investigación Profunda y
En febrero, la característica gratuita de Deep Research era principalmente exclusiva de Perplexity. Ahora, Google y OpenAI ofrecen algo en un nivel básico - tal vez Grok los empujó?
Este modo analiza automáticamente 30-100 enlaces (Google podría hacer más) en minutos y expulsa un resumen detallado (y hinchado) que sólo necesita esquiar y comprobar los hechos.Es mucho más fácil que investigar cualquier cosa desde el principio.He encontrado que la versión de Grok funciona más rápido que las otras, por lo que he comenzado a usarlo cuando tengo que investigar algo.
- y
-
Integration with X
y
Esto podría ser su característica asesina: búsqueda semántica no sólo para palabras clave, sino para lo que querías decir. También puedes pedirle que resuma los mensajes sobre un tema para rastrear las tendencias.
Twitter es la más cercana a una plataforma de información en tiempo real, por lo que es genial.Pero hasta ahora Grok a menudo se queda atrás, extrayendo datos de los últimos días en su lugar.
- y
- Las cosas no filtradas y
Y para la gran final, el modo 18+. Grok es notoriamente fácil de jailbreak sin mucho esfuerzo. Puedes hacerlo... bueno, lo que quieras, desde voces flirtantes a recetas cuestionables.
¡Escucha hasta el final, es divertido!
Irónicamente, Grok no parece mantener a Musk (o Trump) en alta consideración. Cuando esto salió, xAI intentó una corrección, literalmente codificando una regla que Grok no podía criticar a Elon.
El verdadero problema es que las opiniones de Grok son sólo un reflejo de sus datos de entrenamiento (es decir, Internet), no algún prejuicio intencional.
5 - ¿Tienes ganas de probarlo?
Definitivamente lo probarás, pero como tu segundo piloto.
El TLDR:
- y
- Cuesta mucho más el tren que los modelos de los competidores. y
- A pesar de eso, el rendimiento está casi en par con el mejor. y
- Pero es super rápido y gratis (por ahora). y
- El modo de investigación profunda es verdaderamente útil, prueba si no lo tienes. y
- Más propensos a alucinaciones y saltar a conclusiones demasiado rápido. y
- Las respuestas suelen ser bien estructuradas pero a menudo se sienten hinchadas. y
- Acceso único a los datos de Twitter. y
xAI se ha demostrado capaz de construir infraestructuras de clase mundial a una velocidad sin precedentes, pero en las capacidades reales de IA, básicamente están comprando su camino a la cima con pura potencia de computación.
Esto añade otro jugador fuerte que presiona a OpenAI, Google y Anthropic, empujando a la industria de la IA hacia la commoditización.
¿Te ha gustado?Dale un voto o suscríbete aNuestra newsletter¡Lo apreciaría!