Influencer de plástico, fanático de la IA, experto en cartón. Todos ellos términos que se incorporan al léxico moderno para describir la ola de "bombo publicitario" en torno a la IA. Durante mucho tiempo he sido escéptico con respecto a algunas de las afirmaciones más extravagantes y grandilocuentes en el ámbito de la IA general.
1/ Los programadores desaparecerán
2/ AGI llegará en 2024
3/ Todos los trabajos serán automatizados
4/ Los robots adquirirán consciencia (Skynet)
Toda esta hipérbole sin fundamento sin siquiera ahondar en las opiniones más extremistas (hay un foro singular de Reddit que tiene 3,4 millones de miembros)
Me desconcierta especialmente la proyección de emociones y fantasías sobre algoritmos informáticos capaces de hacer cosas interesantes. No me encontrarás en ninguna aplicación complementaria y creo que muchas personas brillantes que se adhieren a esta percepción de Skynet sobre la conciencia de la IA corren el riesgo de perder la cordura.
Mis blogs recientes han estado en contradicción con la visión dominante y algo fantástica del mundo de la IA 👇
Lo único que hacen estas API es convertir audio en texto, procesarlo a través de un modelo de lenguaje y luego convertirlo nuevamente en audio. Puede parecer sofisticado en la superficie, pero en el fondo es solo una generación básica de texto con la voz de un robot. Cada sistema individual es completo y razonablemente maduro, pero si los unimos a todos en nuestro proverbial cerdo, no hay una comprensión real de los matices de las interacciones de audio.
Si parece un cerdo, chilla como un cerdo y camina como un cerdo, es un cerdo. Aunque lleve pintalabios.
La barrera para la excelencia nunca ha sido tan baja, porque la competencia es cada vez más reñida con un algoritmo y su amo desinteresado e inexperto.
El robot nunca alcanzará la verdadera pericia, porque nunca habrá un conjunto suficiente de datos de verdaderos expertos a partir de los cuales se pueda hacer crowdsourcing. Y el crowdsourcing toma el resultado promedio, no el mejor. El robot no piensa. Repite.
El problema de proporcionar una herramienta o un marco que te permita abstraer la funcionalidad es que viene con un conjunto de suposiciones. Cuando compro un martillo, supongo que funcionará. Cuando compro una hidrolimpiadora, supongo que funcionará.
El problema es que cuando utilizo un framework, doy por sentado que funcionará, pero esto es literalmente imposible dada la madurez de la tecnología subyacente. Lejos de aumentar la adopción, los frameworks Agentic venden una ilusión sobre demostraciones altamente controladas y casos de uso finitos que nunca funcionarán en manos del usuario típico (y hay millones...).
Este prefacio tiene como objetivo señalar algo.
Créeme cuando te digo que no digo esto a la ligera.
Lo que Google acaba de hacer con Gemini 2.0 Flash lo ha cambiado absolutamente todo. Todo.
Y nadie lo vio venir.
Una de las historias favoritas de mis padres es la de cuando tenía cinco años y me dieron un papel en la representación del nacimiento local. Mi papel era el de un árbol y adornaba silenciosamente el decorado mientras los niños mayores y más capaces representaban una interpretación del nacimiento de Jesucristo.
No estaba particularmente contento con este papel menor.
Durante los siguientes 10 a 15 minutos, antes de que me sacaran del escenario, seguí al elenco por el escenario, robando sus líneas y recitando mi propia interpretación de la obra.
Interviniendo en momentos perfectos, actuando en otros. Fue una clase magistral de disrupción, y cada risita y mirada llorosa de la multitud que observaba me incitaba a hacer más. Fue una destrucción despiadada.
La representación se convirtió en una farsa, el público lloraba de risa y los actores estaban desconcertados y confundidos.
La risa me animó, se convirtió en un crescendo.
La obra se convirtió en pantomima y el trabajo se completó. Hasta el día de hoy sigue siendo un cuento que se cuenta en las cenas para los nuevos y más jóvenes miembros de la familia.
Por supuesto, esta obra en particular se trata de los 12 días de Navidad de Open AI y de cómo Google no solo les ha robado el protagonismo, sino que ha dominado la narrativa, robado el protagonismo y convertido una celebración navideña de OpenAI en una pesadilla invernal.
Yo, (como la mayoría de las personas racionales), sintonicé los 12 días de Navidad de OpenAI con un saludable grado de escepticismo, y observé cómo demostraban llamadas telefónicas y llamadas API astronómicamente costosas y lentas a un modelo LLM marginalmente mejorado, y me sentí seguro de que mi visión cínica del mundo estaba validada.
Entonces algo pasó.
Ocurrió en segundo plano, con un timing teatral perfecto; como un terremoto, las repercusiones están llegando y serán sentidas por todos y se verán en cada producto.
Pensé que Google había fallado en el campo de la inteligencia artificial, todos lo hicimos. Eran simplemente irrelevantes en todos los usos prácticos. La calidad era mala y la funcionalidad, limitada.
Resulta que no dejaron caer la pelota ni se quedaron dormidos en el trabajo. Simplemente dejaron que la competencia (ahora unos niños en comparación) luchara con versiones Beta, API que apenas funcionaban y problemas de escala mientras construían silenciosamente las herramientas necesarias para usar GenAI de manera efectiva en producción.
Hasta hace una semana ni siquiera tenía una clave API de Google activa.
Esta semana, estoy en el proceso de migrar todos y cada uno de mis servicios.
Quizás parezca precipitado, pero déjame explicarte.
Actualmente, hay dos facciones diferentes dentro del mundo de la IA: científicos y desarrolladores.
Los pioneros y científicos buscan inteligencia artificial general y casos de uso novedosos; se trata de un trabajo importante, como nuevos enfoques para el tratamiento del cáncer o la búsqueda de avances académicos en física cuántica. Pueden ser teóricos o incluso, en algunos casos, algunos brotes verdes de casos de uso prácticos, especialmente en el ámbito de la robótica, por ejemplo.
A esta gente le interesa desarrollar la inteligencia artificial general y adaptar la inteligencia artificial general a una forma más híbrida de inteligencia que aumentará exponencialmente su utilidad con respecto a los LLM actuales. Esto puede llevar años, puede llevar generaciones (¡probablemente!).
Estoy firme y descaradamente en la segunda facción: somos constructores.
GenAI ya es capaz de hacer cosas increíbles, cosas que hace un año o dos habrían sido imposibles. Quiero crear cosas que funcionen ahora mismo.
El trabajo en cuestión consiste en trabajar con los LLM y las API disponibles y ver qué casos de uso podemos implementar.
Un constructor necesita herramientas y mi pila se derivó de incontables horas dedicadas a probar la utilidad de todas las API y modelos disponibles.
1/ Claude 3.5 Soneto para codificar (Código)
2/ API de OpenAI para razonamiento de datos estructurados (agentes)
3/ API de inteligencia artificial de Groq/Fireworks para una inferencia económica e instantánea (llamadas individuales)
4/ Llama para dispositivos locales (computación de borde)
Pensé que la mayoría de mis bases estarían cubiertas durante los próximos 3 a 5 años.
Es posible que en algún momento pueda cambiar los modelos OpenAI por una alternativa más económica, pero el costo de inferencia no es un problema para mí en mi escala de todos modos. Para ser honesto, no estaba realmente interesado en ningún modelo GenAI que no estuviera en la lista anterior, ni siquiera estaba prestando atención al Gemini Flash v2.0.
Ahora estoy prestando atención.
Todos sabemos que 2025 es el año de los Agentes, las redes sociales no paran de decírnoslo.
Odio las exageraciones, pero la verdad subyacente es que los sistemas de IA ahora son básicamente capaces de tomar acciones en nuestro nombre de manera "semi-confiable". Por lo tanto, es justo decir que habrá un montón de software popular lanzado en 2025 que utilizará este paradigma.
Un flujo de agencia típico es más o menos así.
Recibimos una instrucción (Reservar un vuelo, llamar a mi mamá, preparar mi desayuno) que es interpretada por un Prompt. Un prompt generalmente se ejecuta a través de API, de ahí su API de OpenAI o Groq o Fireworks AI. Ese prompt llama a una herramienta (Skyscanner, búsqueda web) que obtiene el resultado y llama a un código configurado por el desarrollador y hace "cosas". El resultado de estas "cosas" luego se devuelve a otro Prompt y el ciclo continúa (nJumps) hasta que hayamos realizado la acción. Hurra.
No parece la arquitectura más limpia ¿verdad?
Si alguna de estas llamadas a la API falla o devuelve un resultado inesperado, se rompe toda la cadena. Han surgido docenas de marcos de Python para abstraer este problema, pero no pueden resolverlo. Las herramientas están mejorando, ahora podemos ver errores en la ejecución, validar datos estructurados y crear cadenas con algo que se acerque a la confiabilidad, de ahí el entusiasmo por Agent 2025.
Pero la arquitectura descrita anteriormente sigue siendo complicada, compleja y poco fiable. A pesar de ello, también es la única forma que teníamos de liberar el potencial de GenAI en los flujos de Agentic.
En diciembre de 2024, Google acaba de dejar obsoleto el modelo de agencia antes mencionado, incluso antes de que se haya vuelto omnipresente.
Las principales razones son las siguientes:
1/ Búsqueda nativa
2/ Orquestación integrada
3/ Multimodal (¡que funciona!)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Lea la documentación de la API de Gemini y tenga en cuenta que esto no es una propuesta ni una fantasía, sino una API que funciona y puede proporcionar resultados en milisegundos.
La búsqueda integrada de Google es confiable y también funciona rápidamente. Competidores como Perplexity tienen un motor de búsqueda de IA basado en texto, que tiene su lugar en el panorama más amplio, pero tenga en cuenta que la propuesta de valor principal ahora se ha integrado como una "característica" de Gemini Flash v2.0.
El propósito y la razón de existencia de Perplexity AI se han asumido dentro de un modelo de IA real que es capaz de lograr la misma calidad y velocidad de resultados con una utilidad masiva en otras áreas también.
El hecho de que Google posea una API de búsqueda propia es fundamental en este caso. Tienen una "herramienta nativa", integrada en la misma API que sirve al modelo de inferencia que puede buscar en Internet con solo agregar un poco de texto a la llamada de API. Ah, pero OpenAI también puede hacer eso, ¿no?
OpenAI no puede competir. Su búsqueda no es nativa (o no está madura) y eso es importante. Realmente se nota. Tienen una “API en tiempo real”, pero no funciona tan bien y es notablemente más lenta y tiene más errores que la implementación de Gemini Flash v2.0 de Google. En tiempo real, más que en cualquier otro dominio, la latencia lo es todo. Los resultados ni siquiera se acercan.
Google ejecuta literalmente la solicitud de búsqueda MIENTRAS el modelo responde y tiene la infraestructura para proporcionar la respuesta antes de que la haya leído. Este pequeño detalle cubre los milisegundos críticos que cambian la experiencia de interacción de “Pintalabios en un cerdo” a “la verdadera oferta”.
La búsqueda integrada de Google funciona, y lo hace muy, muy rápido.
En el mundo de la IA se habla mucho de que nadie tiene foso.
Pues bien, Google acaba de llenar un foso gigante con alegría navideña y tiró del puente levadizo.
Precio, rapidez, calidad… ¿dos? Mmm…
Google está ganando en tres aspectos.
Feliz Navidad OpenAI.
Pero no termina ahí. Google ha cambiado las reglas del juego en términos de flujos de Agentic. Si buscas en Internet “herramientas de IA”, encontrarás montañas de marcos, repositorios de código y proyectos que básicamente hacen lo mismo.
Buscar en Internet; Comprobar.
Sitio web de Scape; consultar
Convertir a markdown; listo.
Ejecutar código; comprobar.
Obtener algunos datos privados; listo.
Todas estas herramientas automatizan la búsqueda, la recuperación y la ejecución del código. https://python.langchain.com/docs/integrations/tools/
El problema es que Google acaba de integrar esto en su API, un único punto final para gestionar todo lo anterior. Ahora es, en esencia, un problema resuelto.
Ya no necesitamos flujos de agentes complejos para muchos casos de uso.
El siguiente diagrama de OpenAI muestra cómo funciona la llamada de funciones para los agentes.
Hasta ahora, tenemos el entorno de ejecución fuera de la API de GenAI.
Google acaba de incorporar la mayor parte de esa funcionalidad en una API central que los desarrolladores pueden utilizar.
Por ejemplo, si quiero usar Llama 3.3 para buscar en Internet, puedo realizar llamadas a herramientas de la siguiente manera.
Este mismo flujo con Gemini Flash v2.0:
Volviendo al punto anterior, Velocidad, Calidad, Coste…
Google acaba de elegir los tres.
Casi todas las herramientas son variaciones de búsqueda, recuperación (conversión a Markdown e inyección en el indicador) y ejecución de código arbitrario con una pizca de datos privados. A excepción de los datos (que casi seguro llegarán pronto...), estas son ahora preocupaciones centrales, lo que ha hecho que muchos sistemas Agentic queden obsoletos antes de su lanzamiento.
No pasará mucho tiempo antes de que también tengamos complementos nativos para sus fuentes de datos de Google (el siguiente paso lógico), momento en el que, a excepción de unos pocos sistemas de IA escalables y altamente complejos, básicamente todos los marcos y procesos actuales son solo implementaciones complicadas de lo que se puede lograr mejor, más rápido y más barato en una sola llamada API.
La relevancia de esto desde un punto de vista arquitectónico es que, en lugar de construir flujos encadenados y complejos, puedo refinar un único modelo simple. Todo se volvió mucho más simple.
Adiós frameworks Python. (no te quedes en contacto).
Incluso si no podemos hacer todo lo que necesitamos ahora, la línea divisoria ya está trazada y las "herramientas" se convertirán en preocupaciones centrales, integradas en las API por los proveedores. Ya no necesitamos crear nuestros propios agentes, tenemos API confiables, escalables y rápidas con las que trabajar.
Al igual que yo, probablemente estés un poco molesto con toda la integración de "demostración" multimodal del uso de audio y video. Recuerdo que estaba muy emocionado por probar la transmisión de audio (he estado desarrollando en WebRTC durante años y en una vida pasada fundé una herramienta de transmisión de video de comercio electrónico).
El potencial es obvio, pero la idea no es del todo acertada. Por ejemplo, vayan al área de juegos de OpenAI y prueben su API en tiempo real. Muestra potencial, pero está muy lejos de ser una experiencia de usuario agradable. La mayoría de los usuarios (y he hablado con cientos de ellos) solo quieren una experiencia que "funcione". Esos milisegundos y entonaciones naturales no son detalles, son la esencia misma del producto.
Gemini Flash v2.0 es el primer modelo que me causó la sensación de asombro que tuve cuando comencé a usar Claude para codificar. Es la misma sensación que sentí la primera vez que le hice una pregunta a ChatGPT con escepticismo y la “máquina” me dio una respuesta humana.
La latencia, las pausas, la entonación de la voz. Google ha dado en el clavo. Sigue siendo un sistema de IA, pero ese nunca fue el problema. El problema siempre fueron las pausas, las interrupciones, la forma en que el modelo interactuaba con los humanos.
No me importa hablar con una máquina, siempre que la máquina tenga conocimientos, sea capaz de interactuar y de hacer las cosas que necesito que haga. Esta es la primera vez que veo un modelo capaz de proporcionar esta experiencia, y las consecuencias son tremendas.
Si te entusiasmaban las interacciones de audio o video y te sentías un poco escéptico con los modelos, prueba Gemini Flash v2.0. Obviamente, Google ha invertido tiempo, esfuerzo y recursos en resolver problemas relacionados con la latencia y el costo. Ningún otro modelo de IA que haya probado se le acerca.
Y es barato…
Y es escalable…
Estoy tan emocionado como la primera vez que le pedí a ChatGPT que escribiera una publicación en LinkedIn hace tantos años. En esta etapa de mi vida y de mi participación en GenAI, eso no es particularmente fácil.
No esperaba que este momento llegara tan pronto.
Ahora tenemos una realidad con un modelo barato, rápido y altamente capaz con el que podemos interactuar en tiempo real.
Esta es literalmente la primera vez en mi vida que puedo hablar con una computadora y sentir que me entiende, que puede responderme y tomar medidas en mi nombre. No es un agente complejo, es una única llamada API.
Se trata de un logro técnico que repercutirá en el mundo de la IA, aunque muchos aún no lo hayan notado.
Además de la interfaz y las interacciones naturales, el modelo es capaz de buscar de forma nativa en Internet, ejecutar código y darme la respuesta en el tiempo que lleva formar una oración.
Hubo un sueño que fue la UX de la IA Generativa.
En diciembre de 2024 se hizo realidad.
Ahora, si me disculpan, me voy a construir cosas.