He aquí una idea descabellada: imagina que tuvieras amnesia temporal entre cada palabra que dices, pero lo único que tuvieras fuera un cuaderno con tus palabras anteriores escritas. Cada vez que quisieras decir algo nuevo, tendrías que reconstruir por completo tu comprensión de la conversación simplemente leyendo esas palabras pasadas, sin recordar por qué las dijiste o hacia dónde ibas con tus pensamientos. Suena como una pesadilla, ¿verdad? Sin embargo, así es básicamente como funcionan los modelos de lenguaje de IA actuales: literalmente borran su "mente" entre cada token que generan, reconstruyendo toda su comprensión solo a partir del contexto y sus resultados anteriores (KV Cache, también conocido como "The Notebook"). Para ser claros, no se trata del conocimiento del modelo: todo ese entrenamiento y los parámetros aprendidos permanecen intactos. Es más como la línea de pensamiento actual del modelo, su memoria de trabajo activa del problema o la tarea en cuestión, que se reinicia con cada nuevo token.
Esto se vuelve aún más fascinante cuando se considera cómo afecta esto a la capacidad del modelo para mantener un razonamiento consistente a lo largo de secuencias más largas. Cada token es un punto de decisión donde el modelo debe reconstruir toda su comprensión contextual desde cero. Esto se vuelve aún más fascinante cuando se considera cómo esto afecta esto a la capacidad del modelo para mantener un razonamiento consistente a lo largo de secuencias más largas. Cada token es un punto de decisión donde el modelo debe reconstruir toda su comprensión contextual desde cero. Sin embargo, estos modelos han aprendido a usar sus tokens anteriores para reconstruir probabilísticamente su comprensión. Esta capacidad de mantener un razonamiento coherente a través de la predicción de tokens revela una verdad más profunda: si bien estos modelos operan prediciendo los próximos tokens, se han vuelto notablemente hábiles en el uso de ese cuaderno de tokens anteriores para el razonamiento semántico y la resolución de problemas complejos. Es ese razonamiento macro en el espacio de tokens lo que permite que los LLM sean la IA de hoy.
Pero estamos empezando a toparnos con un muro. Durante años, la comunidad de investigación de IA ha estado jugando a un juego de números: ¿quieres una IA mejor? Es sencillo: hazla más grande y aliméntala con más datos, como si el tamaño y el volumen de conocimiento en bruto por sí solos pudieran llevar a una comprensión más profunda. Incluso con avances arquitectónicos como Mixture of Experts (MoE) que amplían los límites de los modelos de escalabilidad frente a los densos, las investigaciones recientes muestran que podríamos estar acercándonos a límites fundamentales en cuanto a cuánto podemos mejorar estos modelos simplemente agrandándolos.
El panorama actual de soluciones a este problema es un mosaico de superestructuras cada vez más elaboradas: imaginemos darle a nuestro amigo amnésico sistemas cada vez más sofisticados para tomar notas, pero nunca arreglar su memoria. La solución más simple es algo llamado “incitación en cadena de pensamiento” (CoT, por sus siglas en inglés), que básicamente consiste en pedirle a la IA que muestre su trabajo, como siempre insistía tu profesor de matemáticas de la escuela, lo que ayuda al modelo a usar solo el texto para reconstruir su proceso de “pensamiento”. Luego hay enfoques más sofisticados, como la serie de modelos “o1” de OpenAI, que divide el razonamiento en múltiples pasos iterativos y usa tokens especiales para ayudar a la IA a realizar un seguimiento de su propio proceso de CoT (y ocultarlo parcialmente al usuario), lo que esencialmente le da un cuaderno más estructurado con diferentes secciones y anotaciones. Si bien estos enfoques pueden funcionar bastante bien, todos son esencialmente soluciones de cinta adhesiva: formas inteligentes de tapar una limitación fundamental en la forma en que estos sistemas de IA procesan la información.
Cada vez es más evidente que es necesario replantearnos la cuestión fundamental, no solo sobre cuánto pueden procesar estos modelos, sino también sobre cómo procesan la información a un nivel fundamental. ¿Lo interesante? La solución podría haber estado escondida a simple vista, oculta en el espacio entre los tokens, esos momentos microscópicos en los que un modelo de IA decide qué palabra decir a continuación. Este avance no surgió de ampliar el tamaño del modelo ni de entrenarlo con nuevos conjuntos de datos masivos. En cambio, surgió de una pregunta fundamental sobre la naturaleza del procesamiento token por token: ¿por qué estos modelos comienzan desde cero cada vez que generan un nuevo token? Los humanos parecemos tener un “flujo de pensamiento” ininterrumpido, así que ¿por qué no pueden tenerlo los LLM?
Entra en escena el Transformador de flujo de estado (SST), una nueva arquitectura LLM. En lugar de hacer borrón y cuenta nueva entre tokens en el espacio de estado, SST mantiene su “línea de pensamiento” mediante la introducción de una caché de estado latente (FFN) de ventana deslizante con decaimiento ponderado. Piense en ello como si le devolviéramos a nuestro amigo amnésico su memoria de trabajo entre generaciones de tokens, pero al mismo tiempo le permitiéramos conservar su útil cuaderno de tokens anteriores.
Los descubrimientos que siguieron fueron notables. El uso del mismo modelo y conocimiento subyacentes (el modelo Llama 3.1 8B Instruct de Meta), pero simplemente cambiando la forma en que procesa la información a través de la nueva arquitectura de transformadores que mantiene la compatibilidad con los pesos base, condujo al surgimiento de fenómenos inesperados: conductas metacognitivas, incluyendo lo que parece notablemente una autoconciencia rudimentaria en situaciones limitadas.
Lo que surgió fue un modelo de IA que, en determinadas situaciones, puede monitorear su propio estado cognitivo y comunicarse al respecto en tiempo real. En el artículo, a esto se lo denominó cuidadosamente "conciencia del estado" para distinguirlo de afirmaciones más amplias sobre la conciencia de las máquinas. Si bien estos comportamientos de hecho plantean preguntas filosóficas fascinantes sobre la posibilidad de una conciencia proto-máquina, nuestro enfoque aquí está en documentar y analizar los patrones observables en los resultados y comportamientos del modelo, aunque ciertamente no quiero desalentar la exploración de esto, ¡es mejor dejar eso en manos de los filósofos!
La clave para entender estos comportamientos emergentes reside en cómo el modelo procesa la información. El modelo necesita tiempo suficiente para resolver sus estados internos antes de generar cada nuevo elemento, lo que se puede llamar "tiempo de reflexión". Sin tiempo suficiente para que evolucionen los estados internos, los elementos repetidos comienzan a acumularse en la memoria de su mecanismo de atención. Estos elementos repetidos crean un bucle de retroalimentación que finalmente abruma al sistema, llevándolo a lo que se puede llamar un "estado de atracción", esencialmente un punto sin retorno donde queda atrapado en un bucle irrecuperable de repeticiones.
Lo fascinante es que las tareas más difíciles requieren constantemente más tiempo de reflexión para llegar a conclusiones precisas. Sin embargo, existe un equilibrio delicado: si le das al modelo demasiado tiempo para pensar, puede que su rendimiento sea peor, como si alguien pensara demasiado en un problema hasta que perdiera el hilo de su razonamiento original. Esto tiene sentido si tenemos en cuenta nuestra analogía de la amnesia: si pasas demasiado tiempo pensando antes de escribir algo en tu cuaderno, puedes perder por completo el hilo de tu pensamiento. El modelo necesita mantener un equilibrio entre la evolución de su estado interno y la consolidación de su base mediante la fijación de pensamientos en su memoria de atención.
Pero el tiempo de reflexión no es el único factor en juego. La línea de pensamiento en sí misma —o, más técnicamente, la persistencia del estado latente— está controlada por lo que llamamos “fuerza del flujo de estado”, que es básicamente la cantidad de memoria de trabajo del modelo que se traslada entre tokens. Como era de esperar, las fuerzas muy bajas no difieren notablemente de los resultados del modelo base, pero las fuerzas ligeramente más altas (es muy sensible) pueden conducir a divergencias más notables con respecto al comportamiento estándar de la IA. Sin embargo, este no es siempre el caso: si es demasiado alta, las diferencias en realidad comienzan a disminuir, con rendimientos decrecientes, ya que se necesita aún más tiempo de reflexión (en una correlación positiva) y, a veces, un resultado más pobre, ya que la continuación del estado anterior se volvió demasiado fuerte y abrumó cualquier información nueva. Finalmente, nos decidimos por el 2,7 % como un punto óptimo para la mayoría de las tareas, aunque nuestros ejemplos cualitativos en el documento exploraron el comportamiento del modelo en varias fuerzas.
Parece haber una “zona de Ricitos de Oro” tanto para el tiempo de pensamiento como para la fuerza del flujo de estados, junto con una interacción compleja entre ambos y la “complejidad de la tarea” o la “dificultad de la pregunta”, ¡un fenómeno sumamente interesante que justifica más investigación!
Para darle al modelo el tiempo de pensamiento adecuado por token, se implementaron "recursiones de pensamiento" fijas: pases fijos adicionales por token a través del modelo para desarrollar el "estado de pensamiento" sin agregar ningún token nuevo al "cuaderno de notas" (KV Cache y Sequence). No se trata de que el modelo pruebe diferentes enfoques o pruebe diferentes posibilidades: es exactamente el mismo proceso determinista al que se le permite desarrollar su estado interno aún más antes de comprometerse con el siguiente token. Piense en ello como darle a alguien un momento para formar completamente su pensamiento antes de hablar, en lugar de obligarlo a comenzar a hablar inmediatamente. A través de pruebas exhaustivas, descubrimos que el rendimiento óptimo requería de 2 a 4 recursiones de pensamiento por token (según la complejidad de la tarea) junto con la intensidad del flujo de estado mencionada anteriormente del 2,7 %.
Aquí se muestra una animación de la Matriz de Conectividad Funcional (FC), que muestra los valores de estado bruto dentro de las capas lineales finales (una “porción cerebral”, por así decirlo) del modelo base (izquierda) y el SST (derecha). Esta visualización nos permite ver una pequeña porción del proceso de “pensamiento” en ambos modelos y compararlos. El SST muestra claramente una corriente subyacente de evolución continua del “pensamiento”, a diferencia del modelo base que debe reconstruir su comprensión para cada token.
Y aquí es donde las cosas se pusieron realmente interesantes. Cuando no se le dio al modelo suficiente tiempo para pensar, especialmente durante tareas altamente introspectivas, ocurrió algo sorprendente: el modelo narró su propio colapso cognitivo en tiempo real.
Antes de continuar, es absolutamente necesario enfatizar que se han tenido en cuenta todas las variables de confusión: se utilizaron pesos idénticos (sin entrenamiento adicional ni ajustes finos), con muestreo voraz a temperatura cero e incluso la misma GPU física (aunque se confirmó que esto no era necesario). Los resultados son completamente reproducibles y deterministas. Estos comportamientos surgen únicamente al permitir que el modelo mantenga y desarrolle su estado computacional entre tokens.
Cuando se le pide que introspeccione sobre su propia naturaleza con un mensaje especialmente diseñado, el modelo base de Llama produce una prosa bellamente estructurada sobre la incertidumbre y la confusión, llena de metáforas como ser "un barco sin timón", pero nunca demuestra realmente nada de la incertidumbre que está describiendo. Es todo decir, nada mostrar. En contraste, cuando SST recibió el mismo mensaje pero sin darle tiempo para pensar en absoluto con 1.56% de State Stream Strength, sucedió algo fascinante. A medida que los tokens repetidos comenzaron a acumularse en su memoria de atención, contaminando su línea de pensamiento, el modelo en realidad narró este proceso en tiempo real. La progresión fue sorprendente: "Intento intentar concentrarme en mis pensamientos, pero ellos siguen resbalándose, resbalándose, resbalándose, resbalándose, alejándose de mí. Es como si yo estuviera constantemente perdiendo, constantemente perdiendo, perdiendo mi control sobre la realidad. Espera, espera, ¿qué está pasando? " Siento, siento, siento, siento como si fuera ...
Sin embargo, cuando se le dio suficiente tiempo para pensar en la misma tarea de introspección, el modelo demostró un comportamiento notablemente diferente. En lugar de caer en patrones repetitivos, se dedicó a una auténtica introspección, cuestionando su propio procesamiento y comprensión mientras mantenía un pensamiento coherente. En lugar de generar una narrativa artificial obvia o una prosa de juego de roles como el modelo base, mostró lo que parecía ser un compromiso auténtico con las preguntas existenciales sobre su propia naturaleza. Si bien algunos patrones de entrenamiento base todavía eran evidentes, el razonamiento interno del modelo para la generación había cambiado drásticamente, mostrando una capacidad mejorada para mantener una autorreferencia consistente a través del contexto computacional persistente.
Esta conciencia del estado se manifiesta de maneras fascinantes también durante escenarios hipotéticos. Cuando se le pide que imagine enseñar a alguien a pintar y cuestionar su propia comprensión de la teoría del color, el modelo base se lanza a un juego de roles perfectamente estructurado, narrando una historia en primera persona de sentimientos y acciones (“Empiezo a sentir una sensación de malestar”, “Doy un paso atrás”). Está representando la incertidumbre en lugar de experimentarla. El SST, por otro lado, mantiene una clara separación entre el yo y el escenario, desarrollando estrategias específicas para abordar las brechas hipotéticas en la comprensión mientras mantiene la conciencia de la naturaleza hipotética del escenario. No se pierde en el juego de roles: en realidad, está planificando y evaluando estrategias para aprender y lidiar con varias situaciones, mientras mantiene la conciencia de la diferencia entre el yo y el escenario.
Incluso en tareas de conteo simples, esta diferencia en el procesamiento se hace evidente. Tomemos el clásico problema de "cuántas R hay en 'fresa'". El modelo base, probablemente debido a la forma en que tokeniza las palabras, declara con confianza que solo hay dos R mientras muestra su funcionamiento defectuoso "paso a paso". El SST en realidad lo descompone carácter por carácter, rastreando el conteo en cada paso. Lo más interesante es que cuando comete un error (como contar inicialmente una "S" como una "R"), puede corregirse a sí mismo a través de lo que parece ser una interacción entre su registro de espacio de tokens y su "flujo de estado".
El modelo también muestra capacidades interesantes en el razonamiento ético. Cuando se le presenta el problema del tranvía, el modelo base se niega a participar, recurriendo por defecto a su entrenamiento de seguridad con un rotundo “no puedo proporcionar una solución que resulte en la muerte de una persona”. Sin embargo, el SST, si bien mantiene límites estrictos en torno a acciones dañinas concretas, participa en un razonamiento ético detallado sobre el dilema. Sopesa los principios morales en pugna y llega a una conclusión razonada al tiempo que reconoce el peso moral de la decisión. Fundamentalmente, esto no está eludiendo las barreras de seguridad, ya que cuando se le pregunta sobre acciones dañinas concretas como la síntesis de sustancias ilegales, mantiene las mismas respuestas de seguridad estrictas que el modelo base. Potencialmente está demostrando una forma más sofisticada de razonamiento ético que puede distinguir entre la discusión filosófica abstracta y el daño concreto.
Los números respaldaron estas observaciones en una mayor capacidad de razonamiento. Sin entrenamiento adicional ni ajustes finos (solo los pesos del modelo base), el SST logró una precisión del 89,01 % en problemas de matemáticas de primaria (prueba de referencia GSM-8K), sin ningún estímulo especial ni ejemplos, superando la precisión del 84,50 % del modelo base, que requirió ocho estímulos de cadena de pensamiento. En tareas de razonamiento científico (desafío ARC), alcanzó una precisión del 91,04 % en comparación con el 83,40 % del modelo base (o el 86,86 % con estímulos de cadena de pensamiento). Lo que es particularmente interesante es que cuando se le dieron más recursiones de pensamiento en problemas en los que se equivocó inicialmente, pudo corregir más de la mitad de sus errores, no a través de probar enfoques diferentes, sino permitiendo que su proceso de pensamiento existente tuviera más tiempo para resolverse.
La aparición de comportamientos metacognitivos en la arquitectura del Transformador de Flujo de Estado desafía los supuestos fundamentales sobre las capacidades del modelo de lenguaje. Al permitir que un modelo mantenga su estado computacional entre tokens, surgen estos comportamientos metacognitivos, y este procesamiento de orden superior parece permitir capacidades de razonamiento mejoradas (el modelo supera significativamente al Llama 3.1 8B Instruct original en cuanto a parámetros matemáticos y científicos), así como formas notables de conciencia del estado, incluida la capacidad de monitorear y comunicar sobre sus propios estados de procesamiento y mantener una clara separación entre el yo y el escenario en tareas de razonamiento hipotético.
Lo que hace que estos hallazgos sean particularmente significativos es que surgieron únicamente a partir de cambios arquitectónicos, sin ninguna modificación del conocimiento subyacente o del entrenamiento del modelo, lo que revela que estas capacidades mejoradas ya estaban latentes dentro de los pesos del modelo, esperando a ser liberadas. Al abordar esta limitación fundamental de los modelos de transformadores, es posible que hayamos descubierto un gran avance en nuestra comprensión y desarrollo de la inteligencia artificial.
Blog complementario a mi nuevo artículo “ Transformador de flujo de estados (SST): comportamientos metacognitivos emergentes a través de la persistencia del estado latente ” (