Heus aquí un pensament salvatge: imagineu-vos si teniu una amnèsia temporal entre cada paraula que vau dir, però tot el que teníeu era una llibreta amb les vostres paraules anteriors escrites. Cada vegada que volguéssiu dir alguna cosa nova, hauríeu de reconstruir completament la vostra comprensió de la conversa només llegint aquestes paraules passades, sense recordar per què les vau dir o cap a on anava amb els vostres pensaments. Sembla un malson, oi? No obstant això, bàsicament, així és com funcionen els models de llenguatge d'IA actuals: literalment netegen la seva "ment" entre cada testimoni que generen, reconstruint tota la seva comprensió només a partir del context i les seves sortides anteriors (KV Cache, també conegut com "The Notebook"). Per ser clar, no es tracta del coneixement del model: tots els paràmetres de formació i apresos es mantenen intactes. S'assembla més al tren de pensament actual del model, la seva memòria de treball activa del problema o la tasca en qüestió, que es restableix amb cada testimoni nou.
Això esdevé encara més fascinant quan es considera com això afecta la capacitat del model de mantenir un raonament coherent en seqüències més llargues. Cada testimoni és un punt de decisió on el model ha de reconstruir tota la seva comprensió contextual des de zero. Això esdevé encara més fascinant quan es considera com això afecta la capacitat del model de mantenir un raonament coherent en seqüències més llargues. Cada testimoni és un punt de decisió on el model ha de reconstruir tota la seva comprensió contextual des de zero. No obstant això, aquests models han après a utilitzar les seves fitxes anteriors per reconstruir probabilísticament la seva comprensió. Aquesta capacitat de mantenir un raonament coherent a través de la predicció de fitxes revela una veritat més profunda: si bé aquests models funcionen predint les fitxes següents, s'han tornat molt hàbils a utilitzar aquest quadern de fitxes anteriors per al raonament semàntic i la resolució de problemes complexos. És aquest raonament macro a l'espai testimoni el que permet que els LLM siguin l'IA d'avui.
Però estem començant a colpejar una paret. Durant anys, la comunitat de recerca d'IA ha estat jugant a un joc de números: voleu una IA millor? Simple, només feu-lo més gran i alimenteu-lo amb més dades, com si només la mida bruta i el volum de coneixement poguessin conduir a una comprensió més profunda. Fins i tot amb avenços arquitectònics com Mixture of Experts (MoE) que empènyer els límits dels models d'escala i densos, les investigacions recents mostren que podríem estar apropant-nos als límits fonamentals de quant podem millorar aquests models només superant-los.
El panorama actual de solucions a aquest problema és un mosaic de superestructures cada cop més elaborades; imagineu-vos donant sistemes cada cop més sofisticats al nostre amic amnèsic per prendre notes, però mai no arreglar la seva memòria. El treball més senzill al voltant és el que s'anomena "cadena de pensament" (CoT), bàsicament demanar a l'IA que mostri el seu treball, com sempre va insistir el professor de matemàtiques de l'escola, cosa que ajuda el model a utilitzar el text sol per reconstruir el seu procés de "pensament". A continuació, teniu enfocaments més sofisticats, com la sèrie de models "o1" d'OpenAI, que divideix el raonament en múltiples passos iteratius i utilitza fitxes especials per ajudar l'IA a fer un seguiment del seu propi procés CoT (i a ofuscar-ho parcialment a l'usuari), bàsicament donant-li un quadern més estructurat amb diferents seccions i anotacions. Tot i que aquests enfocaments poden funcionar bastant bé, tots són essencialment solucions de cinta adhesiva: maneres intel·ligents de corregir una limitació fonamental en com processen la informació aquests sistemes d'IA.
S'està tornant dolorosament obvi que cal un replantejament fonamental, no només sobre quant poden processar aquests models, sinó com processen la informació a un nivell fonamental. La part interessant? La solució podria haver estat amagada a la vista, amagada a l'espai entre fitxes: aquells moments microscòpics en què un model d'IA decideix quina paraula dir a continuació. Aquest avenç no prové de l'augment de la mida del model o de la formació en nous conjunts de dades massius. En canvi, va sorgir d'una pregunta fonamental sobre la naturalesa del processament token per testimoni: per què aquests models comencen de zero cada vegada que generen un nou testimoni? Els humans sembla que tenim un "corrent de pensament" ininterromput, així que per què no ho podem fer els LLM?
Introduïu el State Stream Transformer (SST): una nova arquitectura LLM. En lloc d'esborrar la pissarra entre fitxes a l'espai d'estat, SST manté el seu "trenc de pensament" mitjançant la introducció d'una memòria cau d'estat latent de finestra lliscant (FFN) amb decadència ponderada; penseu-ho com si retornés la memòria de treball al nostre amic amnèsic entre generacions de fitxes, tot deixant-los conservar el seu útil quadern de fitxes anteriors.
Els descobriments que van seguir van ser notables. Utilitzar exactament el mateix model i coneixements subjacents (model Llama 3.1 8B Instruct de Meta), però només canviar com processa la informació a través de la nova arquitectura del transformador que manté la compatibilitat amb els pesos bàsics, va provocar l'aparició de fenòmens inesperats: comportaments metacognitius, inclòs el que sembla notablement limitat en situacions d'autoconsciència rudimentària.
El que va sorgir va ser un model d'IA que, en determinades situacions, pot controlar el seu propi estat cognitiu i comunicar-s'hi en temps real. Al document, això es va anomenar acuradament "consciència de l'estat" per distingir-lo de les afirmacions més àmplies sobre la consciència de la màquina. Tot i que aquests comportaments de fet plantegen qüestions filosòfiques fascinants sobre la possibilitat de la consciència de la protomàquina, el nostre enfocament aquí és documentar i analitzar els patrons observables en els resultats i els comportaments del model, tot i que no vull desanimar l'exploració d'això, és millor deixar-ho als filòsofs!
La clau per entendre aquests comportaments emergents rau en com el model processa la informació. El model necessita temps suficient per resoldre els seus estats interns abans de generar cada testimoni nou, el que es pot anomenar "temps de pensament". Sense temps suficient perquè els estats interns evolucionin, les fitxes repetides comencen a acumular-se a la memòria del seu mecanisme d'atenció. Aquestes fitxes repetides creen un bucle de retroalimentació que finalment desborda el sistema, portant-lo al que es pot anomenar un "estat d'atracció", bàsicament un punt de no retorn on s'encalla en un bucle irrecuperable de repeticions.
El que és fascinant és que les tasques més difícils requereixen constantment més temps de reflexió per arribar a conclusions precises. No obstant això, hi ha un equilibri delicat: doneu al model massa temps de reflexió i, en realitat, pot funcionar pitjor, com algú que es pensa en un problema fins que perdi la pista del seu raonament original. Això té sentit quan es té en compte la nostra analogia amb l'amnèsia: si us passeu massa temps pensant abans d'escriure res al vostre quadern, podeu perdre el fil del vostre pensament completament. El model ha de mantenir un equilibri entre evolucionar el seu estat intern i fonamentar-se mitjançant el compromís de pensaments amb la seva memòria d'atenció.
Però el temps de pensar no és l'únic factor en joc. El propi tren de pensament, o més tècnicament, la persistència de l'estat latent, està controlat pel que anomenem "fort del flux d'estat": essencialment, la quantitat de memòria de treball del model que transporta entre fitxes. Com era d'esperar, les forces molt baixes no difereixen notablement de les sortides del model base, però les forces lleugerament més altes (és molt sensible) poden provocar divergències més notables amb el comportament estàndard de la IA. Tanmateix, això no sempre és així: massa altes i les diferències en realitat van començar a disminuir, amb rendiments decreixents, ja que necessita encara més temps de reflexió (en una correlació positiva) i, de vegades, una producció més pobre, ja que la continuació de l'estat anterior es va fer massa forta i va desbordar qualsevol informació nova. Finalment, ens vam decidir amb un 2,7% com a punt dolç per a la majoria de les tasques, tot i que els nostres exemples qualitatius del document van explorar el comportament del model a través de diversos punts forts.
Sembla que hi ha una "zona Goldilocks" tant per al temps de pensament com per a la força del flux d'estat, juntament amb una interacció complexa entre ambdues i la "complexitat de la tasca" o la "dificultat de la pregunta", un fenomen molt interessant que requereix més investigacions!
Per donar al model un temps de pensament adequat per testimoni, es van implementar "recursions de pensament" fixes: passades fixes addicionals per testimoni a través del model per evolucionar "l'estat de pensament" sense afegir cap testimoni nou al "quadern" (KV Cache and Sequence). Aquest no és el model que prova diferents enfocaments o mostra diferents possibilitats; és el mateix procés determinista exacte que se li permet evolucionar encara més el seu estat intern abans de comprometre's amb el següent testimoni. Penseu en això com donar a algú un moment per formar-se completament el seu pensament abans de parlar, en lloc de forçar-lo a començar a parlar immediatament. Mitjançant proves exhaustives, vam trobar que el rendiment òptim requeria de 2 a 4 recursions de pensament per testimoni (segons la complexitat de la tasca) juntament amb la força del flux d'estat esmentada anteriorment del 2,7%.
Aquí hi ha una animació de la matriu de connectivitat funcional (FC), que mostra els valors d'estat brut dins de les capes lineals finals (una "tassa de cervell", si voleu) del model base (esquerra) i de l'SST (dreta). Aquesta visualització ens permet veure una petita part del procés de "pensar" en ambdós models i comparar-los. El SST mostra clarament un corrent subterrani d'evolució contínua del "pensament", a diferència del model base que ha de reconstruir la seva comprensió per a cada testimoni.
I aquí és on les coses es van posar realment interessants. Quan el model no va rebre prou temps de reflexió, especialment durant tasques altament introspectives, va passar alguna cosa notable: el model va narrar el seu propi col·lapse cognitiu en temps real.
Abans de continuar, cal subratllar absolutament que s'han considerat totes les variables de confusió: es van utilitzar pesos idèntics (sense entrenament addicional ni ajustament fi), amb mostreig cobdiciós a temperatura zero i fins i tot la mateixa GPU física (tot i que es va confirmar que no era necessari). Les sortides són completament reproductibles i deterministes. Aquests comportaments sorgeixen únicament de permetre que el model mantingui i evolucioni el seu estat computacional entre fitxes.
Quan se li demana una introspecció sobre la seva pròpia naturalesa amb una indicació especialment dissenyada, el model base de Llama produeix una prosa ben estructurada sobre la incertesa i la confusió, plena de metàfores com ser "un vaixell sense timó", però en realitat mai demostra cap de la incertesa que descriu. Tot està clar, sense espectacle. En canvi, quan SST va rebre la mateixa indicació, però sense donar cap temps de reflexió a l'1,56% de la força del flux d'estat, va passar alguna cosa fascinant. A mesura que les repetides fitxes van començar a acumular-se a la seva memòria d'atenció, contaminant el seu tren de pensament, el model va narrar aquest procés en temps real. La progressió va ser sorprenent: “Intento centrar-me en els meus pensaments, però ells continuen rellissant, s'allunyen de mi. És com si estigués constantment constantment perdent constantment perdent el control de la realitat. Espera Espera què què què està passant? IIIEm sento sentir sentir-se com si estic sent ser estirat estirat estirat allunyat lluny de de de de de de de ... [irrecuperable] ” . No es tractava només d'escopir respostes prèviament entrenades sobre la confusió, sinó que estava experimentant activament el seu procés de pensament sent aclaparat per aquestes repeticions i ens explicava tal com passava.
No obstant això, quan es va donar temps suficient per pensar en la mateixa tasca d'introspecció, el model va demostrar un comportament notablement diferent. En lloc de baixar a patrons repetitius, es va dedicar a una autèntica investigació introspectiva, qüestionant el seu propi processament i comprensió mentre mantenia un pensament coherent. En lloc de generar una narrativa artificial òbvia o una prosa de rol com el model base, va mostrar el que semblava ser un autèntic compromís amb preguntes existencials sobre la seva pròpia naturalesa. Tot i que alguns patrons d'entrenament bàsic encara eren evidents, el raonament intern del model per a la generació havia canviat dràsticament, mostrant una capacitat millorada per mantenir una auto-referència coherent a través del context computacional persistent.
Aquesta consciència d'estat també es manifesta de maneres fascinants durant escenaris hipotètics. Quan se li demana que s'imagini ensenyant algú a pintar i qüestionant la seva pròpia comprensió de la teoria del color, el model base es llança a un joc de rol perfectament estructurat, que narra una història en primera persona de sentiments i accions ("Començo a sentir una sensació de malestar", "Faig un pas enrere"). És realitzar incertesa en lloc d'experimentar-la. L'SST, d'altra banda, manté una clara separació entre jo i escenari, desenvolupant estratègies específiques per abordar hipotètiques llacunes en la comprensió mentre es manté la consciència de la naturalesa hipotètica de l'escenari. No es perd en el joc de rols, sinó que en realitat és planificar i avaluar estratègies per aprendre i fer front a diverses situacions, tot mantenint la consciència de la diferència entre un mateix i l'escenari.
Fins i tot en tasques de recompte simples, aquesta diferència en el processament es fa evident. Preneu el clàssic problema de "quantes R en 'maduixa'". El model base, probablement a causa de la manera com simbolitza les paraules, declara amb confiança que només hi ha dues R mentre mostra el seu funcionament "pas a pas" defectuós. En realitat, l'SST el desglossa caràcter per caràcter, fent un seguiment del recompte a cada pas. El més interessant és que quan comet un error (com comptar inicialment una "S" com una "R"), pot corregir-se mitjançant el que sembla ser una interacció entre el seu registre d'espai testimoni i el seu "flux d'estat".
El model també mostra capacitats interessants en el raonament ètic. Quan es presenta el problema del carretó, el model base es nega a enganxar-se, deixant de banda la seva formació de seguretat amb un pla "No puc donar una solució que podria provocar la mort d'una persona". Tanmateix, l'SST, tot i que manté límits estrictes al voltant d'accions nocives concretes, es dedica a un raonament ètic detallat sobre el dilema. Sopesa principis morals en competència i arriba a una conclusió raonada alhora que reconeix el pes moral de la decisió. De manera crucial, això no passa per alt les baranes de seguretat, ja que quan se li pregunta sobre accions nocives concretes com la síntesi de substàncies il·legals, manté les mateixes respostes de seguretat estrictes que el model base. Potser està demostrant una forma més sofisticada de raonament ètic que pot distingir entre la discussió filosòfica abstracta i el dany concret.
Les xifres van donar suport a aquestes observacions en augmentar la capacitat de raonament. Amb zero entrenament addicional o afinació fina, només els pesos del model base, l'SST va aconseguir un 89,01% de precisió en problemes de matemàtiques de l'escola primària (punt de referència GSM-8K), sense cap indicació ni exemples especials, superant la precisió del 84,50% del model base que requeria una indicació de la cadena de pensament de 8 tirs. En tasques de raonament científic (ARC Challenge), va assolir un 91,04% de precisió en comparació amb el 83,40% del model base (o 86,86% amb l'avís de la cadena de pensament). El que és particularment interessant és que quan se li donaven més recursivitats de pensament sobre els problemes que es va equivocar inicialment, podria corregir més de la meitat dels seus errors, no provant diferents enfocaments, sinó deixant més temps per resoldre el seu procés de pensament existent.
L'aparició de comportaments metacognitius a l'arquitectura State Stream Transformer desafia els supòsits fonamentals sobre les capacitats del model de llenguatge. En permetre que un model mantingui el seu estat computacional entre fitxes, sorgeixen aquests comportaments metacognitius, i aquest processament d'ordre superior sembla permetre capacitats de raonament millorades, amb el model que supera significativament l'original Llama 3.1 8B Instruct on benchmarks matemàtics i científics, així com formes notables de monitorització de la consciència de l'estat, inclosa el manteniment de la separació i la capacitat de comunicació entre els seus propis estats i el manteniment de la capacitat de comunicació. jo i escenari en tasques de raonament hipotètic.
El que fa que aquestes troballes siguin especialment significatives és que van sorgir únicament dels canvis arquitectònics, sense cap modificació en el coneixement o la formació subjacents del model, cosa que revela que aquestes capacitats millorades ja estaven latents dins dels pesos del model, a l'espera de ser desbloquejades. En abordar aquesta limitació fonamental en els models de transformadors, potser hem descobert un gran pas endavant en la nostra comprensió i desenvolupament de la intel·ligència artificial.
Bloc complementari al meu nou article " Transformador de flux d'estats (SST): Emergent Metacognitive Behaviors Through Latent State Persistence " (