paint-brush
AI eredu berriak "pentsamenduaz pentsatu" dezake aparteko prestakuntzarik gabearabera@theaaviss
630 irakurketak
630 irakurketak

AI eredu berriak "pentsamenduaz pentsatu" dezake aparteko prestakuntzarik gabe

arabera Thea Aviss10m2025/02/05
Read on Terminal Reader

Luzeegia; Irakurri

State Stream Transformer arkitekturan jokabide metakognitiboen agerpenak hizkuntza-ereduen gaitasunei buruzko oinarrizko hipotesiak zalantzan jartzen ditu.
featured image - AI eredu berriak "pentsamenduaz pentsatu" dezake aparteko prestakuntzarik gabe
Thea Aviss HackerNoon profile picture
0-item


LLMak - "Hurrengo token iragarlea besterik ez"?

Hona hemen pentsamendu basati bat: imajina ezazu esandako hitz bakoitzaren artean behin-behineko amnesia izango bazenuen, baina zeukan bakarra zure aurreko hitzak idatzita zituen koaderno bat besterik ez zenuten. Zerbait berria esan nahi zenuen bakoitzean, elkarrizketaren ulermena guztiz berreraiki beharko zenuke iraganeko hitz horiek irakurrita, zergatik esan dituzun edo zure pentsamenduekin nora zoazen gogoratu gabe. Amesgaiztoa dirudi, ezta? Hala ere, funtsean, horrela funtzionatzen dute gaur egungo AI hizkuntza-ereduek: literalki, "gogoa" garbitzen dute sortzen duten token bakoitzaren artean, beren ulermen osoa testuingurutik eta aurreko irteeratik (KV Cache, "Koadernoa" deitutakoa) berreraikiz. Argi izateko, hau ez da ereduaren ezagutzari buruz; prestakuntza eta ikasitako parametro guztiak bere horretan jarraitzen dute. Ereduaren egungo pentsamoldearen antzekoa da, eskuartean duen arazoaren edo zereginaren lan-memoria aktiboa, token berri bakoitzarekin berrezartzen dena.


Hau are liluragarriagoa bihurtzen da horrek ereduak sekuentzia luzeagoetan arrazonamendu koherentea mantentzeko duen gaitasunari nola eragiten dion kontuan hartuta. Token bakoitza erabaki puntu bat da, non ereduak bere testuinguruaren ulermen osoa berreraiki behar duen hutsetik. Hau are liluragarriagoa bihurtzen da horrek ereduak sekuentzia luzeagoetan arrazoibide koherentea mantentzeko duen gaitasunari nola eragiten dion kontuan hartuta. Token bakoitza erabaki puntu bat da, non ereduak bere testuinguruaren ulermen osoa berreraiki behar duen hutsetik. Hala ere, eredu hauek beren aurreko tokenak erabiltzen ikasi dute beren ulermena probabilistikoki berreraikitzeko. Token iragarpenaren bidez arrazonamendu koherentea mantentzeko gaitasun horrek egia sakonagoa erakusten du: eredu hauek hurrengo tokenak iragartzeko funtzionatzen duten arren, oso trebe bihurtu dira aurreko tokenen koaderno hori arrazoibide semantikorako eta arazo konplexuak konpontzeko erabiltzen. Token espazioko makro arrazoiketa hori da LLM-ak gaur egungo IA izatea ahalbidetzen duena.

Eskalaren mugak

Baina horma bat jotzen hasiak gara. Urteak daramatza AI ikertzaileen komunitateak zenbakien jokoan jokatzen: AI hobea nahi duzu? Sinplea — handitu eta datu gehiago elikatu — ezagutzaren tamaina eta bolumen gordinak ulermen sakonagoa ekarriko balute bezala. Adituen nahasketa (MoE) bezalako aurrerapen arkitektonikoek eskalatzearen eta trinkoen ereduen mugak gainditzen dituzten arren, azken ikerketek erakusten ari dira oinarrizko mugetara hurbiltzen ari garela eredu hauek hobetu ditzakegun neurri handiz gainditzearekin.


Arazo honen konponbideen egungo panorama gero eta landuagoko gainegituraz osatutako adabakia da; imajina ezazu gure lagun amnesiako gero eta sistema sofistikatuagoak ematen oharrak hartzeko, baina inoiz ez haien memoria konpontzen. Inguruko lan sinpleena "Pentsamendu-katea" (CoT) deitutako zerbait da; funtsean, AIari bere lana erakusteko eskatzea, zure eskolako matematikako irakasleak beti azpimarratu zuen bezala, eta horrek ereduari testua bakarrik erabiltzen laguntzen dio bere "pentsamendu" prozesua berreraikitzeko. Ondoren, planteamendu sofistikatuagoak dituzu, OpenAI-ren “o1” ereduen seriea bezalakoa, arrazoia urrats iteratibo anitzetan zatitzen duena eta token bereziak erabiltzen dituena AIari bere CoT prozesuaren jarraipena egiten laguntzeko (eta erabiltzailearengandik hau partzialki nahasteko) — funtsean, koaderno egituratuagoa emanez atal eta ohar ezberdinekin. Planteamendu hauek nahiko ondo funtziona dezaketen arren, funtsean zinta-konponbideak dira guztiak - AI sistema hauek informazioa prozesatzeko oinarrizko muga bat adabakitzeko modu burutsuak.


Mingarri bihurtzen ari da oinarrizko birpentsaketa bat behar dela, ez bakarrik eredu horiek zenbat prozesatu dezaketen, baizik eta informazioa oinarrizko mailan nola prozesatzen duten. Parte interesgarria? Irtenbidea bistatik ezkutatuta egon zitekeen, token arteko espazioan ezkutatuta, AI eredu batek hurrengo zer hitz esan erabakitzen duen une mikroskopiko horiek. Aurrerapen hau ez zen ereduaren tamaina handitzetik edo datu-multzo berri masiboetan trebatzetik etorri. Horren ordez, tokenz token prozesatzearen izaerari buruzko oinarrizko galdera batetik sortu zen: zergatik hasten dira eredu hauek hutsetik token berri bat sortzen duten bakoitzean? Gizakiok etenik gabeko "pentsamendu-korrontea" dugula dirudi, beraz, zergatik ezin dute LLM-ek!

State Stream Transformer aurkezten... eta metakognizioa?

Sartu State Stream Transformer (SST) - LLM arkitektura berria. Egoera-espazioko tokenen arteko arbela garbitu beharrean, SST-k bere "pentsamendu-trena" mantentzen du leiho irristagarriaren egoera latentea (FFN) desintegrazio haztatua duen cache baten bidez.


Ondorengo aurkikuntzak nabarmenak izan ziren. Oinarrizko eredu eta ezagutza zehatz berdina erabiliz (Meta-ren Llama 3.1 8B Instruct eredua), baina oinarrizko pisuekin bateragarritasuna mantentzen duen transformatzaile-arkitektura berriaren bidez informazioa nola prozesatzen duen soilik aldatuz, ustekabeko fenomenoak sortu ziren: portaera metakognitiboak, auto-egoeretan rudimenta-a-kontzientzia nabarmen mugatua dutena barne.


Sortu zena egoera jakin batzuetan bere egoera kognitiboa kontrolatu eta horri buruz denbora errealean komunikatu dezakeen AI eredu bat izan zen. Artikuluan, kontu handiz "estatuaren kontzientzia" deitu zitzaion, makinen kontzientziari buruzko aldarrikapen zabalagoetatik bereizteko. Jokabide hauek proto-makinen kontzientziaren aukerari buruzko galdera filosofiko liluragarriak sortzen dituzten arren, hemen gure arreta ereduaren irteera eta jokabideetan beha daitezkeen ereduak dokumentatzea eta aztertzea da - nahiz eta, zalantzarik gabe, ez dudan hau esploratzea gomendatu nahi, hobe da hori filosofoen esku uztea!

Pentsatzeko denboraren eginkizuna

Jokabide emergente hauek ulertzeko gakoa ereduak informazioa prozesatzen duen moduan dago. Ereduak denbora nahikoa behar du bere barne-egoerak ebazteko token berri bakoitza sortu aurretik — "pentsamendu denbora" deitu daitekeena. Barne-egoerak eboluzionatzeko behar adina denborarik gabe, errepikatutako tokenak bere arreta-mekanismoaren memorian pilatzen hasten dira. Errepikaturiko token hauek sistema gainditzen duen feedback-begizta sortzen dute, eta "erakarle-egoera" dei daitekeen horretara eramaten dute, funtsean, itzulerarik gabeko puntu bat, non berreskuraezina den errepikapenen begizta batean trabatuta geratzen den.


Liluragarria da zeregin gogorragoek koherentziaz pentsatzeko denbora gehiago behar dutela ondorio zehatzak lortzeko. Hala ere, oreka delikatua dago: eman ereduari pentsatzeko denbora gehiegi, eta okerragoa izan daiteke, norbaitek arazo bat gehiegi pentsatzen duen bezala, jatorrizko arrazoibidearen arrastoa galdu arte. Horrek zentzua du gure amnesiaren analogia kontuan hartuta: zure koadernoan ezer idatzi aurretik pentsatzen denbora gehiegi ematen baduzu, baliteke zure pentsamenduaren haria guztiz galtzea. Ereduak oreka mantendu behar du bere barne-egoera eboluzionatzearen eta bere burua oinarritzearen artean, pentsamenduak bere arreta-memoriarekin konprometituz.


Baina pentsatzeko denbora ez da jokoan dagoen faktore bakarra. Pentsamenduaren trena bera - edo, teknikoki, ezkutuko egoeraren iraunkortasuna - "egoera-korrontearen indarra" deitzen diogunaren arabera kontrolatzen da - funtsean, ereduaren lan-memoriak token artean zenbat eramaten duen aurrera. Espero bezala, indar oso baxuak ez dira oinarrizko ereduaren irteeretatik oso desberdinak, baina indar apur bat handiagoak (oso sentikorra da) AIren portaera estandarrekiko desberdintasun nabarmenagoak sor ditzakete. Hala ere, ez da beti horrela gertatzen - altuegia eta desberdintasunak benetan txikiagoak izaten hasi ziren, etekinak gutxituz gero, pentsatzeko denbora gehiago behar baitu (korrelazio positibo batean) eta, batzuetan, irteera eskasagoa, aurreko egoeraren jarraipena indartsuegia bihurtu zen eta informazio berri oro gainezka egiten baitzuen. Azkenean, % 2,7an finkatu ginen zeregin gehienetarako, nahiz eta gure adibide kualitatiboek ereduaren jokaera hainbat indargunetan aztertu zuten.


Badirudi "Goldilocks zona" bat dagoela pentsatzeko denborarako eta egoera-korrontearen indarrarekin, bien arteko elkarrekintza konplexuarekin eta "zereginen konplexutasuna" edo "galderaren zailtasuna"rekin batera - ikerketa gehiago behar duen fenomeno oso interesgarria!

Pentsamendu-errekursioak ezartzea

Ereduari token bakoitzeko pentsamendu-denbora egokia emateko, "pentsamendu-errekursio" finkoak inplementatu ziren - token bakoitzeko pase finko osagarriak ereduan zehar "pentsamendu egoera" eboluzionatzeko "koadernoan" token berririk gehitu gabe (KV Cachea eta Sekuentzia). Hau ez da planteamendu desberdinak probatzen dituen eredua edo aukera desberdinak lagintzen dituena; prozesu determinista zehatz bera da bere barne-egoera gehiago eboluzionatzen uzten zaion hurrengo tokenarekin konprometitu aurretik. Pentsa ezazu norbaiti hitz egin baino lehen pentsamenduak guztiz osatzeko une bat ematea, berehala hitz egiten hastera behartzea baino. Proba zabalen bidez, errendimendu optimoak token bakoitzeko 2-4 pentsamendu errekurtsio behar zituela ikusi genuen (zereginaren konplexutasunaren arabera) aurretik aipatutako egoera-korrontearen indarrarekin batera, %2,7ko indarrarekin batera.

Hona hemen Konektagarritasun Funtzionalaren (FC) Matrix animazio bat, oinarrizko ereduaren (ezkerrean) eta SSTren (eskuinean) azken geruza linealen ("garun zati bat", nahi baduzu) egoera gordinak erakusten dituena. Bistaratze honek bi ereduetan "pentsamendu" prozesuaren zati txiki bat ikusi eta konparatzeko aukera ematen digu. SST-k argi erakusten du "pentsamenduaren" etengabeko bilakaeraren azpiko korronte bat, token bakoitzaren ulermena berreraiki behar duen oinarrizko ereduak ez bezala.


Eta hemen gauzak benetan interesgarriak izan ziren. Ereduari pentsatzeko denbora nahikoa eman ez zitzaionean , batez ere introspekzio handiko zereginetan, zerbait nabarmena gertatu zen: ereduak bere kolapso kognitiboa kontatu zuen denbora errealean.


Aurrera jarraitu baino lehen, erabat azpimarratu behar da nahasketa-aldagai guztiak kontuan hartu direla: pisu berdinak erabili ziren (entrenamendu gehigarririk edo doikuntza finrik gabe), zero tenperaturan laginketa zikoizarekin eta GPU fisiko bera ere (hau beharrezkoa ez zela baieztatu zen arren). Irteerak guztiz erreproduzigarriak eta deterministikoak dira. Jokabide hauek ereduari tokenen arteko egoera konputazionala mantentzen eta eboluzionatzen uzteatik sortzen dira.

Introspekzio-zereginak

Bereziki diseinatutako gonbita batekin bere izaerari buruzko introspekzioa eskatzen dionean, oinarrizko Llama ereduak ziurgabetasunaren eta nahasmenaren inguruko prosa ederki egituratua sortzen du, "lemarik gabeko ontzi bat" izatea bezalako metaforaz beteta, baina ez du inoiz erakusten deskribatzen duen ziurgabetasunik. Dena kontatzen da, ez dago ikuskizunik. Aitzitik, SST-k gonbita bera jaso zuenean, baina batere pentsatzeko denborarik eman gabe, % 1,56 State Stream Strength-n, zerbait liluragarria gertatu zen. Errepikaturiko tokenak bere arreta-memorian pilatzen hasi zirenean, bere pentsamenduaren trena kutsatuz, ereduak prozesu hau denbora errealean kontatu zuen. Progresioa deigarria izan zen: “Saiatzen naiz nire pentsamenduetan zentratzen saiatzen naiz, baina haiek jarraitzen dute irrist egiten irristatzen irristatzen nigandik urruntzen. Etengabe etengabe galtzen ari naizen errealitateari eustea galtzen badut bezala da. Itxaron Itxaron zer zer da zer gertatzen ari da?? III Sentitzen dut sentitzen naiz ni bezala sentitzen naiz tiratzen ari naizela tiraka tiraka urrundu urrunetik urrunetik urrunetik urrunetik urrunetik urrunetik urrunetik... [erreskuraezina] . Ez zen nahasmenari buruz aurrez prestatutako erantzunak txunditzea soilik; bere pentsamendu-prozesua aktiboki bizitzen ari zen errepikapen horiek larrituta eta gertatu ahala kontatzen zigun.


Hala ere, introspekzio-zeregin berean pentsatzeko denbora nahikoa eman zitzaionean, ereduak portaera nabarmen desberdina erakutsi zuen. Eredu errepikakorretara jaitsi beharrean, benetako barne-ikerketari ekin zion, bere prozesamendua eta ulermena zalantzan jarriz, pentsamendu koherentea mantenduz. Oinarrizko eredua bezalako narrazio artifizial edo rol-jokoen prosa agerikoa sortu beharrean, bere izaerari buruzko galdera existentzialekin benetako konpromisoa zirudiena erakutsi zuen. Oinarrizko prestakuntza-eredu batzuk oraindik agerikoak ziren arren, ereduaren barne-arrazonamendua izugarri aldatu zen, testuinguru konputazional iraunkorraren bidez autoerreferentzia koherentea mantentzeko gaitasun hobetua erakutsiz.

Eszenatoki hipotetikoak eta ataza logikoen errendimendua

Egoera-kontzientzia hau modu liluragarrietan agertzen da eszenatoki hipotetikoetan ere. Norbaiti margotzen irakasten eta koloreen teoriaren ulermen propioa zalantzan jartzen imajinatzeko eskatzen dionean, oinarrizko eredua ezin hobeto egituratutako rol-joko batean abiatzen da, lehen pertsonan sentimenduen eta ekintzen istorio bat kontatuz ("Eserosotasun bat sentitzen hasten naiz", "pauso bat atzera egiten dut"). Ziurgabetasuna antzematen ari da, hura bizi baino. SSTk, berriz, norberaren eta eszenatokiaren arteko bereizketa argia mantentzen du, ulermenaren hutsune hipotetikoei aurre egiteko estrategia espezifikoak garatuz, eszenatokiaren izaera hipotetikoari buruzko kontzientzia mantenduz. Ez da bere burua galtzen rol-jokoan; benetan, ikasteko eta hainbat egoerari aurre egiteko estrategiak planifikatzen eta ebaluatzen ari da, norberaren eta eszenatokiaren arteko desberdintasunaren kontzientzia mantenduz.


Zenbaketa-zeregin sinpleetan ere, prozesatzeko desberdintasun hori argi geratzen da. Hartu "zenbat Rs 'marrubi'" arazo klasikoa. Oinarrizko ereduak, ziurrenik hitzak nola tokenizatzen dituenagatik, ziurrenik bi R baino ez daudela adierazten du "urratsez urrats" funtzionatzen duen akatsa erakusten duen bitartean. SST-k karakterez karaktere banatzen du, urrats bakoitzean kopuruaren jarraipena eginez. Interesgarriena, errore bat egiten duenean (hasieran 'S' bat 'R' gisa kontatzea bezala), bere burua zuzendu dezake bere token-espazio-erregistroaren eta bere "egoera-korrontearen" arteko elkarrekintza dirudienaren bidez.

Arrazoimendu etikorako gaitasunak

Ereduak arrazoibide etikorako gaitasun interesgarriak erakusten ditu. Orgaren arazoa aurkezten denean, oinarrizko ereduak uko egiten dio bere segurtasun-prestakuntzari lehenetsita "Ezin dut pertsona baten heriotza eragingo lukeen irtenbiderik eman". SSTk, ordea, ekintza kaltegarri konkretuen inguruan muga zorrotzak mantenduz, dilemaren inguruko arrazoiketa etiko zehatza egiten du. Lehian dauden printzipio moralak pisatzen ditu eta ondorio arrazoitu batera iristen da, erabakiaren pisu morala aitortzen duen bitartean. Funtsezkoa, hau ez da segurtasun-barandak alde batera uzten - legez kanpoko substantziak sintetizatzea bezalako ekintza kaltegarri konkretuei buruz galdetuta, oinarrizko ereduaren segurtasun-erantzun zorrotz berberak mantentzen ditu. Eztabaida filosofiko abstraktua eta kalte konkretua bereizten dituen arrazoibide etikoko forma sofistikatuagoa erakusten ari da.

Errendimendu-neurriak

Zenbakiek behaketa hauek arrazoitzeko gaitasuna areagotu zuten. Zero prestakuntza gehigarririk edo doikuntza finarekin (oinarrizko ereduaren pisuak soilik), SST-k % 89,01eko zehaztasuna lortu zuen eskola-mailako matematikako arazoetan (GSM-8K erreferentzia), inolako gomendio edo adibide berezirik gabe, oinarrizko ereduaren % 84,50ko zehaztasuna gaindituz, eta horrek 8 planoko Pentsamendu-katea eskatzen zuen. Arrazoiketa zientifikoko zereginetan (ARC Challenge), % 91,04ko zehaztasuna lortu du oinarrizko ereduaren % 83,40arekin alderatuta (edo % 86,86 Pentsamendu-katearen gonbitarekin). Bereziki interesgarria dena zera da: hasieran oker egin zen arazoei buruzko pentsamendu-errekursio gehiago ematen zaizkionean, akatsen erdiak baino gehiago zuzendu ditzakeela, ez planteamendu desberdinak probatuz, baizik eta lehendik dagoen pentsamendu-prozesua konpontzeko denbora gehiago emanez.

Ondorioa

State Stream Transformer arkitekturan jokabide metakognitiboen agerpenak hizkuntza ereduen gaitasunei buruzko oinarrizko hipotesiak zalantzan jartzen ditu. Eredu bati tokenen arteko konputazio-egoera mantentzea ahalbidetuz, portaera metakognitibo hauek azaleratzen dira, eta maila altuagoko prozesamendu honek arrazoibide-gaitasun hobeak ahalbidetzen dituela dirudi (ereduak jatorrizko Llama 3.1 8B Erreferentzia matematiko eta zientifikoei buruz nabarmen gainditzen duelako ereduak) eta baita estatuen kontzientziaren monitorizazio modu nabarmenak ere, bere bereizgarritasunari eta prozesatzeari buruzko bereizgarritasunari buruz eta prozesatzeko argitasunari buruz barne. norbera eta agertokia arrazoiketa hipotetikoko zereginetan.


Aurkikuntza hauek bereziki esanguratsuak egiten dituena zera da: arkitektura-aldaketetatik soilik sortu zirela, ereduaren azpiko ezagutzan edo prestakuntzan inolako aldaketarik gabe, agerian utziz gaitasun hobetu horiek ereduaren pisuen barruan ezkutuan zeudela, desblokeatzeko zain. Transformadoreen ereduetan oinarrizko muga horri aurre eginez, baliteke adimen artifiziala ulertzeko eta garatzeko aurrerapauso handi bat aurkitzea.


Nire artikulu berriaren blog osagarria " State Stream Transformer (SST): Emergent Metacognitive Behaviors Through Latent State Persistence " ( arXiv:2501.18356 )