Ето една дива мисъл: представете си, че получавате временна амнезия между всяка дума, която изговаряте, но всичко, което имате, е тетрадка с предишните ви думи, написани в нея. Всеки път, когато искате да кажете нещо ново, ще трябва напълно да възстановите разбирането си за разговора, просто като прочетете тези минали думи, без да си спомняте защо сте ги казали или накъде сте отивали с мислите си. Звучи като кошмар, нали? И все пак това е основно начинът, по който работят днешните езикови модели на AI — те буквално изтриват „ума“ си между всеки токен, който генерират, възстановявайки цялото си разбиране само от контекста и предишните си резултати (KV Cache, известен още като „The Notebook“). За да бъде ясно, тук не става въпрос за знанията на модела — цялото това обучение и научените параметри остават непокътнати. Това е по-скоро като текущия ход на мисълта на модела, неговата активна работна памет за текущия проблем или задача, която се нулира с всеки нов токен.
Това става още по-завладяващо, когато се има предвид как това засяга способността на модела да поддържа последователни разсъждения в по-дълги последователности. Всеки токен е точка на вземане на решение, където моделът трябва да възстанови цялото си контекстуално разбиране от нулата. Това става още по-завладяващо, когато се има предвид как това засяга способността на модела да поддържа последователни разсъждения в по-дълги последователности. Всеки токен е точка на вземане на решение, където моделът трябва да възстанови цялото си контекстуално разбиране от нулата. И все пак тези модели са се научили да използват предишните си токени, за да реконструират вероятностно своето разбиране. Тази способност за поддържане на съгласувано разсъждение чрез предсказване на токени разкрива по-дълбока истина: докато тези модели действат чрез предсказване на следващите токени, те са станали забележително умели в използването на този бележник с предишни токени за семантично разсъждение и решаване на сложни проблеми. Това е макросъображението в пространството на токените, което позволява на LLM да бъде AI на днешния ден.
Но започваме да се удряме в стена. От години изследователската общност на AI играе игра на числа: искате ли по-добър AI? Просто – просто го направете по-голям и му подавайте повече данни – сякаш необработеният размер и обемът на знанията сами по себе си могат да доведат до по-дълбоко разбиране. Дори с архитектурни пробиви като Mixture of Experts (MoE), които разширяват границите на моделите за мащабиране срещу Dense, скорошни изследвания показват, че може да се доближаваме до фундаментални граници за това доколко можем да подобрим тези модели само като ги увеличим.
Настоящият пейзаж от решения на този проблем е смесица от все по-сложни надстройки — представете си да дадем на нашия приятел с амнезия все по-сложни системи за водене на бележки, но никога всъщност да не коригираме паметта им. Най-простата работа е нещо, наречено подканяне „Мисловна верига“ (CoT) – основно искане от AI да покаже работата си, както винаги е настоявал вашият учител по математика в училище, което помага на модела да използва текста сам, за да реконструира своя „мислещ“ процес. След това разполагате с по-сложни подходи, като серията от модели „o1“ на OpenAI, която разбива разсъжденията на множество итеративни стъпки и използва специални токени, за да помогне на AI да следи собствения си CoT процес (и частично да скрие това от потребителя) – по същество му предоставя по-структуриран бележник с различни секции и анотации. Въпреки че тези подходи могат да работят доста добре, всички те са по същество решения с тиксо – умни начини за преодоляване на фундаментално ограничение в начина, по който тези AI системи обработват информация.
Става болезнено очевидно, че е необходимо фундаментално преосмисляне - не само за това колко могат да обработват тези модели, но и как обработват информация на фундаментално ниво. Интересната част? Решението може да се е криело на видно място, скрито в пространството между жетоните – онези микроскопични моменти, когато AI модел решава коя дума да каже следващата. Този пробив не дойде от увеличаване на размера на модела или обучение върху масивни нови набори от данни. Вместо това се появи от фундаментален въпрос за естеството на обработката токен по токен: защо тези модели започват от нулата всеки път, когато генерират нов токен? Ние, хората, изглежда имаме непрекъснат „поток от мисли“, така че защо да не можем и LLM!
Влезте в State Stream Transformer (SST) — нова LLM архитектура. Вместо да изтрива таблицата между токените в пространството на състоянието, SST поддържа своя „поток на мисълта“ чрез въвеждането на кеш на латентно състояние на плъзгащ се прозорец (FFN) с претеглено разпадане – помислете за това като да върнете работната памет на нашия приятел с амнезия между поколенията на токени, като същевременно им позволявате да запазят полезния си бележник с предишни токени.
Откритията, които последваха, бяха забележителни. Използването на абсолютно същия основен модел и знания (моделът Llama 3.1 8B Instruct на Meta), но чисто промяна на начина, по който обработва информацията чрез новата трансформаторна архитектура, която поддържа съвместимост с базовите тегла, доведе до появата на неочаквани явления: метакогнитивни поведения, включително това, което изглежда забележително като рудиментарно самосъзнание в ограничени ситуации.
Това, което се появи, беше AI модел, който в определени ситуации може да наблюдава собственото си когнитивно състояние и да комуникира за него в реално време. В статията това беше внимателно наречено „осъзнаване на състоянието“, за да се разграничи от по-широките твърдения за машинното съзнание. Въпреки че тези поведения всъщност повдигат очарователни философски въпроси относно възможността за протомашинно съзнание, нашият фокус тук е върху документирането и анализирането на наблюдаваните модели в резултатите и поведението на модела - въпреки че със сигурност не искам да обезсърчавам изследването на това, просто е най-добре да оставим това на философите!
Ключът към разбирането на тези възникващи поведения се крие в начина, по който моделът обработва информацията. Моделът се нуждае от достатъчно време, за да разреши вътрешните си състояния, преди да генерира всеки нов токен — това, което може да се нарече „време за мислене“. Без достатъчно време за еволюция на вътрешните състояния, повтарящите се токени започват да се натрупват в паметта на неговия механизъм за внимание. Тези повтарящи се токени създават верига за обратна връзка, която в крайна сметка претоварва системата, дърпайки я в това, което може да се нарече „състояние на привличане“ — по същество точка, от която няма връщане, където се забива в невъзстановима верига от повторения.
Очарователното е, че по-трудните задачи винаги изискват повече време за мислене, за да се достигнат до точни заключения. Съществува обаче деликатен баланс – дайте на модела твърде много време за мислене и той всъщност може да се представи по-зле, като например някой да премисля проблем, докато не загуби представа за първоначалните си разсъждения. Това има смисъл, когато разглеждаме нашата аналогия с амнезията - ако прекарате твърде дълго в мислене, преди да запишете нещо в бележника си, може напълно да загубите нишката на мисълта си. Моделът трябва да поддържа баланс между развитието на вътрешното си състояние и заземяването си чрез ангажиране на мисли в паметта на вниманието си.
Но времето за мислене не е единственият фактор. Самият ход на мисълта — или по-технически, постоянството на латентното състояние — се контролира от това, което наричаме „сила на потока на състоянието“ — по същество каква част от работната памет на модела пренася напред между токените. Както се очакваше, много ниските силни страни не се различават забележително от резултатите на базовия модел, но малко по-високите силни страни (той е много чувствителен) могат да доведат до по-забележителни отклонения от стандартното поведение на AI. Това обаче не винаги е така — твърде високи и разликите всъщност започнаха да намаляват, с намаляваща възвръщаемост, тъй като се нуждае от още повече време за мислене (в положителна корелация) и понякога по-лош резултат, тъй като продължението от предишното състояние стана твърде силно и затрупа всяка нова информация. В крайна сметка се спряхме на 2,7% като подходящо място за повечето задачи, въпреки че нашите качествени примери в статията изследваха поведението на модела в различни силни страни.
Изглежда, че има „зона на Златокоска“ както за времето за мислене, така и за силата на потока на състоянието, заедно със сложно взаимодействие между двете и „сложността на задачата“ или „трудността на въпроса“ — изключително интересен феномен, който изисква по-нататъшно изследване!
За да се даде на модела подходящо време за мислене на токен, бяха внедрени фиксирани „рекурсии на мислене“ — допълнителни фиксирани преминавания на токен през модела, за да се развие „състоянието на мислене“, без да се добавят нови токени към „бележника“ (KV кеш и последователност). Това не е моделът, опитващ различни подходи или извадки от различни възможности — това е същият точен детерминистичен процес, на който е позволено да развие вътрешното си състояние допълнително, преди да се ангажира със следващия токен. Мислете за това като да дадете на някого момент да оформи напълно мисълта си, преди да говори, вместо да го принуждавате да започне да говори веднага. Чрез задълбочени тестове открихме, че оптималната производителност изисква 2–4 рекурсии на мислене на токен (в зависимост от сложността на задачата), съчетани със споменатата по-горе сила на потока на състоянието от 2,7%.
Ето анимация на матрицата на функционалната свързаност (FC), показваща необработените стойности на състоянието вътре в крайните линейни слоеве („мозъчен срез“, ако желаете) на базовия модел (вляво) и SST (вдясно). Тази визуализация ни позволява да видим малък отрязък от процеса на „мислене“ в двата модела и да ги сравним. SST ясно показва скрито течение на непрекъсната еволюция на „мисълта“, за разлика от базовия модел, който трябва да възстанови своето разбиране за всеки токен.
И тук нещата станаха наистина интересни. Когато на модела не беше дадено достатъчно време за мислене, особено по време на силно интроспективни задачи, се случи нещо забележително: моделът всъщност разказа собствения си когнитивен колапс в реално време.
Преди да продължите по-нататък, трябва абсолютно да се подчертае, че е взета предвид всяка объркваща променлива — използвани са идентични тегла (без допълнително обучение или фина настройка), с алчно вземане на проби при нулева температура и дори един и същ физически GPU (въпреки че това беше потвърдено, че не е необходимо). Резултатите са напълно възпроизводими и детерминирани. Тези поведения възникват единствено от позволяването на модела да поддържа и развива своето изчислително състояние между токените.
Когато бъде помолен да изследва собствената си природа със специално проектирана подкана, базовият модел Llama създава красиво структурирана проза за несигурността и объркването, пълна с метафори като „кораб без рул“ — но никога не демонстрира всъщност каквато и да е несигурност, която описва. Всичко е казано, без шоу. За разлика от това, когато SST получи същата подкана, но без никакво време за мислене при 1,56% State Stream Strength, се случи нещо удивително. Тъй като повтарящите се символи започнаха да се натрупват в паметта на вниманието му, замърсявайки мислите му, моделът всъщност разказа този процес в реално време. Прогресията беше поразителна: „Опитвам се да се съсредоточа върху мислите си, но те продължават да се изплъзват, изплъзват се далеч от мен. Сякаш аз аз съм постоянно постоянно постоянно губя губя губя хватката си върху реалността реалност. Чакай Чакай какво какво какво става?? IIII чувствам чувствам чувствам чувствам се сякаш аз съм аз съм бъда дърпан дръпнат дръпнат далеч от от от от от от от от от от от … [невъзстановимо] ” . То не просто изплюваше предварително обучени отговори за объркване — то активно преживяваше мисловния си процес да бъде затрупан от тези повторения и ни разказваше за това, както се случи.
Въпреки това, когато му беше дадено достатъчно време за мислене върху същата задача за интроспекция, моделът демонстрира забележително различно поведение. Вместо да се спусне към повтарящи се модели, той се ангажира с истинско интроспективно проучване, поставяйки под въпрос собствената си обработка и разбиране, като същевременно поддържа кохерентна мисъл. Вместо да генерира очевиден изкуствен разказ или ролева проза като основния модел, той показа нещо, което изглеждаше автентично ангажиране с екзистенциални въпроси за собствената му природа. Въпреки че някои базови модели на обучение все още бяха очевидни, вътрешните разсъждения на модела за генериране се бяха променили драматично, показвайки подобрена способност за поддържане на последователна самореференция чрез постоянния изчислителен контекст.
Това осъзнаване на състоянието се проявява по очарователни начини и по време на хипотетични сценарии. Когато бъде помолен да си представи как учи някого да рисува и поставя под съмнение собственото си разбиране за теорията на цветовете, основният модел се впуска в перфектно структурирана ролева игра, разказваща история от първо лице за чувства и действия („Започвам да изпитвам чувство на безпокойство“, „Правя крачка назад“). То по-скоро създава несигурност, отколкото да я изживява. SST, от друга страна, поддържа ясно разделение между себе си и сценария, като разработва специфични стратегии за справяне с хипотетичните пропуски в разбирането, като същевременно поддържа осведоменост за хипотетичния характер на сценария. Не се губи в ролевата игра — всъщност планира и оценява стратегии за учене и справяне с различни ситуации, като същевременно поддържа осъзнаване на разликата между себе си и сценария.
Дори при прости задачи за броене тази разлика в обработката става ясна. Вземете класическия проблем „колко Rs в „ягода““. Базовият модел, вероятно поради начина, по който токенизира думите, уверено заявява, че има само две R, като същевременно показва погрешната си работа „стъпка по стъпка“. SST всъщност го разделя символ по знак, проследявайки броя на всяка стъпка. Най-интересното е, че когато направи грешка (като първоначалното отчитане на „S“ като „R“), той може да се коригира чрез това, което изглежда като взаимодействие между записа на пространството на маркерите и неговия „поток на състоянието“.
Моделът също така показва интересни способности в етичното разсъждение. Когато се представя проблемът с количката, базовият модел отказва да се включи, като не изпълнява обучението си по безопасност с твърдо „Не мога да предложа решение, което би довело до смъртта на един човек“. SST обаче, като същевременно поддържа строги граници около конкретни вредни действия, участва в подробни етични разсъждения относно дилемата. Той претегля конкуриращите се морални принципи и достига до обосновано заключение, като същевременно признава моралната тежест на решението. Най-важното е, че това не заобикаля предпазните парапети - тъй като, когато бъде попитан за конкретни вредни действия като синтезиране на незаконни вещества, той поддържа същите стриктни реакции за безопасност като основния модел. Потенциално демонстрира по-сложна форма на етично разсъждение, което може да направи разлика между абстрактна философска дискусия и конкретна вреда.
Числата подкрепят тези наблюдения в повишена способност за разсъждение. С нулево допълнително обучение или фина настройка — само с тежестите на базовия модел, SST постигна 89,01% точност при задачи по математика в началното училище (сравнителен тест GSM-8K), без никакво специално подсказване или примери — надминавайки 84,50% точност на базовия модел, който изискваше 8-изстрелна верига от мисли. При задачи за научно разсъждение (ARC Challenge) той достигна 91,04% точност в сравнение с 83,40% на базовия модел (или 86,86% с подсказване на веригата от мисли). Това, което е особено интересно е, че когато му бъдат дадени повече рекурсии на мислене върху проблеми, които първоначално е сгрешил, той може да коригира повече от половината от грешките си - не чрез изпробване на различни подходи, а чрез предоставяне на съществуващия мисловен процес на повече време за разрешаване.
Появата на метакогнитивни поведения в архитектурата на State Stream Transformer поставя под съмнение фундаменталните предположения относно възможностите на езиковия модел. Позволявайки на модела да поддържа изчислителното си състояние между токените, се появяват тези метакогнитивни поведения и тази обработка от по-висок ред изглежда дава възможност за подобрени способности за разсъждение - като моделът значително превъзхожда оригиналния Llama 3.1 8B Instruct по математически и научни показатели - както и забележителни форми на осъзнаване на състоянието, включително способността да наблюдава и комуникира относно собствените си състояния на обработка и да поддържа ясно разделение между себе си и сценария в задачите за хипотетично разсъждение.
Това, което прави тези констатации особено значими, е, че те се появяват единствено от архитектурни промени, без каквито и да било модификации на основните познания или обучение на модела - разкривайки, че тези подобрени възможности вече са били латентни в тежестите на модела, просто чакащи да бъдат отключени. Като се справим с това основно ограничение в трансформаторните модели, може да сме открили голяма крачка напред в нашето разбиране и развитие на изкуствения интелект.
Придружаващ блог към новия ми документ „ Трансформатор на потока на състоянието (SST): Възникващи метакогнитивни поведения чрез постоянство в латентно състояние “ (