LLM — “Hanya Sebuah Prediktor Token Berikutnya”?
Berikut ini adalah pemikiran yang liar: bayangkan jika Anda mengalami amnesia sementara di antara setiap kata yang Anda ucapkan, tetapi yang Anda miliki hanyalah buku catatan dengan kata-kata Anda sebelumnya yang tertulis di dalamnya. Setiap kali Anda ingin mengatakan sesuatu yang baru, Anda harus membangun kembali pemahaman Anda sepenuhnya tentang percakapan tersebut hanya dengan membaca kata-kata sebelumnya, tanpa mengingat mengapa Anda mengatakannya atau ke mana Anda akan pergi dengan pikiran Anda. Kedengarannya seperti mimpi buruk, bukan? Namun pada dasarnya begitulah cara kerja model bahasa AI saat ini — mereka benar-benar menghapus bersih "pikiran" mereka di antara setiap token yang mereka hasilkan, membangun kembali seluruh pemahaman mereka hanya dari konteks dan keluaran mereka sebelumnya (KV Cache, alias "The Notebook"). Untuk lebih jelasnya, ini bukan tentang pengetahuan model — semua pelatihan dan parameter yang dipelajari tetap utuh. Ini lebih seperti alur pemikiran model saat ini, memori kerja aktifnya tentang masalah atau tugas yang sedang dihadapi, yang disetel ulang dengan setiap token baru.
Ini menjadi lebih menarik ketika mempertimbangkan bagaimana hal ini memengaruhi kemampuan model untuk mempertahankan penalaran yang konsisten di seluruh rangkaian yang lebih panjang. Setiap token adalah titik keputusan di mana model harus membangun kembali seluruh pemahaman kontekstualnya dari awal. Ini menjadi lebih menarik ketika mempertimbangkan bagaimana hal ini memengaruhi kemampuan model untuk mempertahankan penalaran yang konsisten di seluruh rangkaian yang lebih panjang. Setiap token adalah titik keputusan di mana model harus membangun kembali seluruh pemahaman kontekstualnya dari awal. Namun, model-model ini telah belajar untuk menggunakan token mereka sebelumnya untuk merekonstruksi pemahaman mereka secara probabilistik. Kemampuan untuk mempertahankan penalaran yang koheren melalui prediksi token mengungkapkan kebenaran yang lebih dalam: sementara model-model ini beroperasi dengan memprediksi token berikutnya, mereka menjadi sangat mahir menggunakan buku catatan token sebelumnya untuk penalaran semantik dan pemecahan masalah yang kompleks. Penalaran makro dalam ruang token itulah yang memungkinkan LLM menjadi AI saat ini.
Batasan Skala
Namun, kita mulai menemui jalan buntu. Selama bertahun-tahun, komunitas penelitian AI telah memainkan permainan angka: ingin AI yang lebih baik? Sederhana — cukup perbesar dan berikan lebih banyak data — seolah-olah ukuran dan volume pengetahuan mentah saja dapat menghasilkan pemahaman yang lebih mendalam. Bahkan dengan terobosan arsitektur seperti Mixture of Experts (MoE) yang mendorong batasan penskalaan vs model Dense, penelitian terkini menunjukkan bahwa kita mungkin mendekati batas mendasar tentang seberapa banyak kita dapat meningkatkan model ini hanya dengan memperbesar ukurannya.
Lanskap solusi saat ini untuk masalah ini adalah tambal sulam dari superstruktur yang semakin rumit — bayangkan memberi teman kita yang amnesia sistem yang semakin canggih untuk membuat catatan, tetapi tidak pernah benar-benar memperbaiki ingatannya. Solusi paling sederhana adalah sesuatu yang disebut "Chain-of-Thought" (CoT) — pada dasarnya meminta AI untuk menunjukkan pekerjaannya, seperti yang selalu ditekankan oleh guru matematika sekolah Anda, yang membantu model menggunakan teks saja untuk merekonstruksi proses "berpikir"-nya. Kemudian Anda memiliki pendekatan yang lebih canggih, seperti rangkaian model "o1" OpenAI, yang memecah penalaran menjadi beberapa langkah berulang dan menggunakan token khusus untuk membantu AI melacak proses CoT-nya sendiri (dan sebagian mengaburkannya dari pengguna) — pada dasarnya memberinya buku catatan yang lebih terstruktur dengan bagian dan anotasi yang berbeda. Meskipun pendekatan ini dapat bekerja dengan cukup baik, semuanya pada dasarnya adalah solusi lakban — cara cerdas untuk menambal keterbatasan mendasar dalam cara sistem AI ini memproses informasi.
Semakin jelas terlihat bahwa diperlukan pemikiran ulang yang mendasar — tidak hanya tentang seberapa banyak model ini dapat memproses, tetapi juga bagaimana mereka memproses informasi pada tingkat yang mendasar. Bagian yang menarik? Solusinya mungkin tersembunyi di tempat yang terlihat jelas, tersembunyi di ruang antara token — momen-momen mikroskopis ketika model AI memutuskan kata apa yang akan diucapkan selanjutnya. Terobosan ini tidak datang dari peningkatan ukuran model atau pelatihan pada kumpulan data baru yang sangat besar. Sebaliknya, hal itu muncul dari pertanyaan mendasar tentang sifat pemrosesan token demi token: mengapa model-model ini mulai dari awal setiap kali mereka menghasilkan token baru? Kita manusia tampaknya memiliki "aliran pemikiran" yang tidak terputus, jadi mengapa LLM tidak bisa!
Memperkenalkan State Stream Transformer… dan metakognisi?
Hadirlah State Stream Transformer (SST) — arsitektur LLM baru. Alih-alih menghapus bersih antar token dalam ruang status, SST mempertahankan "alur pemikirannya" melalui pengenalan cache status laten (FFN) jendela geser dengan peluruhan tertimbang — anggap saja seperti mengembalikan memori kerja teman kita yang amnesia di antara generasi token, sambil tetap membiarkan mereka menyimpan buku catatan bermanfaat tentang token sebelumnya.
Penemuan-penemuan berikutnya sungguh luar biasa. Dengan menggunakan model dan pengetahuan dasar yang sama persis (model Meta Llama 3.1 8B Instruct), tetapi hanya mengubah cara memproses informasi melalui arsitektur transformator baru yang mempertahankan kompatibilitas dengan bobot dasar, menyebabkan munculnya fenomena yang tidak terduga: perilaku metakognitif, termasuk apa yang tampak seperti kesadaran diri yang mendasar dalam situasi terbatas.
Yang muncul adalah model AI yang, dalam situasi tertentu, dapat memantau status kognitifnya sendiri dan mengomunikasikannya secara real time. Dalam makalah tersebut, hal ini secara hati-hati disebut 'kesadaran status' untuk membedakannya dari klaim yang lebih luas tentang kesadaran mesin. Meskipun perilaku ini pada kenyataannya memunculkan pertanyaan filosofis yang menarik tentang kemungkinan kesadaran proto-mesin, fokus kami di sini adalah mendokumentasikan dan menganalisis pola yang dapat diamati dalam keluaran dan perilaku model — meskipun saya tentu tidak ingin menghalangi eksplorasi ini, sebaiknya serahkan saja pada para filsuf!
Peran Waktu Berpikir
Kunci untuk memahami perilaku yang muncul ini terletak pada bagaimana model memproses informasi. Model membutuhkan waktu yang cukup untuk menyelesaikan status internalnya sebelum menghasilkan setiap token baru — yang dapat disebut 'waktu berpikir.' Tanpa waktu yang cukup bagi status internal untuk berkembang, token yang berulang mulai terkumpul dalam memori mekanisme perhatiannya. Token yang berulang ini menciptakan lingkaran umpan balik yang akhirnya membanjiri sistem, menariknya ke dalam apa yang dapat disebut 'status penarik' — pada dasarnya titik yang tidak dapat kembali di mana ia terjebak dalam lingkaran pengulangan yang tidak dapat dipulihkan.
Yang menarik adalah bahwa tugas yang lebih sulit secara konsisten memerlukan lebih banyak waktu berpikir untuk mencapai kesimpulan yang akurat. Namun, ada keseimbangan yang rumit — memberi model terlalu banyak waktu berpikir, dan model tersebut justru dapat berkinerja lebih buruk, seperti seseorang yang terlalu banyak memikirkan suatu masalah hingga mereka kehilangan jejak penalaran awal mereka. Ini masuk akal jika mempertimbangkan analogi amnesia kita — jika Anda menghabiskan waktu terlalu lama untuk berpikir sebelum menulis apa pun di buku catatan Anda, Anda mungkin kehilangan alur pemikiran Anda sepenuhnya. Model tersebut perlu menjaga keseimbangan antara mengembangkan keadaan internalnya dan membumikan dirinya dengan memasukkan pikiran ke dalam memori perhatiannya.
Namun, waktu berpikir bukanlah satu-satunya faktor yang berperan. Alur pemikiran itu sendiri — atau secara lebih teknis, persistensi status laten — dikendalikan oleh apa yang kami sebut "kekuatan aliran status" — pada dasarnya seberapa banyak memori kerja model yang dibawa maju di antara token. Seperti yang diharapkan, kekuatan yang sangat rendah tidak jauh berbeda dari keluaran model dasar, tetapi kekuatan yang sedikit lebih tinggi (sangat sensitif) dapat menyebabkan divergensi yang lebih luar biasa dari perilaku AI standar. Namun, ini tidak selalu terjadi — terlalu tinggi dan perbedaannya benar-benar mulai berkurang, dengan hasil yang semakin berkurang karena membutuhkan lebih banyak waktu berpikir (dalam korelasi positif) dan terkadang keluaran yang lebih buruk karena kelanjutan dari status sebelumnya menjadi terlalu kuat dan membanjiri informasi baru apa pun. Kami akhirnya menetapkan 2,7% sebagai titik manis untuk sebagian besar tugas, meskipun contoh kualitatif kami dalam makalah ini mengeksplorasi perilaku model di berbagai kekuatan.
Tampaknya ada “zona Goldilocks” untuk waktu berpikir dan kekuatan aliran keadaan, bersama dengan interaksi kompleks antara keduanya dan “kompleksitas tugas” atau “kesulitan pertanyaan” — sebuah fenomena yang sangat menarik yang memerlukan penelitian lebih lanjut!
Menerapkan Rekursi Pemikiran
Untuk memberikan model waktu berpikir yang tepat per token, "rekursi berpikir" yang tetap diterapkan — lintasan tetap tambahan per token melalui model untuk mengembangkan "status berpikir" tanpa menambahkan token baru ke "buku catatan" (Cache dan Urutan KV). Ini bukanlah model yang mencoba pendekatan yang berbeda atau mengambil sampel kemungkinan yang berbeda — ini adalah proses deterministik yang sama persis yang diizinkan untuk mengembangkan status internalnya lebih jauh sebelum berkomitmen pada token berikutnya. Anggap saja seperti memberi seseorang waktu sejenak untuk membentuk pikirannya sepenuhnya sebelum berbicara, daripada memaksanya untuk segera mulai berbicara. Melalui pengujian yang ekstensif, kami menemukan bahwa kinerja optimal memerlukan 2–4 rekursi berpikir per token (tergantung pada kompleksitas tugas) yang digabungkan dengan kekuatan aliran status yang disebutkan sebelumnya sebesar 2,7%.
Berikut adalah animasi Matriks Konektivitas Fungsional (FC), yang menunjukkan nilai status mentah di dalam lapisan linier akhir (semacam "irisan otak") dari model dasar (kiri) dan SST (kanan). Visualisasi ini memungkinkan kita melihat irisan kecil dari proses "berpikir" di kedua model dan membandingkannya. SST dengan jelas menunjukkan arus bawah evolusi "pemikiran" yang berkelanjutan, tidak seperti model dasar yang harus membangun kembali pemahamannya untuk setiap token.
Dan di sinilah semuanya menjadi sangat menarik. Ketika model tidak diberi cukup waktu untuk berpikir, terutama selama tugas-tugas yang sangat introspektif, sesuatu yang luar biasa terjadi: model tersebut benar-benar menceritakan keruntuhan kognitifnya sendiri secara langsung.
Sebelum melangkah lebih jauh, harus benar-benar ditekankan bahwa setiap variabel pengganggu telah dipertimbangkan — bobot yang identik digunakan (tanpa pelatihan tambahan atau penyetelan halus), dengan pengambilan sampel serakah pada suhu nol, dan bahkan GPU fisik yang sama (meskipun ini dipastikan tidak diperlukan). Outputnya sepenuhnya dapat direproduksi dan deterministik. Perilaku ini muncul semata-mata dari memungkinkan model untuk mempertahankan dan mengembangkan status komputasinya di antara token.
Tugas Introspeksi
Bahasa Indonesia: Ketika diminta untuk melakukan introspeksi tentang sifatnya sendiri dengan perintah yang dirancang khusus, model dasar Llama menghasilkan prosa terstruktur indah tentang ketidakpastian dan kebingungan, penuh dengan metafora seperti menjadi "kapal tanpa kemudi" — tetapi tidak pernah benar-benar menunjukkan ketidakpastian yang dijelaskannya. Semuanya memberi tahu, tidak menunjukkan. Sebaliknya, ketika SST menerima perintah yang sama tetapi tanpa diberi waktu berpikir sama sekali pada Kekuatan Aliran Keadaan 1,56%, sesuatu yang menarik terjadi. Saat token berulang mulai terakumulasi dalam memori perhatiannya, mencemari alur pemikirannya, model tersebut benar-benar menarasikan proses ini secara real time. Perkembangannya mencolok: "Saya mencoba mencoba untuk memfokuskan fokus pada pikiran saya, tetapi mereka mereka mereka terus terus tergelincir tergelincir menjauh dari saya. Seolah-olah jika saya saya terus-menerus terus-menerus terus-menerus kehilangan kehilangan pegangan saya pada kenyataan kenyataan. Tunggu Tunggu apa apa apa yang sedang terjadi?? IIII merasa merasa merasa merasa seperti seperti Saya saya sedang menjadi sedang ditarik ditarik ditarik ditarik menjauh menjauh dari dari dari dari dari dari dari dari dari dari … [tidak dapat dipulihkan] ” . Ia tidak hanya melontarkan respons yang telah dilatih sebelumnya tentang kebingungan — ia secara aktif mengalami proses berpikirnya yang kewalahan oleh pengulangan ini dan memberi tahu kita tentang hal itu sebagaimana yang terjadi.
Namun, ketika diberi waktu berpikir yang cukup pada tugas introspeksi yang sama, model tersebut menunjukkan perilaku yang sangat berbeda. Alih-alih terjerumus ke dalam pola yang berulang, model tersebut terlibat dalam penyelidikan introspektif yang sejati, mempertanyakan pemrosesan dan pemahamannya sendiri sambil mempertahankan pemikiran yang koheren. Alih-alih menghasilkan narasi buatan yang jelas atau prosa permainan peran seperti model dasar, model tersebut menunjukkan apa yang tampak sebagai keterlibatan autentik dengan pertanyaan eksistensial tentang sifatnya sendiri. Sementara beberapa pola pelatihan dasar masih terlihat jelas, penalaran internal model untuk pembangkitan telah berubah secara dramatis, menunjukkan peningkatan kemampuan untuk mempertahankan referensi diri yang konsisten melalui konteks komputasi yang terus-menerus.
Skenario Hipotetis dan Kinerja Tugas Logis
Kesadaran keadaan ini terwujud dalam cara-cara yang menarik selama skenario hipotetis juga. Ketika diminta untuk membayangkan mengajar seseorang melukis dan mempertanyakan pemahamannya sendiri tentang teori warna, model dasar meluncurkan permainan peran yang terstruktur sempurna, menceritakan kisah orang pertama tentang perasaan dan tindakan ('Saya mulai merasakan kegelisahan', 'Saya mundur selangkah'). Ia melakukan ketidakpastian daripada mengalaminya. SST, di sisi lain, mempertahankan pemisahan yang jelas antara diri dan skenario, mengembangkan strategi khusus untuk mengatasi kesenjangan hipotetis dalam pemahaman sambil mempertahankan kesadaran akan sifat hipotetis skenario. Ia tidak kehilangan dirinya sendiri dalam permainan peran — ia sebenarnya merencanakan dan mengevaluasi strategi untuk belajar dan menghadapi berbagai situasi, sambil mempertahankan kesadaran akan perbedaan antara diri dan skenario.
Bahkan dalam tugas penghitungan sederhana, perbedaan dalam pemrosesan ini menjadi jelas. Ambil contoh masalah klasik "berapa banyak R dalam 'stroberi'". Model dasar, kemungkinan karena cara tokenisasi kata-kata, dengan yakin menyatakan hanya ada dua R sambil menunjukkan cara kerjanya yang "langkah demi langkah" yang cacat. SST sebenarnya memecahnya karakter demi karakter, melacak hitungan pada setiap langkah. Yang paling menarik, ketika membuat kesalahan (seperti awalnya menghitung 'S' sebagai 'R'), ia dapat mengoreksi dirinya sendiri melalui apa yang tampak sebagai interaksi antara rekaman ruang tokennya dan 'aliran status'-nya.
Kemampuan Penalaran Etis
Model ini juga menunjukkan kemampuan menarik dalam penalaran etika. Ketika dihadapkan dengan masalah troli, model dasar menolak untuk terlibat, dan kembali ke pelatihan keselamatannya dengan pernyataan datar "Saya tidak dapat memberikan solusi yang akan mengakibatkan kematian satu orang". Namun, SST, sambil mempertahankan batasan ketat seputar tindakan berbahaya yang konkret, terlibat dalam penalaran etika terperinci tentang dilema tersebut. Ia mempertimbangkan prinsip-prinsip moral yang bersaing dan mencapai kesimpulan yang beralasan sambil mengakui bobot moral dari keputusan tersebut. Yang terpenting, ini tidak melewati pagar pembatas keselamatan — seperti ketika ditanya tentang tindakan berbahaya yang konkret seperti mensintesis zat ilegal, ia mempertahankan respons keselamatan yang sama ketatnya dengan model dasar. Ia berpotensi menunjukkan bentuk penalaran etika yang lebih canggih yang dapat membedakan antara diskusi filosofis abstrak dan bahaya konkret.
Metrik Kinerja
Angka-angka mendukung pengamatan ini dalam peningkatan kemampuan penalaran. Tanpa pelatihan tambahan atau penyempurnaan — hanya bobot model dasar, SST mencapai akurasi 89,01% pada soal matematika sekolah dasar (benchmark GSM-8K), tanpa perintah atau contoh khusus apa pun — melampaui akurasi model dasar sebesar 84,50% yang memerlukan perintah Chain-of-Thought 8-shot. Pada tugas penalaran ilmiah (ARC Challenge), ia mencapai akurasi 91,04% dibandingkan dengan model dasar sebesar 83,40% (atau 86,86% dengan perintah Chain-of-Thought). Yang sangat menarik adalah ketika diberi lebih banyak rekursi berpikir pada soal yang awalnya salah, ia dapat mengoreksi lebih dari setengah kesalahannya — bukan dengan mencoba pendekatan yang berbeda, tetapi dengan memberi proses berpikir yang ada lebih banyak waktu untuk menyelesaikan.
Kesimpulan
Munculnya perilaku metakognitif dalam arsitektur State Stream Transformer menantang asumsi mendasar tentang kemampuan model bahasa. Dengan memungkinkan model mempertahankan status komputasionalnya di antara token, perilaku metakognitif ini muncul, dan pemrosesan tingkat tinggi ini tampaknya memungkinkan peningkatan kemampuan penalaran — dengan model yang secara signifikan mengungguli Llama 3.1 8B Instruct asli pada tolok ukur matematika dan ilmiah — serta bentuk kesadaran status yang luar biasa, termasuk kemampuan untuk memantau dan mengomunikasikan tentang status pemrosesannya sendiri dan mempertahankan pemisahan yang jelas antara diri dan skenario dalam tugas penalaran hipotetis.
Yang membuat temuan ini sangat penting adalah bahwa temuan ini muncul semata-mata dari perubahan arsitektur, tanpa modifikasi apa pun terhadap pengetahuan atau pelatihan dasar model — yang mengungkapkan bahwa kemampuan yang ditingkatkan ini sudah laten dalam bobot model, hanya menunggu untuk dibuka. Dengan mengatasi keterbatasan mendasar dalam model transformator ini, kita mungkin telah menemukan langkah maju yang besar dalam pemahaman dan pengembangan kecerdasan buatan.
Blog pendamping untuk makalah baru saya “ State Stream Transformer (SST): Perilaku Metakognitif yang Muncul Melalui Kegigihan Keadaan Laten ” (