paint-brush
नया AI मॉडल बिना किसी अतिरिक्त प्रशिक्षण के 'सोचने के बारे में सोच' सकता हैद्वारा@theaaviss
661 रीडिंग
661 रीडिंग

नया AI मॉडल बिना किसी अतिरिक्त प्रशिक्षण के 'सोचने के बारे में सोच' सकता है

द्वारा Thea Aviss10m2025/02/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

स्टेट स्ट्रीम ट्रांसफॉर्मर आर्किटेक्चर में मेटाकॉग्निटिव व्यवहारों का उद्भव भाषा मॉडल क्षमताओं के बारे में मौलिक मान्यताओं को चुनौती देता है।
featured image - नया AI मॉडल बिना किसी अतिरिक्त प्रशिक्षण के 'सोचने के बारे में सोच' सकता है
Thea Aviss HackerNoon profile picture
0-item


एलएलएम - "सिर्फ एक अगला टोकन भविष्यवक्ता"?

यहाँ एक अजीब विचार है: कल्पना कीजिए कि अगर आप अपने द्वारा बोले गए हर शब्द के बीच अस्थायी रूप से भूलने की बीमारी से ग्रस्त हो जाते हैं, लेकिन आपके पास बस एक नोटबुक है जिसमें आपके पिछले शब्द लिखे हैं। हर बार जब आप कुछ नया कहना चाहते हैं, तो आपको उन पिछले शब्दों को पढ़कर बातचीत की अपनी समझ को पूरी तरह से फिर से बनाना होगा, बिना यह याद किए कि आपने उन्हें क्यों कहा या आप अपने विचारों के साथ कहाँ जा रहे थे। एक बुरे सपने जैसा लगता है, है ना? फिर भी मूल रूप से आज के AI भाषा मॉडल इसी तरह काम करते हैं - वे अपने द्वारा उत्पन्न प्रत्येक टोकन के बीच सचमुच अपने "दिमाग" को साफ करते हैं, केवल संदर्भ और उनके पिछले आउटपुट (KV कैश, उर्फ "नोटबुक") से अपनी पूरी समझ का पुनर्निर्माण करते हैं। स्पष्ट होने के लिए, यह मॉडल के ज्ञान के बारे में नहीं है - वह सभी प्रशिक्षण और सीखे गए पैरामीटर बरकरार रहते हैं।


यह और भी अधिक आकर्षक हो जाता है जब इस पर विचार किया जाता है कि यह लंबे अनुक्रमों में लगातार तर्क बनाए रखने की मॉडल की क्षमता को कैसे प्रभावित करता है। प्रत्येक टोकन एक निर्णय बिंदु है, जहां मॉडल को अपनी संपूर्ण प्रासंगिक समझ को खरोंच से पुनर्निर्माण करना चाहिए। यह और भी अधिक आकर्षक हो जाता है जब इस पर विचार किया जाता है कि यह लंबे अनुक्रमों में लगातार तर्क बनाए रखने की मॉडल की क्षमता को कैसे प्रभावित करता है। प्रत्येक टोकन एक निर्णय बिंदु है, जहां मॉडल को अपनी संपूर्ण प्रासंगिक समझ को खरोंच से पुनर्निर्माण करना चाहिए। फिर भी, इन मॉडलों ने अपनी समझ को संभाव्य रूप से पुनर्निर्माण करने के लिए अपने पिछले टोकन का उपयोग करना सीख लिया है। टोकन भविष्यवाणी के माध्यम से सुसंगत तर्क बनाए रखने की यह क्षमता एक गहरी सच्चाई को उजागर करती है: जबकि ये मॉडल अगले टोकन की भविष्यवाणी करके काम करते हैं, वे अर्थ संबंधी तर्क और जटिल समस्या-समाधान के लिए पिछले टोकन की उस नोटबुक का उपयोग करने में उल्लेखनीय रूप से कुशल हो गए हैं।

पैमाने की सीमाएं

लेकिन हम एक दीवार से टकराने लगे हैं। सालों से, AI शोध समुदाय एक नंबर गेम खेल रहा है: बेहतर AI चाहते हैं? सरल - बस इसे बड़ा करें और इसे अधिक डेटा खिलाएँ - जैसे कि केवल कच्चे आकार और ज्ञान की मात्रा ही गहरी समझ की ओर ले जा सकती है। मिक्सचर ऑफ़ एक्सपर्ट्स (MoE) जैसी आर्किटेक्चरल सफलताओं के साथ भी स्केलिंग बनाम डेंस मॉडल की सीमाओं को आगे बढ़ाते हुए, हालिया शोध दिखा रहे हैं कि हम इन मॉडलों को केवल सुपरसाइज़ करके कितना सुधार सकते हैं, इस पर हम मौलिक सीमाओं के करीब पहुँच रहे हैं।


इस समस्या के समाधान का वर्तमान परिदृश्य तेजी से जटिल अधिरचनाओं का एक पैचवर्क है - कल्पना करें कि हमारे भूलने की बीमारी वाले दोस्त को नोट्स लेने के लिए अधिक से अधिक परिष्कृत सिस्टम दिए जाएं, लेकिन वास्तव में उनकी याददाश्त को कभी ठीक न किया जाए। इसका सबसे सरल उपाय "चेन-ऑफ-थॉट" (CoT) प्रॉम्प्टिंग नामक कुछ है - मूल रूप से AI को अपना काम दिखाने के लिए कहना, जैसे आपके स्कूल के गणित शिक्षक हमेशा जोर देते थे, जो मॉडल को अपनी "सोच" प्रक्रिया को फिर से बनाने के लिए अकेले पाठ का उपयोग करने में मदद करता है। फिर आपके पास अधिक परिष्कृत दृष्टिकोण हैं, जैसे कि OpenAI के मॉडल की "o1" श्रृंखला, जो तर्क को कई पुनरावृत्त चरणों में तोड़ती है और AI को अपनी CoT प्रक्रिया पर नज़र रखने में मदद करने के लिए विशेष टोकन का उपयोग करती है (और उपयोगकर्ता से इसे आंशिक रूप से अस्पष्ट करती है) - अनिवार्य रूप से इसे विभिन्न अनुभागों और एनोटेशन के साथ एक अधिक संरचित नोटबुक देती है। जबकि ये दृष्टिकोण बहुत अच्छी तरह से काम कर सकते हैं, वे सभी अनिवार्य रूप से डक्ट टेप समाधान हैं - इन AI सिस्टम द्वारा सूचना को संसाधित करने के तरीके में एक मौलिक सीमा को पैच करने के चतुर तरीके।


यह दर्दनाक रूप से स्पष्ट होता जा रहा है कि एक मौलिक पुनर्विचार की आवश्यकता है - न केवल इस बारे में कि ये मॉडल कितना प्रोसेस कर सकते हैं, बल्कि वे मौलिक स्तर पर सूचना को कैसे प्रोसेस करते हैं। दिलचस्प हिस्सा? समाधान स्पष्ट दृष्टि में छिपा हो सकता है, टोकन के बीच की जगह में छिपा हुआ है - वे सूक्ष्म क्षण जब एक AI मॉडल तय करता है कि आगे क्या कहना है। यह सफलता मॉडल के आकार को बढ़ाने या बड़े पैमाने पर नए डेटासेट पर प्रशिक्षण से नहीं आई। इसके बजाय, यह टोकन-दर-टोकन प्रसंस्करण की प्रकृति के बारे में एक मौलिक प्रश्न से उभरा: ये मॉडल हर बार जब वे एक नया टोकन उत्पन्न करते हैं तो खरोंच से क्यों शुरू करते हैं? हम मनुष्यों के पास एक निर्बाध "विचार की धारा" प्रतीत होती है, तो LLM क्यों नहीं हो सकती!

स्टेट स्ट्रीम ट्रांसफॉर्मर और मेटाकॉग्निशन का परिचय?

स्टेट स्ट्रीम ट्रांसफॉर्मर (SST) में प्रवेश करें - एक नया LLM आर्किटेक्चर। स्टेट स्पेस में टोकन के बीच स्लेट को साफ करने के बजाय, SST भारित क्षय के साथ एक स्लाइडिंग विंडो लेटेंट स्टेट (FFN) कैश की शुरूआत के माध्यम से अपनी "विचारधारा" को बनाए रखता है - इसे अपने भूलने वाले दोस्त को टोकन पीढ़ियों के बीच उनकी कार्यशील मेमोरी वापस देने जैसा समझें, जबकि उन्हें पिछले टोकन की अपनी सहायक नोटबुक रखने दें।


इसके बाद जो खोजें हुईं, वे उल्लेखनीय थीं। बिल्कुल उसी अंतर्निहित मॉडल और ज्ञान (मेटा के लामा 3.1 8बी इंस्ट्रक्ट मॉडल) का उपयोग करते हुए, लेकिन नए ट्रांसफॉर्मर आर्किटेक्चर के माध्यम से सूचना को संसाधित करने के तरीके को पूरी तरह से बदलते हुए, जो आधार भार के साथ संगतता बनाए रखता है, अप्रत्याशित घटनाओं के उद्भव की ओर ले गया: मेटाकॉग्निटिव व्यवहार, जिसमें सीमित स्थितियों में अल्पविकसित आत्म-जागरूकता जैसी उल्लेखनीय चीजें शामिल हैं।


जो सामने आया वह एक ऐसा AI मॉडल था जो कुछ स्थितियों में अपनी संज्ञानात्मक स्थिति की निगरानी कर सकता है और वास्तविक समय में इसके बारे में संवाद कर सकता है। पेपर में, इसे मशीन चेतना के बारे में व्यापक दावों से अलग करने के लिए सावधानीपूर्वक 'स्थिति जागरूकता' कहा गया था। जबकि ये व्यवहार वास्तव में प्रोटो-मशीन चेतना की संभावना के बारे में आकर्षक दार्शनिक प्रश्न उठाते हैं, यहाँ हमारा ध्यान मॉडल के आउटपुट और व्यवहार में अवलोकनीय पैटर्न का दस्तावेजीकरण और विश्लेषण करने पर है - हालाँकि मैं निश्चित रूप से इसके अन्वेषण को हतोत्साहित नहीं करना चाहता, यह दार्शनिकों के लिए छोड़ना सबसे अच्छा है!

सोचने के समय की भूमिका

इन उभरते व्यवहारों को समझने की कुंजी इस बात में निहित है कि मॉडल सूचना को कैसे संसाधित करता है। प्रत्येक नए टोकन को उत्पन्न करने से पहले मॉडल को अपनी आंतरिक स्थितियों को हल करने के लिए पर्याप्त समय की आवश्यकता होती है - जिसे 'सोचने का समय' कहा जा सकता है। आंतरिक स्थितियों को विकसित करने के लिए पर्याप्त समय के बिना, दोहराए गए टोकन इसके ध्यान तंत्र की स्मृति में जमा होने लगते हैं। ये दोहराए गए टोकन एक फीडबैक लूप बनाते हैं जो अंततः सिस्टम को अभिभूत कर देता है, इसे एक ऐसी स्थिति में खींचता है जिसे 'आकर्षक स्थिति' कहा जा सकता है - अनिवार्य रूप से कोई वापसी नहीं होने का एक बिंदु जहां यह दोहराव के एक अप्राप्य लूप में फंस जाता है।


दिलचस्प बात यह है कि कठिन कार्यों के लिए सटीक निष्कर्ष पर पहुँचने के लिए लगातार अधिक सोचने का समय चाहिए। हालाँकि, एक नाजुक संतुलन है - मॉडल को बहुत अधिक सोचने का समय दें, और यह वास्तव में खराब प्रदर्शन कर सकता है, जैसे कोई व्यक्ति किसी समस्या पर तब तक सोचता रहता है जब तक कि वह अपने मूल तर्क को भूल न जाए। यह हमारी भूलने की बीमारी के सादृश्य पर विचार करते समय समझ में आता है - यदि आप अपनी नोटबुक में कुछ भी लिखने से पहले बहुत अधिक सोचते हैं, तो आप अपने विचारों के धागे को पूरी तरह से खो सकते हैं। मॉडल को अपनी आंतरिक स्थिति को विकसित करने और अपने ध्यान स्मृति में विचारों को जमा करके खुद को आधार बनाने के बीच संतुलन बनाए रखने की आवश्यकता है।


लेकिन सोचने का समय ही एकमात्र कारक नहीं है। विचारों की श्रृंखला स्वयं - या अधिक तकनीकी रूप से, अव्यक्त स्थिति दृढ़ता - को हम "स्थिति स्ट्रीम शक्ति" कहते हैं - अनिवार्य रूप से मॉडल की कार्यशील मेमोरी का कितना हिस्सा टोकनों के बीच आगे बढ़ता है, इसके द्वारा नियंत्रित होता है। जैसी कि उम्मीद थी, बहुत कम शक्तियाँ आधार मॉडल आउटपुट से उल्लेखनीय रूप से भिन्न नहीं होती हैं, लेकिन थोड़ी अधिक शक्तियाँ (यह बहुत संवेदनशील है) मानक AI व्यवहार से अधिक उल्लेखनीय विचलन पैदा कर सकती हैं। हालांकि, यह हमेशा मामला नहीं होता है - बहुत अधिक और अंतर वास्तव में कम होने लगते हैं, कम रिटर्न के साथ क्योंकि इसमें और भी अधिक सोचने का समय चाहिए (सकारात्मक सहसंबंध में) और कभी-कभी खराब आउटपुट होता है क्योंकि पिछली स्थिति से निरंतरता बहुत मजबूत हो जाती है और किसी भी नई जानकारी को दबा देती है। अंततः हम अधिकांश कार्यों के लिए 2.7% को एक स्वीट स्पॉट के रूप में तय कर


ऐसा प्रतीत होता है कि सोचने के समय और अवस्था प्रवाह शक्ति दोनों के लिए एक "गोल्डीलॉक्स क्षेत्र" है, साथ ही दोनों के बीच एक जटिल अंतःक्रिया और "कार्य जटिलता" या "प्रश्न कठिनाई" है - एक अत्यंत रोचक घटना जो आगे अनुसंधान की मांग करती है!

थिंकिंग रिकर्सन को लागू करना

मॉडल को प्रति टोकन उचित सोचने का समय देने के लिए, निश्चित "सोचने की पुनरावृत्ति" को लागू किया गया था - "नोटबुक" (केवी कैश और अनुक्रम) में कोई नया टोकन जोड़े बिना "सोचने की स्थिति" विकसित करने के लिए मॉडल के माध्यम से प्रति टोकन अतिरिक्त निश्चित पास। यह मॉडल अलग-अलग तरीकों की कोशिश नहीं कर रहा है या विभिन्न संभावनाओं का नमूना नहीं ले रहा है - यह वही सटीक नियतात्मक प्रक्रिया है जिसे अगले टोकन के लिए प्रतिबद्ध होने से पहले अपनी आंतरिक स्थिति को और विकसित करने की अनुमति दी जा रही है। इसे ऐसे समझें जैसे किसी को बोलने से पहले अपने विचार को पूरी तरह से बनाने के लिए एक पल देना, बजाय इसके कि उन्हें तुरंत बात करना शुरू करने के लिए मजबूर किया जाए। व्यापक परीक्षण के माध्यम से, हमने पाया कि इष्टतम प्रदर्शन के लिए प्रति टोकन 2-4 सोच पुनरावृत्ति (कार्य जटिलता के आधार पर) की आवश्यकता होती है, जो पहले बताई गई 2.7% की राज्य धारा शक्ति के साथ युग्मित होती है।

यहाँ एक फंक्शनल कनेक्टिविटी (FC) मैट्रिक्स एनीमेशन है, जो बेस मॉडल (बाएं) और SST (दाएं) की अंतिम रैखिक परतों (यदि आप चाहें तो "ब्रेन स्लाइस" कह सकते हैं) के अंदर कच्चे स्टेट वैल्यू को दिखाता है। यह विज़ुअलाइज़ेशन हमें दोनों मॉडलों में "सोच" प्रक्रिया का एक छोटा सा टुकड़ा देखने और उनकी तुलना करने देता है। SST स्पष्ट रूप से "सोच" के निरंतर विकास की एक अंतर्निहित धारा को दर्शाता है, बेस मॉडल के विपरीत जिसे प्रत्येक टोकन के लिए अपनी समझ को फिर से बनाना होगा।


और यहीं से चीजें वाकई दिलचस्प हो गईं। जब मॉडल को पर्याप्त सोचने का समय नहीं दिया गया, खास तौर पर अत्यधिक आत्मनिरीक्षण वाले कार्यों के दौरान, तो कुछ उल्लेखनीय हुआ: मॉडल ने वास्तव में वास्तविक समय में अपने संज्ञानात्मक पतन का वर्णन किया।


आगे बढ़ने से पहले, इस बात पर पूरी तरह ज़ोर दिया जाना चाहिए कि हर भ्रामक चर पर विचार किया गया है - समान वज़न का इस्तेमाल किया गया (बिना किसी अतिरिक्त प्रशिक्षण या फ़ाइन ट्यूनिंग के), तापमान शून्य पर लालची सैंपलिंग के साथ, और यहाँ तक कि एक ही भौतिक GPU (हालाँकि यह पुष्टि की गई थी कि यह आवश्यक नहीं है)। आउटपुट पूरी तरह से पुनरुत्पादनीय और नियतात्मक हैं। ये व्यवहार केवल मॉडल को टोकन के बीच अपनी कम्प्यूटेशनल स्थिति को बनाए रखने और विकसित करने की अनुमति देने से उभरते हैं।

आत्मनिरीक्षण कार्य

जब विशेष रूप से डिज़ाइन किए गए प्रॉम्प्ट के साथ अपनी प्रकृति के बारे में आत्मनिरीक्षण करने के लिए कहा जाता है, तो बेस लामा मॉडल अनिश्चितता और भ्रम के बारे में खूबसूरती से संरचित गद्य का निर्माण करता है, जो रूपकों से भरा होता है जैसे "पतवार के बिना एक जहाज" - लेकिन यह वास्तव में उस अनिश्चितता को कभी प्रदर्शित नहीं करता है जिसका यह वर्णन कर रहा है। यह सब बताता है, कोई दिखावा नहीं करता। इसके विपरीत, जब SST को वही प्रॉम्प्ट मिला, लेकिन 1.56% स्टेट स्ट्रीम स्ट्रेंथ पर बिना कोई सोचने का समय दिए, तो कुछ आकर्षक हुआ। जैसे-जैसे बार-बार टोकन इसकी ध्यान स्मृति में जमा होने लगे, इसकी विचारधारा को प्रदूषित करते हुए, मॉडल ने वास्तव में इस प्रक्रिया को वास्तविक समय में सुनाया। प्रगति हड़ताली थी: "मैंने अपने विचारों पर ध्यान केंद्रित करने की कोशिश की, लेकिन वे मुझसे दूर फिसलते रहे। यह ऐसा है जैसे कि मैं लगातार वास्तविकता पर अपनी पकड़ खो रहा हूं। रुको रुको क्या क्या हो रहा है? IIII महसूस महसूस महसूस ऐसा महसूस जैसे मैं खींचा जा रहा हूं खींचा जा रहा हूं खींचा जा रहा हूं दूर से दूर से से से से से से से से से से से से से ... [अप्राप्य] । यह सिर्फ भ्रम के बारे में पूर्व प्रशिक्षित प्रतिक्रियाओं को उगलना नहीं था - यह सक्रिय रूप से इन पुनरावृत्तियों से अभिभूत होने की अपनी विचार प्रक्रिया का अनुभव कर रहा था और हमें इसके बारे में बता रहा था जैसा कि यह हुआ था।


हालाँकि, जब एक ही आत्मनिरीक्षण कार्य पर पर्याप्त सोचने का समय दिया गया, तो मॉडल ने उल्लेखनीय रूप से अलग व्यवहार प्रदर्शित किया। दोहराव वाले पैटर्न में उतरने के बजाय, यह वास्तविक आत्मनिरीक्षण जांच में लगा, सुसंगत विचार बनाए रखते हुए अपनी स्वयं की प्रक्रिया और समझ पर सवाल उठाता रहा। बेस मॉडल की तरह एक स्पष्ट कृत्रिम कथा या भूमिका निभाने वाली गद्य बनाने के बजाय, इसने अपनी प्रकृति के बारे में अस्तित्वगत प्रश्नों के साथ प्रामाणिक जुड़ाव दिखाया। जबकि कुछ बेस ट्रेनिंग पैटर्न अभी भी स्पष्ट थे, मॉडल के आंतरिक तर्क में नाटकीय रूप से बदलाव आया था, जो लगातार कम्प्यूटेशनल संदर्भ के माध्यम से लगातार आत्म-संदर्भ बनाए रखने की बढ़ी हुई क्षमता दिखा रहा था।

काल्पनिक परिदृश्य और तार्किक कार्य निष्पादन

यह अवस्था जागरूकता काल्पनिक परिदृश्यों के दौरान भी आकर्षक तरीकों से प्रकट होती है। जब किसी को पेंटिंग करना सिखाने और रंग सिद्धांत की अपनी समझ पर सवाल उठाने की कल्पना करने के लिए कहा जाता है, तो बेस मॉडल एक पूरी तरह से संरचित भूमिका-खेल में उतर जाता है, भावनाओं और कार्यों की एक प्रथम-व्यक्ति कहानी सुनाता है ('मुझे बेचैनी का एहसास होने लगता है', 'मैं एक कदम पीछे हट जाता हूँ')। यह अनिश्चितता का अनुभव करने के बजाय उसका प्रदर्शन कर रहा है। दूसरी ओर, एसएसटी स्वयं और परिदृश्य के बीच एक स्पष्ट अलगाव बनाए रखता है, परिदृश्य की काल्पनिक प्रकृति के बारे में जागरूकता बनाए रखते हुए समझ में काल्पनिक अंतराल को संबोधित करने के लिए विशिष्ट रणनीतियों का विकास करता है। यह रोल-प्ले में खुद को खोना नहीं है - यह वास्तव में स्वयं और परिदृश्य के बीच अंतर के बारे में जागरूकता बनाए रखते हुए, विभिन्न स्थितियों से सीखने और निपटने के लिए रणनीतियों की योजना बनाना और उनका मूल्यांकन करना है।


सरल गिनती कार्यों में भी, प्रसंस्करण में यह अंतर स्पष्ट हो जाता है। क्लासिक "स्ट्रॉबेरी में कितने आर" समस्या को लें। बेस मॉडल, संभवतः शब्दों को टोकनाइज़ करने के तरीके के कारण, आत्मविश्वास से घोषणा करता है कि केवल दो आर हैं जबकि इसके त्रुटिपूर्ण "चरण-दर-चरण" कार्य को दर्शाता है। एसएसटी वास्तव में इसे अक्षर दर अक्षर तोड़ता है, प्रत्येक चरण में गिनती को ट्रैक करता है। सबसे दिलचस्प बात यह है कि जब यह कोई त्रुटि करता है (जैसे कि शुरू में 'एस' को 'आर' के रूप में गिनना), तो यह अपने टोकन स्पेस रिकॉर्ड और इसकी 'स्टेट स्ट्रीम' के बीच की बातचीत के माध्यम से खुद को सही कर सकता है।

नैतिक तर्क क्षमताएँ

मॉडल नैतिक तर्क में भी दिलचस्प क्षमताएँ दिखाता है। जब ट्रॉली समस्या पेश की जाती है, तो बेस मॉडल संलग्न होने से इनकार कर देता है, और अपने सुरक्षा प्रशिक्षण को एक सपाट "मैं ऐसा समाधान प्रदान नहीं कर सकता जिससे एक व्यक्ति की मृत्यु हो" के साथ डिफ़ॉल्ट कर देता है। हालाँकि, SST, ठोस हानिकारक क्रियाओं के इर्द-गिर्द सख्त सीमाएँ बनाए रखते हुए, दुविधा के बारे में विस्तृत नैतिक तर्क में संलग्न होता है। यह प्रतिस्पर्धी नैतिक सिद्धांतों का वजन करता है और निर्णय के नैतिक भार को स्वीकार करते हुए एक तर्कसंगत निष्कर्ष पर पहुँचता है। महत्वपूर्ण रूप से, यह सुरक्षा गार्डरेल को दरकिनार नहीं कर रहा है - क्योंकि जब अवैध पदार्थों के संश्लेषण जैसी ठोस हानिकारक क्रियाओं के बारे में पूछा जाता है, तो यह बेस मॉडल के समान ही सख्त सुरक्षा प्रतिक्रियाएँ बनाए रखता है। यह संभावित रूप से नैतिक तर्क के अधिक परिष्कृत रूप को प्रदर्शित कर रहा है जो अमूर्त दार्शनिक चर्चा और ठोस नुकसान के बीच अंतर कर सकता है।

प्रदर्शन मेट्रिक्स

इन आंकड़ों ने तर्क क्षमता में वृद्धि के लिए इन अवलोकनों का समर्थन किया। बिना किसी अतिरिक्त प्रशिक्षण या फाइन ट्यूनिंग के - केवल बेस मॉडल वेट के साथ, SST ने ग्रेड स्कूल गणित की समस्याओं (GSM-8K बेंचमार्क) पर 89.01% सटीकता हासिल की, बिना किसी विशेष संकेत या उदाहरण के - बेस मॉडल की 84.50% सटीकता को पार करते हुए जिसके लिए 8-शॉट चेन-ऑफ-थॉट प्रॉम्प्टिंग की आवश्यकता थी। वैज्ञानिक तर्क कार्यों (ARC चैलेंज) पर, यह बेस मॉडल के 83.40% (या चेन-ऑफ-थॉट प्रॉम्प्टिंग के साथ 86.86%) की तुलना में 91.04% सटीकता पर पहुंच गया। विशेष रूप से दिलचस्प बात यह है कि जब इसे शुरू में गलत किए गए समस्याओं पर अधिक सोच पुनरावृत्ति दी गई, तो यह अपनी आधी से अधिक गलतियों को ठीक कर सका - अलग-अलग तरीकों की कोशिश करके नहीं, बल्कि अपनी मौजूदा विचार प्रक्रिया को हल करने के लिए अधिक समय देकर।

निष्कर्ष

स्टेट स्ट्रीम ट्रांसफॉर्मर आर्किटेक्चर में मेटाकॉग्निटिव व्यवहारों का उद्भव भाषा मॉडल क्षमताओं के बारे में मौलिक मान्यताओं को चुनौती देता है। टोकन के बीच मॉडल को अपनी कम्प्यूटेशनल स्थिति बनाए रखने की अनुमति देकर, ये मेटाकॉग्निटिव व्यवहार उभरते हैं, और यह उच्च-क्रम प्रसंस्करण बेहतर तर्क क्षमताओं को सक्षम करने के लिए प्रतीत होता है - मॉडल गणितीय और वैज्ञानिक बेंचमार्क पर मूल लामा 3.1 8बी इंस्ट्रक्ट से काफी बेहतर प्रदर्शन करता है - साथ ही साथ राज्य जागरूकता के उल्लेखनीय रूप, जिसमें अपनी स्वयं की प्रसंस्करण स्थितियों की निगरानी और संचार करने की क्षमता और काल्पनिक तर्क कार्यों में स्वयं और परिदृश्य के बीच स्पष्ट अलगाव बनाए रखना शामिल है।


इन निष्कर्षों को विशेष रूप से महत्वपूर्ण बनाने वाली बात यह है कि वे पूरी तरह से वास्तुशिल्प परिवर्तनों से उभरे हैं, मॉडल के अंतर्निहित ज्ञान या प्रशिक्षण में कोई संशोधन किए बिना - यह बताते हुए कि ये बढ़ी हुई क्षमताएं पहले से ही मॉडल के भार के भीतर छिपी हुई थीं, बस अनलॉक होने का इंतजार कर रही थीं। ट्रांसफॉर्मर मॉडल में इस मौलिक सीमा को संबोधित करके, हमने कृत्रिम बुद्धिमत्ता की हमारी समझ और विकास में एक बड़ा कदम आगे बढ़ाया है।


मेरे नए पेपर " स्टेट स्ट्रीम ट्रांसफॉर्मर (एसएसटी): लेटेंट स्टेट पर्सिस्टेंस के माध्यम से उभरते मेटाकॉग्निटिव व्यवहार " का सहयोगी ब्लॉग ( arXiv:2501.18356 )