लेखक:
(1) राफेल मिलियेर, दर्शनशास्त्र विभाग, मैक्वेरी विश्वविद्यालय ([email protected]);
(2) कैमरून बकनर, दर्शनशास्त्र विभाग, ह्यूस्टन विश्वविद्यालय ([email protected]).
लिंक की तालिका
2. एलएलएम पर एक प्रारंभिक जानकारी
2.2. ट्रांसफॉर्मर-आधारित एलएलएम
3. क्लासिक दार्शनिक मुद्दों के साथ इंटरफेस
3.2. मूलनिवासीपन और भाषा अर्जन
3.3. भाषा समझ और आधारभूत संरचना
3.5. सांस्कृतिक ज्ञान का संचरण और भाषाई ढांचा
4. निष्कर्ष, शब्दावली और संदर्भ
3. क्लासिक दार्शनिक मुद्दों के साथ इंटरफेस
कृत्रिम तंत्रिका नेटवर्क, जिसमें पहले के NLP आर्किटेक्चर शामिल हैं, लंबे समय से दार्शनिक जांच का केंद्र रहे हैं, खासकर मन, भाषा और विज्ञान के दार्शनिकों के बीच। इन प्रणालियों के इर्द-गिर्द दार्शनिक चर्चा का अधिकांश हिस्सा मानव संज्ञान को मॉडल करने के लिए उनकी उपयुक्तता के इर्द-गिर्द घूमता है। विशेष रूप से, बहस इस बात पर केंद्रित है कि क्या वे अपने शास्त्रीय, प्रतीकात्मक, नियम-आधारित समकक्षों की तुलना में कोर मानव संज्ञानात्मक प्रक्रियाओं के बेहतर मॉडल बनाते हैं। यहाँ, हम उन प्रमुख दार्शनिक प्रश्नों की समीक्षा करते हैं जो कृत्रिम तंत्रिका नेटवर्क की बुद्धिमत्ता, तर्कसंगतता या संज्ञान के मॉडल के रूप में भूमिका के बारे में उभरे हैं, जो ट्रांसफॉर्मर-आधारित LLM के निहितार्थों के बारे में चल रही चर्चाओं के संदर्भ में उनके वर्तमान अवतारों पर ध्यान केंद्रित करते हैं।
हाल की बहसें एक भ्रामक अनुमान पैटर्न से घिरी हुई हैं, जिसे हम "पुनर्वर्णन भ्रांति" कहते हैं। यह भ्रांति तब उत्पन्न होती है जब आलोचक तर्क देते हैं कि कोई प्रणाली किसी विशेष मॉडल को नहीं बना सकती है
संज्ञानात्मक क्षमता, केवल इसलिए क्योंकि इसके संचालन को कम अमूर्त और अधिक अपस्फीतिकारी शब्दों में समझाया जा सकता है। वर्तमान संदर्भ में, यह भ्रांति उन दावों में प्रकट होती है कि LLM संभवतः कुछ संज्ञानात्मक क्षमता 𝜙 के अच्छे मॉडल नहीं हो सकते क्योंकि उनके संचालन केवल सांख्यिकीय गणनाओं, या रैखिक बीजगणित संचालन, या अगले-टोकन भविष्यवाणियों के संग्रह में शामिल होते हैं। इस तरह के तर्क केवल तभी मान्य होते हैं जब यह प्रदर्शित करने वाले साक्ष्य के साथ कि इन शब्दों में परिभाषित एक प्रणाली, स्वाभाविक रूप से 𝜙 को लागू करने में असमर्थ है। उदाहरण के लिए, इस बात पर जोर देने में त्रुटिपूर्ण तर्क पर विचार करें कि एक पियानो संभवतः सामंजस्य उत्पन्न नहीं कर सकता क्योंकि इसे तारों पर प्रहार करने वाले हथौड़ों के संग्रह के रूप में वर्णित किया जा सकता है, या (अधिक स्पष्ट रूप से) कि मस्तिष्क की गतिविधि संभवतः अनुभूति को लागू नहीं कर सकती क्योंकि इसे तंत्रिका फायरिंग के संग्रह के रूप में वर्णित किया जा सकता है। महत्वपूर्ण प्रश्न यह नहीं है कि क्या LLM के संचालन को गैर-मानसिक शब्दों में सरलीकृत रूप से वर्णित किया जा सकता है, बल्कि यह है कि क्या ये संचालन, जब उचित रूप से व्यवस्थित होते हैं, तो कम्प्यूटेशनल अमूर्तता के उचित स्तर पर वर्णित होने पर मन के समान प्रक्रियाओं या एल्गोरिदम को लागू कर सकते हैं।
पुनर्वर्णन भ्रांति कृत्रिम तंत्रिका नेटवर्क के बारे में प्रमुख दार्शनिक प्रश्नों को विशुद्ध रूप से सैद्धांतिक मानने की व्यापक प्रवृत्ति का लक्षण है, जिसके परिणामस्वरूप व्यापक सैद्धांतिक दावे सामने आते हैं, जो अनुभवजन्य रूप से पुष्टि योग्य नहीं होते हैं। यहाँ परिकल्पनाओं को LLM जैसे कृत्रिम तंत्रिका नेटवर्क की क्षमताओं और संज्ञानात्मक मॉडल के रूप में उनकी उपयुक्तता के बारे में अनुभवजन्य साक्ष्य द्वारा निर्देशित किया जाना चाहिए (तालिका 1 देखें)। वास्तव में, LLM की वास्तुकला, सीखने के उद्देश्य, मॉडल के आकार और प्रशिक्षण डेटा के बारे में विचार अक्सर इन मुद्दों पर मध्यस्थता करने के लिए अपर्याप्त होते हैं। वास्तव में, हमारा तर्क यह है कि सामान्य रूप से तंत्रिका नेटवर्क और विशेष रूप से LLM की क्षमताओं पर कई मुख्य दार्शनिक बहसें कम से कम आंशिक रूप से उनके आंतरिक तंत्र और प्रशिक्षण के दौरान उनके द्वारा प्राप्त ज्ञान से संबंधित अनुभवजन्य साक्ष्य पर निर्भर करती हैं। दूसरे शब्दों में, इनमें से कई बहसों को अप्रशिक्षित मॉडल की सामान्य विशेषताओं पर विचार करके पहले से तय नहीं किया जा सकता है। इसके बजाय, हमें प्रशिक्षित मॉडल के व्यवहार और आंतरिक कामकाज के बारे में प्रयोगात्मक निष्कर्षों को ध्यान में रखना चाहिए।
इस खंड में, हम कृत्रिम तंत्रिका नेटवर्क की क्षमताओं के बारे में लंबे समय से चली आ रही बहस की जांच करते हैं, जिन्हें डीप लर्निंग के विकास और विशेष रूप से एलएलएम की हालिया सफलता द्वारा पुनर्जीवित और रूपांतरित किया गया है। बेंचमार्क और लक्षित प्रयोगों से प्राप्त व्यवहार संबंधी साक्ष्य उन बहसों के लिए बहुत मायने रखते हैं। हालाँकि, हम शुरू से ही ध्यान देते हैं कि इस तरह के साक्ष्य पूरी तस्वीर को चित्रित करने के लिए भी अपर्याप्त हैं; पहले खंड में समीक्षा की गई ब्लॉकहेड्स के बारे में चिंताओं से जुड़ते हुए, हमें इस बारे में भी सबूतों पर विचार करना चाहिए कि एलएलएम अपने प्रदर्शन और कथित क्षमता के बारे में दावों के बीच अंतर को कम करने के लिए आंतरिक रूप से जानकारी कैसे संसाधित करते हैं। प्रशिक्षित एलएलएम द्वारा प्राप्त किए गए अभ्यावेदन और गणनाओं की पहचान करने और उनमें हस्तक्षेप करने के लिए परिष्कृत प्रयोगात्मक तरीके विकसित किए गए हैं। ये विधियाँ व्यवहार संबंधी साक्ष्य द्वारा समर्थित अस्थायी परिकल्पनाओं से परे यहाँ समीक्षा किए गए कुछ दार्शनिक मुद्दों पर मध्यस्थता करने का बहुत बड़ा वादा करती हैं। हम इन विधियों और संबंधित प्रयोगात्मक निष्कर्षों की अधिक विस्तृत चर्चा भाग II के लिए छोड़ते हैं।