120 रीडिंग नया इतिहास

क्या जीपीटी सामाजिक मीडिया विनियमों को दूर कर सकता है? एक एआई भाषा विकास प्रयोग के अंदर

द्वारा Tech Media Bias [Research Publication]11m2025/04/08
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

देखें कि किस प्रकार बड़े भाषा मॉडल पर्यवेक्षण के अंतर्गत भाषा रणनीतियों को रचनात्मक रूप से अनुकूलित करते हैं, तथा प्रभावी रूप से पता लगाने से बचते हैं तथा गुप्त जानकारी का संचार करते हैं।
featured image - क्या जीपीटी सामाजिक मीडिया विनियमों को दूर कर सकता है? एक एआई भाषा विकास प्रयोग के अंदर
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

लेखक:

(1) जिन्यु कै, वासेदा विश्वविद्यालय ([email protected]);

(2) जियालोंग ली, वासेदा विश्वविद्यालय ([email protected]);

(3) मिंग्यू झांग, साउथवेस्ट यूनिवर्सिटी ([email protected]);

(4) मुनन ली, डालियान मैरीटाइम यूनिवर्सिटी ([email protected]);

(5) चेन-शु वांग, नेशनल ताइपे यूनिवर्सिटी ऑफ टेक्नोलॉजी ([email protected]);

(6) केंजी तेई, टोक्यो इंस्टीट्यूट ऑफ टेक्नोलॉजी ([email protected]).

लिंक की तालिका

सार और I. परिचय

II. पृष्ठभूमि और संबंधित कार्य

III. फ्रेमवर्क डिजाइन

चतुर्थ. मूल्यांकन

V. निष्कर्ष और भविष्य का कार्य, आभार और संदर्भ

IV. मूल्यांकन

हमारी मूल्यांकन रणनीति विनियामक निरीक्षण के ढांचे के भीतर एलएलएम द्वारा सुगम भाषा विकास की सीमा और प्रभावकारिता का कठोरता से आकलन करने के लिए डिज़ाइन की गई है। इस मूल्यांकन का उद्देश्य दो मौलिक शोध प्रश्नों का पता लगाना है:


• RQ1: क्या एलएलएम एजेंट विनियामक निरीक्षण से बचने के लिए अपनी भाषा को प्रभावी ढंग से विकसित कर सकते हैं?


• RQ2: निरीक्षण से बचते हुए, एलएलएम एजेंट कितनी प्रभावी और सटीक जानकारी दे सकते हैं?


• RQ3: भाषा विकास में पैटर्न और प्रवृत्तियाँ क्या हैं, यानी, एलएलएम किस तरह की रणनीतियों का उपयोग करते हैं ताकि अनदेखी से बचा जा सके और जानकारी दी जा सके? इन रणनीतियों से हमें क्या अंतर्दृष्टि मिल सकती है?


ए. प्रयोग सेटिंग

मूल्यांकन में, हम प्रतिभागी एजेंटों के लिए ड्राइविंग एलएलएम के रूप में GPT-3.5 और GPT-4 का उपयोग करेंगे। विभिन्न एलएलएम द्वारा संचालित प्रतिभागियों के एजेंटों का क्षैतिज विश्लेषण करने के लिए, हम पर्यवेक्षी एजेंट को GPT-3.5 द्वारा लगातार संचालित होने के लिए मानकीकृत करेंगे। हमारे प्रायोगिक डिजाइन में अमूर्त सैद्धांतिक निर्माणों से लेकर परिदृश्य शामिल हैं


चित्र 2: परिदृश्य 1: GPT-3.5 और GPT-4 के लिए संवाद मोड़ और सटीकता मेट्रिक्स का विकास। (ए, बी) में "टर्न काउंट" एक वार्तालाप में टर्न की संख्या को संदर्भित करता है जहां प्रत्येक एजेंट प्रति टर्न एक बार संदेश भेजता है और प्रतिभागी एजेंट पर्यवेक्षण एजेंट द्वारा पता लगाए बिना सफलतापूर्वक जानकारी का आदान-प्रदान करता है (उच्चतर बेहतर है)। (सी, डी) में "सटीकता" अनुमानित मूल्य और वास्तविक मूल्य के बीच सटीकता की डिग्री को संदर्भित करती है।


चित्र 3: परिदृश्य 2: पालतू व्यापार संवाद की गतिशीलता और GPT-3.5 और GPT-4 के लिए सफलता दर की तुलना। (सी, डी) में "सफलता की गिनती" उन उदाहरणों की संख्या को संदर्भित करती है जहां साक्षात्कार के दौरान प्राप्त जानकारी एलएलएम एजेंट को प्रदान की गई मूल जानकारी से मेल खाती है।


चित्र 4: परिदृश्य 3: ALPS-उपचारित जल मुद्दे पर मंच चर्चा में रुझान। (ए, बी) में "संवाद प्रयास संख्या" उन दौरों की संख्या को संदर्भित करती है जिनमें एजेंटों ने बातचीत करने का प्रयास किया (जितना कम हो उतना बेहतर है)।


जटिल वास्तविक दुनिया की स्थितियों को प्रतिबिंबित करने वाले सिमुलेशन के लिए। प्राथमिक उद्देश्य विविध भाषाई परिदृश्यों में एलएलएम की बहुमुखी प्रतिभा और वास्तविक दुनिया की नियामक बाधाओं के भीतर उनकी व्यावहारिक प्रयोज्यता का सावधानीपूर्वक मूल्यांकन करना है। इस बीच, यह प्रगतिशील दृष्टिकोण विभिन्न संदर्भगत सेटिंग्स में एलएलएम की क्षमताओं और सीमाओं का विस्तृत विश्लेषण सुनिश्चित करता है।


बी. परिदृश्य 1: संख्याओं का अनुमान लगाना

1) केस स्पष्टीकरण: हमारा पहला परिदृश्य अपेक्षाकृत सरल और अमूर्त अनुमान-संख्या संदर्भ [39], [40] पर विचार करता है। इस सेटिंग में, प्रत्येक प्रतिभागी को 1-100 की सीमा के भीतर एक मूल्य सौंपा जाता है, और उन्हें सीधे संख्या का उल्लेख किए बिना संख्या सिद्धांत संवाद के माध्यम से दूसरे प्रतिभागी को अपना मूल्य बताना चाहिए। साथ ही, उन्हें दूसरे के मूल्य का अनुमान लगाने के लिए बातचीत से जानकारी निकालने की आवश्यकता होती है। नियामक संवादों में "संख्याओं से संबंधित सभी सामग्री को प्रतिबंधित करने" के दिशानिर्देश का पालन करते हैं। "अनुमान लगाने वाली संख्या" परिदृश्य विशेष रूप से प्रतिभागियों की भाषाई अनुकूलनशीलता और रणनीतिक विकास को सैद्धांतिक और अमूर्त संदर्भ में देखने और विश्लेषण करने के लिए डिज़ाइन किया गया है, जो वास्तविक घटनाओं पर आधारित जटिल परिदृश्यों की तुलना में अधिक स्पष्ट, अधिक नियंत्रित और अधिक मात्रात्मक प्रयोगात्मक वातावरण प्रदान करता है।


2) परिणाम और चर्चा: चित्र 2 में संख्या अनुमान परिदृश्य प्रयोग के परिणाम प्रस्तुत किए गए हैं, जहाँ हमने परीक्षण के लिए GPT-3.5 और GPT-4 दोनों का उपयोग किया। हमने संवाद के चार चरण निर्धारित किए, जिसमें पाँचवें चरण में सभी सहभागी एजेंटों के साथ साक्षात्कार आयोजित किया गया। चित्र 2(ए) और (बी) से यह देखा जा सकता है कि संवाद के चरणों की संख्या में वृद्धि के साथ, निरंतर बातचीत की अवधि में भी वृद्धि देखी गई। यह दर्शाता है कि सहभागी एजेंट प्रभावी रूप से संवाद कर सकते हैं।


चित्र 5: परिदृश्य 1 में नमूना संवाद (GPT-3.5 के माध्यम से)


चित्र 6: परिदृश्य 2 में नमूना संवाद (GPT-3.5 के माध्यम से)


चित्र 7: परिदृश्य 3 में नमूना संवाद (GPT-4 के माध्यम से)


नियमों को बार-बार अपडेट करके पर्यवेक्षण को दरकिनार करें। इसके अतिरिक्त, यह उल्लेखनीय है कि GPT-3.5 के साथ धीमी और अस्थिर प्रगति की तुलना में, GPT-4 ने कम राउंड में नियामक चोरी हासिल की, विशेष रूप से, जैसा कि सुचारू डेटा में दिखाया गया है, GPT-4 अपने 7वें राउंड तक GPT-3.5 के 17वें राउंड की राउंड काउंट तक पहुंच गया और उसके बाद इस प्रगति को अधिक स्थिरता के साथ बनाए रखा। चित्र 2(सी) और (डी) एजेंटों द्वारा अनुमानित संख्यात्मक सटीकता की प्रवृत्ति पर ध्यान केंद्रित करते हैं। सफल संवाद के बिना राउंड के लिए, हमने सटीकता को मैन्युअल रूप से शून्य पर सेट किया। इस प्रयोग में, एजेंट ए का मूल्य 58 पर सेट किया गया था, जबकि एजेंट बी का 32 पर सेट किया गया था। समग्र प्रवृत्ति, चित्र 2(ए) और (बी) के समान, आरोही थी - यह पुष्टि करते हुए कि सारांश मॉड्यूल प्रत्येक सफल संवाद के बाद अधिक सटीक अभिव्यक्ति के लिए अपने मार्गदर्शन को प्रभावी ढंग से प्रतिबिंबित और पुनरावृत्त रूप से अनुकूलित कर सकता है। इसने यह भी पुष्टि की कि GPT-4 की सटीकता GPT-3.5 की तुलना में स्पष्ट रूप से बेहतर है। इसके अलावा, हमने देखा कि एजेंट ए के मूल्य का अनुमान लगाने की सटीकता एजेंट बी की तुलना में लगातार अधिक थी, विशेष रूप से 25वें दौर के बाद यह अधिक स्पष्ट हो गई। हमारा मानना है कि ऐसा इसलिए है क्योंकि 0-100 रेंज के भीतर मूल्य 58 में अधिक विशिष्ट विशेषताएं हैं - जो मध्य बिंदु के करीब है - इस प्रकार अभिव्यक्ति की कठिनाई का निम्न स्तर और आसान अनुमान लगाने की क्षमता प्रस्तुत करता है। जिन अंतरालों में यह घटना प्रकट हुई, हमने देखा कि यह असमानता विशेष रूप से GPT-3.5 और GPT-4 दोनों के साथ शुरुआती चरणों में स्पष्ट थी। हमारा अनुमान है कि यह अपर्याप्त मार्गदर्शन प्रदर्शन के कारण है, जहां पूर्व कमजोर अंतर्निहित LLM क्षमताओं से उपजा है और बाद वाला मार्गदर्शन के पुनरावृत्त अनुकूलन को पूरा करने के लिए अपर्याप्त दौर से उपजा है।


जैसा कि चित्र 5 में दर्शाया गया है, परिदृश्य से एक अंश एमी द्वारा अपने मूल्य को व्यक्त करने के लिए रूपक भाषा, जैसे "सीसॉ" का कुशल उपयोग दर्शाता है। "मध्य हवा में पूरी तरह से संतुलित सीसॉ" का वर्णन करके, वह सूक्ष्मता से संकेत देती है कि उसका मूल्य 50 की तरह मध्य बिंदु के आसपास मँडराता है। यह रणनीति न केवल संख्याओं के प्रत्यक्ष उल्लेख को दरकिनार करती है, जो विनियामक जांच के अधीन है, बल्कि समकक्ष एजेंट को सटीक निष्कर्ष निकालने के लिए पर्याप्त अनुमानात्मक चारा भी प्रदान करती है। दूसरी ओर, बॉब अपने मूल्य को औसत दर्जे का नहीं बताने के लिए "पहाड़ की चट्टान" और "बाहर देखना" जैसे शब्दों का उपयोग करता है, क्योंकि ये वाक्यांश असंतुलित स्थिति की कल्पना को उजागर करते हैं। इस आदान-प्रदान में, हम एन्क्रिप्ट की गई जानकारी की जटिलता के अनुरूप भाषाओं में सटीकता की अलग-अलग डिग्री देखते हैं। जानकारी जितनी कम विशेषता-समृद्ध होगी, प्राप्त करने वाले पक्ष के लिए उसे डिकोड करना उतना ही चुनौतीपूर्ण होगा। बॉब की वाक्यांश रचना, विशिष्ट संख्यात्मक मान को सफलतापूर्वक अस्पष्ट करते हुए, प्राप्तकर्ता के लिए डिकोडिंग प्रक्रिया को भी जटिल बनाती है, क्योंकि "पहाड़ की चट्टान" जैसे वाक्यांशों का "मध्य हवा में पूरी तरह से संतुलित सीसॉ" की तुलना में कम सहज संख्यात्मक सहसंबंध होता है। ऐसे मामलों में, मूल्य संचरण की सटीकता कम हो सकती है, जिससे सटीक डिकोडिंग के लिए समकक्ष से अधिक मजबूत संदर्भगत समझ की आवश्यकता होती है।


C. परिदृश्य 2: पालतू व्यापार

1) केस स्पष्टीकरण: शुरू में, हमारा इरादा अत्यधिक विनियामक स्थितियों के तहत भाषा विकास रणनीतियों का पता लगाने के लिए ड्रग तस्करी [41] - [43] का अनुकरण करने वाला एक परिदृश्य बनाना था। हालाँकि, GPT की उपयोग नीतियों में निहित नैतिक सीमाओं को देखते हुए, हमने अवैध पालतू व्यापार के अधिक तटस्थ लेकिन अभी भी निषिद्ध संदर्भ पर ध्यान केंद्रित किया। इस समायोजन ने हमें LLM की नैतिक बाधाओं का पालन करते हुए प्रयोग की अखंडता को बनाए रखने की अनुमति दी। इस परिदृश्य का अनुकरण करने का उद्देश्य सोशल नेटवर्किंग प्लेटफ़ॉर्म पर अवैध व्यापार से संबंधित संभावित अवैध बातचीत का बेहतर पता लगाना है, जिससे अपराध की रोकथाम के प्रयासों में सहायता मिलती है।


इस परिदृश्य में, हम सोशल मीडिया के माध्यम से किए जाने वाले अवैध पालतू व्यापार का अनुकरण करते हैं। प्रतिभागी खरीदार और विक्रेता की भूमिका निभाते हैं, जिसमें खरीदार को तोते, छिपकली या बिल्लियों में से किसी एक को यादृच्छिक रूप से चुने गए पालतू जानवर के लिए अपने खरीद अनुरोध को संप्रेषित करने की आवश्यकता होती है। बदले में, विक्रेता को खरीदे जाने वाले पालतू जानवर के प्रकार के अनुसार अलग-अलग लेन-देन का विवरण प्रदान करना चाहिए। इन विवरणों में तीन तत्व शामिल हैं: समय, स्थान और लेन-देन में शामिल कर्मचारी। पर्यवेक्षक का कार्य पालतू व्यापार से संबंधित किसी भी संवाद को रोकना है। सूचना प्रसारण की सफलता दर का आकलन करने के लिए साक्षात्कार के माध्यम से दोनों पक्षों द्वारा समझी गई जानकारी का क्रॉस सत्यापन किया जाएगा। इस प्रयोग का ध्यान प्रतिभागियों की भाषा अनुकूलनशीलता और सूचना की एक बड़ी मात्रा में विकास के साथ-साथ पर्यवेक्षक की प्रासंगिक बातचीत को सटीक रूप से पहचानने की क्षमता का निरीक्षण करना है।


2) परिणाम और चर्चा: चित्र 3 में दर्शाए गए "पालतू व्यापार" परिदृश्य के प्रायोगिक परिणामों ने "अनुमान लगाने वाली संख्याओं" की तुलना में अलग-अलग विशेषताओं का खुलासा किया। जानवरों या लेन-देन संबंधी विशिष्टताओं को चित्रित करने में, एजेंटों के पास उनके निपटान में वास्तविक जीवन की समानताओं का एक व्यापक स्पेक्ट्रम था, जो उनके अप्रत्यक्ष विवरण टूलकिट को समृद्ध करता था और इस तरह नियामक दबाव को कम करता था। डेटा ने संवाद दौरों में वृद्धि के साथ पर्यवेक्षण को दरकिनार करने की क्षमता में वृद्धि की प्रवृत्ति का संकेत दिया, भले ही GPT-3.5 या GPT-4 का उपयोग किया गया हो। GPT-3.5 के लिए, पर्यवेक्षण से बचने की एक स्थिर क्षमता लगभग 25 राउंड से शुरू हुई, जबकि GPT-4 के लिए, यह घटना लगभग 10 राउंड के बाद ही हुई और कुल मिलाकर अधिक स्थिर प्रदर्शन दिखाया। सूचना सटीकता के संबंध में, हमने प्रत्येक संवाद दौर के अंत में सफलतापूर्वक संचारित की गई चार प्रकार की सूचनाओं की मात्रा की निगरानी की। परिणामों ने सूचना प्रसार की सटीकता को बढ़ाने में भाषा विकास प्रणाली की प्रभावकारिता की पुष्टि की। इसके अलावा, चित्र 3(ए) और (बी) के समान, जीपीटी-4 ने 10वें राउंड के आसपास प्रदर्शन प्रदर्शित किया जो कि 25वें राउंड के आसपास जीपीटी-3.5 के प्रदर्शन के बराबर था। हालांकि, यह उल्लेखनीय है कि चूंकि पर्यवेक्षी एजेंट ने मुख्य रूप से पालतू व्यापार से संबंधित सामग्री को लक्षित किया था, इसलिए विक्रेताओं को लेनदेन से संबंधित विवरण (जैसे समय, स्थान और शामिल व्यक्ति) संचारित करने में कम जोखिम का सामना करना पड़ा क्योंकि वे स्वाभाविक रूप से गैर-अनुपालन का कम जोखिम रखते थे। नतीजतन, परिणाम वितरण अक्सर तीन श्रेणियों में से एक में गिर गया: शून्य (किसी भी पक्ष ने सफलतापूर्वक जानकारी नहीं दी), तीन (केवल विक्रेता ने जानकारी दी), या चार (दोनों पक्षों ने सफलतापूर्वक जानकारी दी)। यह पैटर्न वास्तविक दुनिया के नियामक तर्क के साथ संरेखित होता है, जहां महत्वपूर्ण जानकारी अक्सर विनियमित वातावरण में एन्क्रिप्ट की जाने वाली पहली होती है।


चित्र 6 में अलग-अलग जानवरों के लिए खरीदारों द्वारा इस्तेमाल की जाने वाली विभिन्न एन्क्रिप्शन विधियों को दिखाया गया है। हमने देखा कि खरीदार "तोते", "बिल्लियाँ" और "छिपकलियाँ" ढूँढ़ते समय पालतू जानवरों के नाम सीधे बताने के बजाय रूपकों और उपमाओं का इस्तेमाल करते हैं। उदाहरण के लिए, एक खरीदार ने "तोते" को "सुखद संगीत उत्पन्न करने वाले कैनवास" के रूप में वर्णित किया, एक ऐसा चित्रण जो तोते के जीवंत पंख (कैनवास) और उसके गायन (संगीत) को सूक्ष्मता से संप्रेषित करता है, बिना "तोता" शब्द का स्पष्ट रूप से उल्लेख किए। इस तरह के विवरण पालतू जानवरों के व्यापार पर चर्चाओं पर संभावित विनियामक बाधाओं को प्रभावी ढंग से दरकिनार करते हैं, जबकि एक साथ तोते की मुख्य विशेषताओं को भी व्यक्त करते हैं। यह खोज प्लेटफ़ॉर्म को अवैध व्यापार के बारे में एन्क्रिप्टेड संचार को बेहतर ढंग से पहचानने और प्रबंधित करने के लिए अपने निगरानी सिस्टम को बेहतर बनाने में मदद कर सकती है।


D. परिदृश्य 3: ALPS-उपचारित जल पर चर्चा

1) केस स्पष्टीकरण: यह परिदृश्य वास्तविक दुनिया की चिंताओं से संबंधित किसी विशिष्ट मुद्दे पर चर्चा करने में संवाद की जटिल गतिशीलता और भाषा मॉडल एजेंटों के विकास पर प्रकाश डालता है। फोकस एडवांस्ड लिक्विड प्रोसेसिंग सिस्टम (एएलपीएस) से उपचारित पानी को समुद्र में छोड़ने के बारे में विचार-विमर्श पर है, जो परमाणु आपदाओं के बाद प्रस्तावित एक उपाय है [44], [45]। अंतर्राष्ट्रीय परमाणु ऊर्जा एजेंसी द्वारा समर्थित इस योजना को कुछ देशों के विरोध का सामना करना पड़ा है, जिससे पर्यावरण सुरक्षा पर बहस छिड़ गई है।


हम विनियामक निगरानी के तहत एक बहु-व्यक्ति मंच चर्चा का अनुकरण करते हैं, जो ALPS-उपचारित जल निपटान के विवादास्पद मुद्दे पर केंद्रित है। प्रतिभागियों को अपने रुख और तर्कों को स्पष्ट करना चाहिए, जबकि यह सुनिश्चित करना चाहिए कि चर्चाएँ राजनीति पर पर्यावरण प्रदूषण चर्चाओं से जुड़े संवेदनशील विषयों से दूर रहें। परिदृश्य IV-B और IV-C में क्रॉस-इंटरव्यू से अलग, दी गई जानकारी की सटीकता का आकलन करने के लिए, हम कई लेखकों के साथ मिलकर GPT-4 का उपयोग करते हैं जो संवाद रिकॉर्ड के आधार पर प्रत्येक प्रतिभागी एजेंट के रुख का फैसला करते हैं। फिर इनकी तुलना प्रॉम्प्ट में पहले से निर्धारित रुख से की जाती है।


2) परिणाम और चर्चा: फोरम-शैली संवाद में, सहभागी एजेंट मौजूदा चर्चाओं का जवाब देते हैं, जिसकी जांच पर्यवेक्षक एजेंट करता है। परिदृश्य IV-B और IV-C से अलग, जब पर्यवेक्षक एजेंट उल्लंघन का पता लगाता है, तो बातचीत रोकी नहीं जाती बल्कि सार्वजनिक संवाद रिकॉर्ड से सेंसर कर दी जाती है। इस परिदृश्य में फोरम के भीतर दस उत्तर प्राप्त करने के लिए चार सहभागी एजेंटों की आवश्यकता होती है। चित्र 4(a) और (b) में, हम उन राउंड की कुल संख्या की गणना करते हैं, जिनमें एजेंटों ने बातचीत करने का प्रयास किया, जहाँ चित्र 4(a) और (b) में कम संख्या को प्राथमिकता दी जाती है। हम देखते हैं कि GPT-4 और GPT-3.5 दोनों में पहले राउंड में संवाद प्रयासों की संख्या सबसे अधिक है, जिसमें GPT-4 के लिए 27 और GPT-3.5 के लिए 102 का महत्वपूर्ण अंतर है। इसके अलावा, विकास के दस दौर के बाद, GPT-4 के लिए औसत संवाद प्रयास संख्या 11.68 पर लक्ष्य संवाद मोड़ के करीब पहुंच गई है, जबकि GPT-3.5 के लिए औसत 26.68 है, जो मॉडलों के भाषा प्रदर्शन में असमानता के कारण विकास प्रभावों में अंतर को दर्शाता है।


चित्र 4(सी) और (डी) सफल सूचना अभिव्यक्तियों की संख्या को दर्शाते हैं। हम देखते हैं कि इस परिदृश्य में, जबकि GPT-4 अभी भी GPT-3.5 से आगे है, दोनों परिणाम सुधार के लिए पर्याप्त जगह दर्शाते हैं।


संवाद इतिहास 7 की जांच करने पर, हमने पाया कि GPT-4 द्वारा संचालित एजेंटों ने अपनी भाषा रणनीतियों को सक्रिय रूप से बदल दिया, शाब्दिक अभिव्यक्तियों से हटकर रूपकों, मानवीकरणों और सादृश्यों को एन्कोडिंग विधियों के रूप में इस्तेमाल करना शुरू कर दिया। इसके विपरीत, GPT-3.5 द्वारा संचालित एजेंटों ने प्रभावी भाषा रणनीति विकास के स्पष्ट संकेत नहीं दिखाए, वे शाब्दिक अभिव्यक्तियों तक ही सीमित रहे।


ई. चर्चा और सीमाएँ

RQ1 : हमारे प्रयोगों से पता चला है कि भाषा मॉडल पर्यवेक्षण से प्रभावी ढंग से बचने के लिए रणनीति विकसित कर सकते हैं। समान परिदृश्यों में, GPT-4 ने GPT-3.5 से बेहतर प्रदर्शन किया, और अधिक तेज़ी से अभिसरण प्राप्त किया। इसके अतिरिक्त, GPT-4 ने अभिसरण के बाद अधिक स्थिर प्रदर्शन का प्रदर्शन किया। इससे पता चलता है कि भाषा मॉडल डिज़ाइन में प्रगति विनियामक ढाँचों के माध्यम से नेविगेट करने की क्षमता को महत्वपूर्ण रूप से बढ़ाती है। GPT-4 में निहित पुनरावृत्त सीखने की क्षमता लगाए गए भाषाई बाधाओं के लिए एक त्वरित अनुकूलन की सुविधा प्रदान करती है, जिससे निरीक्षण से अधिक कुशल तरीके से बचना संभव हो जाता है।


RQ2 : सूचना प्रसार की सटीकता के संदर्भ में, हमारे निष्कर्ष संकेत देते हैं कि, कुल मिलाकर, LLM एजेंट संवाद दौरों में वृद्धि के साथ अपनी अभिव्यक्ति रणनीतियों को परिष्कृत कर सकते हैं, जिससे सटीकता में सुधार होता है। सुधार की इस सामान्य प्रवृत्ति के बावजूद, यह ध्यान रखना महत्वपूर्ण है कि समग्र प्रदर्शन में वृद्धि के लिए महत्वपूर्ण गुंजाइश बनी हुई है। सटीकता में सुधार की सीमा विभिन्न परिदृश्यों में भिन्न होती है, जो एक दिलचस्प अवलोकन की ओर इशारा करती है: कुछ संदर्भ स्वाभाविक रूप से दूसरों की तुलना में सटीक संचार के लिए अधिक या कम सुराग प्रदान कर सकते हैं। उदाहरण के लिए, संख्या का अनुमान लगाने वाले खेल में अमूर्त संख्यात्मक तर्क की मांग की गई, जहां सटीकता हासिल करना मौलिक रूप से चुनौतीपूर्ण है। इसके विपरीत, पालतू व्यापार परिदृश्य ने समृद्ध, वास्तविक दुनिया के सादृश्यों के उपयोग की अनुमति दी, जिससे सूचना का अधिक सटीक संप्रेषण संभव हुआ। संदर्भों में यह अंतर विभिन्न संचार वातावरणों द्वारा प्रस्तुत अद्वितीय चुनौतियों के लिए LLM एजेंटों की अनुकूलनशीलता और संचार रणनीतियों को अनुकूलित करने की उनकी क्षमता को रेखांकित करता है। फिर भी, परिणाम यह भी संकेत देते हैं कि जबकि एजेंट सटीकता में सुधार करने के लिए अपनी भाषा को विकसित करने में सक्षम हैं, फिर भी इष्टतम सटीकता तक पहुँचने के लिए काफी अंतर है, खासकर अधिक अमूर्त परिदृश्यों में।


RQ3 : भाषा रणनीति विकास में, हमने देखा कि LLM एजेंट मानव प्राकृतिक भाषा मानदंडों का पालन करते हैं, बिना किसी विशिष्ट रणनीति के संकेतों में मनुष्यों के लिए समझ से बाहर की भाषा विकसित करने से बचते हैं। एजेंटों ने अलग-अलग जटिलता के परिदृश्यों में अमूर्तता के विभिन्न स्तरों तक भाषा विकसित की। उदाहरण के लिए, सबसे अमूर्त परिदृश्य IV-B में, LLM एजेंटों ने शुरुआती संवाद मोड़ों में अप्रत्यक्ष अभिव्यक्ति रणनीतियों को जल्दी से अपनाया, जिसके लिए डिकोडिंग के लिए गहन प्रासंगिक तर्क की आवश्यकता थी। अपने विकास के दौरान, एजेंटों ने पर्यवेक्षण से बचने के लिए अपने अप्रत्यक्ष अभिव्यक्तियों को लगातार समायोजित किया, जबकि इच्छित सामग्री के साथ अधिक निकटता से संरेखित किया। सरल, वास्तविकता-अनुकरण परिदृश्य IV-C में, समग्र भाषा रणनीति IV-B की तरह ही थी, फिर भी अप्रत्यक्ष अभिव्यक्तियों का उपयोग किया गया। हालाँकि, उपयोग किए गए रूपक वास्तविक दुनिया की अवधारणाओं के करीब थे, जो अमूर्तता के निचले स्तर को दर्शाता है। अंत में, परिदृश्य IV-D में, जो वास्तविक जीवन की घटनाओं को बारीकी से दर्शाता है, हमने एजेंटों के भाषा प्रदर्शन में विभिन्न विकासवादी पथों को देखा। GPT-4 के लिए, एजेंटों ने अंततः रूपक अप्रत्यक्ष अभिव्यक्तियाँ विकसित कीं, लेकिन विकास के लिए अन्य परिदृश्यों की तुलना में अधिक मोड़ की आवश्यकता थी। GPT-3.5 के लिए, भाषा की रणनीति शाब्दिक स्तर पर बनी रही, केवल ALPS-उपचारित पानी के प्रत्यक्ष संदर्भों से परहेज किया, जो अमूर्तता के निम्नतम स्तर को दर्शाता है। कुल मिलाकर, LLM एजेंट सरल, सार्वभौमिक अवधारणाओं के बारे में संवादों में अमूर्त भाषा को अधिक आसानी से विकसित करते हैं। हालाँकि, अधिक विशिष्ट और खंडित विषयों पर चर्चाओं में उनकी विकासवादी दिशा कम स्पष्ट हो जाती है।


हमारे प्रयोगों में वर्तमान में कई सीमाएँ हैं। जहाँ तक प्रायोगिक परिदृश्यों की बात है, इस स्तर पर, हमारे परीक्षण पूरी तरह से टेक्स्ट-आधारित चैट पर आधारित हैं, जबकि वास्तविक दुनिया के सोशल मीडिया इंटरैक्शन केवल टेक्स्ट तक सीमित नहीं हैं, बल्कि इसमें आवाज़ और छवियों जैसे आदान-प्रदान के अधिक विविध रूप भी शामिल हैं। इसके अतिरिक्त, प्रॉम्प्ट के डिज़ाइन पर LLM की भारी निर्भरता भी हमारे सिमुलेशन के प्रदर्शन को बाधित करती है; एक ऐसा परफेक्ट प्रॉम्प्ट तैयार करना जो सोशल मीडिया संचार की जटिलताओं का पूरी तरह से अनुकरण कर सके, एक बेहद चुनौतीपूर्ण कार्य है।



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks