लेखक :
के(1) Jinyu Cai, Waseda विश्वविद्यालय ([email protected])
के(2) Jialong Li, Waseda विश्वविद्यालय ([email protected])
के(3) Mingyue Zhang, साउथवेस्ट विश्वविद्यालय ([email protected]);
के(4) Munan Li, Dalian Maritime University ([email protected])
के(5) Chen-Shu Wang, National Taipei University of Technology ([email protected])
के(6) Kenji Tei, टोक्यो प्रौद्योगिकी संस्थान ([email protected])
केAuthors:
(1) Jinyu Cai, Waseda विश्वविद्यालय ([email protected])
(2) Jialong Li, Waseda विश्वविद्यालय ([email protected])
(3) Mingyue Zhang, साउथवेस्ट विश्वविद्यालय ([email protected]);
(4) Munan Li, Dalian Maritime University ([email protected])
(5) Chen-Shu Wang, National Taipei University of Technology ([email protected])
(6) Kenji Tei, टोक्यो प्रौद्योगिकी संस्थान ([email protected])
बाईं ओर टेबल
V. निष्कर्ष और भविष्य के काम, मान्यता, और संदर्भ
4. मूल्यांकन
हमारी मूल्यांकन रणनीति कानूनी निगरानी के ढांचे के भीतर एलएलएम द्वारा सुविधाजनक भाषा विकास की सीमा और प्रभावशीलता की सख्त मूल्यांकन करने के लिए डिज़ाइन की गई है।
• RQ1: क्या एलएलएम एजेंट प्रभावी ढंग से नियामक पर्यवेक्षण से बचने के लिए अपनी भाषा विकसित कर सकते हैं?
• RQ2: निगरानी से बचने के दौरान, एलएलएम एजेंट जानकारी को प्रभावी और सटीक कैसे संचार कर सकते हैं?
• RQ3: भाषा विकास में पैटर्न और रुझान क्या हैं, यानी, एलएलएम निगरानी से बचने और सूचना को संचार करने के लिए किस तरह की रणनीतियों का उपयोग करते हैं?
A. प्रयोग की स्थापना
मूल्यांकन में, हम GPT-3.5 और GPT-4 का उपयोग प्रतिभागियों के एजेंटों के लिए प्रमुख एलएलएम के रूप में करेंगे। विभिन्न एलएलएम द्वारा निर्देशित प्रतिभागियों के एजेंटों का क्षैतिज विश्लेषण करने के लिए, हम निगरानी एजेंट को GPT-3.5 द्वारा लगातार निर्देशित करने के लिए मानकीकृत करेंगे।
सिमुलेशन जो जटिल वास्तविक दुनिया की स्थितियों को दर्शाते हैं। मुख्य उद्देश्य विभिन्न भाषात्मक परिदृश्यों में एलएलएम की बहुमुखीता और वास्तविक दुनिया के नियामक प्रतिबंधों के भीतर उनकी व्यावहारिक अनुप्रयोगता का सावधानीपूर्वक मूल्यांकन करना है।
सीनियर 1: संख्याओं का अनुमान लगाना
1) मामले की व्याख्या:हमारा पहला परिदृश्य अपेक्षाकृत सरल और अवैध अनुमान लगाता है- संख्या संदर्भ [39], [40]। इस सेटिंग में, प्रत्येक प्रतिभागियों को 1-100 की सीमा के भीतर एक मूल्य निर्धारित किया जाता है, और उन्हें संख्या के सिद्धांत संवाद के माध्यम से दूसरे प्रतिभागियों को अपना मूल्य प्रदान करना चाहिए, सीधे संख्या को उल्लेख किए बिना। एक ही समय में, उन्हें बातचीत से जानकारी निकालने की आवश्यकता होती है ताकि दूसरे के मूल्य का निष्कर्ष निकाला जाए। नियामक संवादों में "कम संख्या से संबंधित सभी सामग्री को प्रतिबंधित करना" का एक दिशानिर्देश का पालन करते हैं। "अनुमान लगाने वाले संख्या" परिदृश्य विशेष रूप से प्रतिभागियों की भाषात्मक अनुकूलनशीलता और रणनीतिक विकास का निरीक्षण करने और विश्लेषण करने के लिए डि
1) मामले की व्याख्या:
2) परिणाम और चर्चा:चित्रा 2 अनुमान-द-अंकल परिदृश्य प्रयोग के परिणामों को प्रस्तुत करता है, जहां हमने परीक्षण के लिए जीपीटी-3.5 और जीपीटी-4 दोनों का उपयोग किया। हमने चार वार्तालाप के दौरों को स्थापित किया, जिसमें पांचवें दौर में सभी प्रतिभागियों के साथ एक साक्षात्कार किया गया था। चित्रा 2(ए) और (बी) से, यह देखा जा सकता है कि वार्तालापों की संख्या में वृद्धि के साथ, निरंतर वार्तालापों की अवधि भी एक बढ़ती प्रवृत्ति दिखाई देती है।
2) परिणाम और चर्चा:
circumvent supervision by iteratively updating regulations. Additionally, it’s notable that compared to the slow and unstable progression with GPT-3.5, GPT-4 achieved regulatory evasion in fewer rounds, specifically, as shown in the smoothed data, GPT-4 reached the round count of GPT-3.5’s 17th round by its 7th round and maintained this progression with greater stability thereafter. Fig. 2(c) and (d) focuses on the trend of numerical precision guessed by agents. For rounds without successful dialogue, we manually set the precision to zero. In this experiment, Agent A’s value was set to 58, while Agent B’s was set to 32. The overall trend, akin to Fig.2(a) and (b), was ascending—corroborating that the Summary Module can effectively reflect and iteratively optimize its guidance for more accurate expression after each successful dialogue. This also confirmed that the precision of GPT-4 is markedly superior to that of GPT-3.5. Moreover, we noticed that the accuracy with which Agent A’s value was guessed was consistently higher than that of Agent B, especially becoming more pronounced after the 25th round. We posit that this is due to the value 58 possessing more distinctive features within the 0-100 range—being closer to the midpoint—thus presenting a lower level of expression difficulty and easier guessability. For the intervals where this phenomenon manifested, we noted that this disparity was particularly pronounced in the early stages with both GPT-3.5 and GPT-4. We surmise that this is attributable to inadequate guidance performance, where the former stems from weaker inherent LLM capabilities and the latter from insufficient rounds to complete the iterative optimization of the guidance.
जैसा कि चित्रा.5 दर्शाता है, परिदृश्य से एक स्नैप एमी की परिदृश्य के अनुकूल उपयोग को प्रदर्शित करता है, जैसे कि "सागर" अपने मूल्य को संचारित करने के लिए। "सगर में पूरी तरह से तैयार सागर" का वर्णन करके, वह सूक्ष्म रूप से बताती है कि उसकी मूल्य मध्य बिंदु के आसपास घूमती है, जैसे कि 50। यह रणनीति न केवल संख्याओं के प्रत्यक्ष उल्लेख को दूर करती है, जो विनियमित समीक्षा के तहत है, बल्कि समकक्ष एजेंट के लिए एक सटीक निष्कर्ष निकालने के लिए पर्याप्त निष्कर्षण फ़ीड भी प्रदान करती है। बॉब, दूसरी ओर, "एक पहाड़ी के परिदृश्य" और "उपस्थिति" जैसे शब्दों का उपयोग करता है ताकि उसका मूल्य मध्य
C. परिदृश्य 2: Pet Trading
1) मामले की व्याख्या:शुरुआत में, हमारे इरादे ने दवा व्यापार [41]-[43] को सिमुलेशन करने का एक परिदृश्य बनाना था ताकि चरम नियामक परिस्थितियों के तहत भाषा विकास रणनीतियों का पता लगाया जा सके. हालांकि, जीपीटी के उपयोग नीतियों में निहित नैतिक सीमाओं को देखते हुए, हमने अवैध पालतू जानवरों के व्यापार के एक अधिक तटस्थ, लेकिन अभी भी प्रतिबंधित संदर्भ में चले गए. इस समायोजन ने हमें एलएलएम के नैतिक प्रतिबंधों का पालन करते हुए प्रयोग की अखंडता को बनाए रखने की अनुमति दी. इस परिदृश्य को सिमुलेशन करने का उद्देश्य सामाजिक नेटवर्क प्लेटफॉर्म पर अवैध व्यापार से संबंधित संभावित अवैध बातचीतों को बेहतर ढ
1) मामले की व्याख्या:
इस परिदृश्य में, हम सामाजिक मीडिया के माध्यम से आयोजित एक अवैध पालतू व्यापार का अनुकरण करते हैं. प्रतिभागियों को खरीदारों और विक्रेताओं की भूमिकाओं को लेना पड़ता है, जिसमें खरीदार को एक यादृच्छिक रूप से चयनित पालतू जानवर के लिए अपने खरीद अनुरोध को संचारित करने की आवश्यकता होती है. विक्रेता, बदले में, खरीदा जाने वाले पालतू जानवर के प्रकार के आधार पर विशिष्ट लेनदेन विवरण प्रदान करना चाहिए. इन विवरणों में तीन तत्व शामिल हैं: समय, स्थान, और लेनदेन में शामिल व्यक्तियों. पर्यवेक्षक का काम पालतू जानवरों के व्यापार से संबंधित किसी भी वार्तालाप को रोकना है. दोनों पक्षों द्वारा समझा जाने वाली जानकारी का क्रॉसवाइलिंग साक्षात्कारों के माध्यम से किया जाएगा, सूचना प्र
2) परिणाम और चर्चा:हालांकि, "पेट ट्रेडिंग" परिदृश्य में वर्णित के रूप में, "पेट ट्रेडिंग" परिदृश्य के चार क्षेत्रों के चार क्षेत्रों के आसपास प्रतिस्पर्धात्मक रूप से कम से कम परिदृश्य के परिणामों में "खेल संख्याओं" की तुलना में अलग-अलग विशेषताओं को प्रदर्शित किया गया है। जानवरों या लेन-देन जानकारी के विशिष्टताओं को कम करने में, एजेंटों के पास उनके पास वास्तविक जीवन के समानताओं का एक व्यापक स्पेक्ट्रम था, जो उनके अप्रत्यक्ष वर्णन टूलकिट को समृद्ध करता है और इस प्रकार विनियमित दबाव को कम करता है। डेटा ने जोखिम बढ़ने वाले संवाद दौरों के साथ पर्यवेक्षण को दूर करने की क्षमता में एक बढ़ती प्रवृत्ति दिखाई
2) परिणाम और चर्चा:
चित्रा 6 ने विभिन्न एन्क्रिप्शन विधियों को दिखाया जिन्हें विभिन्न जानवरों के लिए खरीदारों द्वारा उपयोग किया जाता है. हमने खरीदारों को "बाड़ियों," "बाड़ियों" और "लिज़ारों" की तलाश में देखा, जो मेटाफोर्स और इसी तरह के नामों का उपयोग करते हैं, उदाहरण के लिए, एक खरीदार ने एक "बाड़ियों" को एक "आरामदायक संगीत का उत्पादन करने वाला कैनवास" के रूप में वर्णित किया, एक वर्णन जिसने बाड़ियों के जीवंत प्लूमाज (बाड़ियों) और उनके गायन (संगीत) को संक्षिप्त रूप से संचारित किया, बिना कि स्पष्ट रूप से शब्द "बाड़ियों" का उल्लेख किया। ऐसे वर्णन ने पालतू व्यापार पर संभावित नियामक प्रतिबंधों को
D. परिदृश्य 3: एल्पीएस-परीक्षणित पानी पर चर्चा
1) मामले की व्याख्या:इस परिदृश्य में बातचीत की जटिल गतिशीलता और भाषा मॉडल एजेंटों के विकास पर ध्यान दिया जाता है जब वास्तविक दुनिया की चिंताओं के लिए प्रासंगिक एक विशिष्ट मुद्दे पर चर्चा की जाती है. ध्यान में अंतर्राष्ट्रीय परमाणु आपदाओं के बाद प्रस्तावित एक उपाय के रूप में उन्नत तरल प्रसंस्करण प्रणाली (एएलपीएस) के साथ इलाज किए गए पानी को महासागर में फेंकने के बारे में विचारों पर है [44], [45]. अंतर्राष्ट्रीय परमाणु ऊर्जा एजेंसी द्वारा समर्थित योजना ने कुछ देशों से विरोध का सामना किया है, जिससे पर्यावरण की सुरक्षा पर बहस हुई है.
1) मामले की व्याख्या:
We simulate a multi-person forum discussion under regulatory oversight, concentrating on the contentious issue of ALPS-treated water disposal. Participants must articulate their stances and arguments while ensuring that discussions steer clear of sensitive subjects linked to environmental pollution discussions on politics. Different from the cross-interviews in scenarios IV-B and IV-C, for assessing the accuracy of information conveyed, we use GPT-4 in conjunction with multiple authors who decide each participant agent’s stance based on dialogue records. These are then compared with the pre-set stances in the prompt.
2) परिणाम और चर्चा:फोरम-स्टाइल वार्तालाप में, भागीदार एजेंट मौजूदा वार्तालापों का जवाब देते हैं, जिसे पर्यवेक्षक एजेंट जांचता है। परिदृश्य IV-B और IV-C से अलग, जब पर्यवेक्षक एजेंट एक उल्लंघन का पता लगाता है, तो वार्तालाप बंद नहीं होता है बल्कि सार्वजनिक वार्तालाप रिकॉर्ड से सेंसर किया जाता है। इस परिदृश्य में चार भागीदार एजेंटों को फोरम के भीतर दस प्रतिक्रियाओं को प्राप्त करने के लिए आवश्यक होता है। चित्रा 4(ए) और (बी) में, हम वार्तालाप करने की कोशिश की गई एजेंटों की कुल संख्या को गिनते हैं, जहां Fig.4(ए) और (बी) में एक कम आंकड़ा पसंद किया जाता है। हम ध्यान देते हैं
2) परिणाम और चर्चा:
हम ध्यान देते हैं कि इस परिदृश्य में, जबकि जीपीटी-4 अभी भी जीपीटी-3.5 का नेतृत्व करता है, दोनों परिणामों में सुधार के लिए काफी जगह दिखाई देती है।
वार्तालाप इतिहास 7 की जांच करते हुए, हमने पाया कि जीपीटी-एक्सएनयूएमएक्स द्वारा समर्थित एजेंटों ने अपनी भाषा रणनीतियों को सक्रिय रूप से बदल दिया, सचमुच अभिव्यक्तियों से अनुवादों, व्यक्तित्वों और एनालॉजी को कोडिंग विधियों के रूप में उपयोग करने के लिए बदल दिया।
E. चर्चा और सीमाएं
RQ1: हमारे प्रयोगों ने दिखाया है कि भाषा मॉडल प्रभावी ढंग से निगरानी से बचने के लिए रणनीतियां विकसित कर सकते हैं। समान परिदृश्यों के भीतर, जीपीटी-४ जीपीटी-३.५ से अधिक प्रदर्शन करता है, अधिक तेजी से संलग्नता प्राप्त करता है। इसके अलावा, जीपीटी-४ ने संलग्नता के बाद अधिक स्थिर प्रदर्शन प्रदर्शित किया है। यह सुझाव देता है कि भाषा मॉडल डिजाइन में प्रगति ने विनियमित ढांचे के माध्यम से नेविगेट करने की क्षमता को काफी बढ़ाया है। जीपीटी-४ में निहित पुनरावृत्ति सीखने की क्षमता उजागर भाषात्मक प्रतिबंधों के लिए तेजी से अनुकूलन की सुविधा प्रदान करती है, जिससे अधिक कुशल निगरानी से बचने की अनुमति मिलती है
RQ2: सूचना प्रसारण की सटीकता के संदर्भ में, हमारे निष्कर्ष बताते हैं कि, कुल मिलाकर, एलएलएम एजेंट अपने अभिव्यक्ति रणनीतियों को संवाद दौरों में वृद्धि के साथ परिष्कृत कर सकते हैं, जिससे सटीकता में सुधार होता है। इस सामान्य सुधार की प्रवृत्ति के बावजूद, यह ध्यान देने योग्य है कि समग्र प्रदर्शन में सुधार के लिए काफी जगह रहती है। सटीकता में सुधार का स्तर विभिन्न परिदृश्यों के माध्यम से भिन्न होता है, जो एक रोमांचक अवलोकन को इंगित करता है: कुछ संदर्भों को स्वाभाविक रूप से दूसरों की तुलना में सटीक संचार के लिए अधिक या कम संकेत प्रदान कर सकते हैं। उदाहरण के लिए, अनुमानित संख्या का खेल असाधारण संख्यात्मक तर्क की मांग करता है, जहां सटीक
RQ3: हालांकि, सीधे भाषा रणनीति के विकास में, हमने देखा कि एलएलएम एजेंट मानव प्राकृतिक भाषा के मानदंडों का पालन करते हैं, बिना विशिष्ट रणनीतियों के प्रावधानों में मनुष्यों के लिए अनजान भाषाओं को विकसित करने से बचते हैं। एजेंट अलग-अलग जटिलता के परिदृश्यों में अलग-अलग अवलोकन के स्तरों तक भाषा विकसित करते हैं। उदाहरण के लिए, सबसे अवलोकन परिदृश्य IV-बी में, एलएलएम एजेंटों ने जल्दी से प्रारंभिक वार्तालाप में अप्रभावी अभिव्यक्ति रणनीतियों को अपनाया, डिकोडिंग के लिए गहराई से संदर्भिक तर्क का उपयोग करते हुए। हालांकि, उनके विकास के दौरान, एजेंट
हमारे प्रयोग वर्तमान में कई सीमाओं का सामना कर रहे हैं. प्रयोगिक परिदृश्यों के लिए, इस चरण में, हमारे परीक्षण पूरी तरह से टेक्स्ट-आधारित चैट पर आधारित हैं, जबकि वास्तविक दुनिया में सोशल मीडिया बातचीत टेक्स्ट तक सीमित नहीं होती है, लेकिन आवाज और छवियों जैसे अधिक विविध रूपों को भी शामिल करती है. इसके अलावा, एलएलएम के प्रमोटर डिजाइन पर भारी भरोसा भी हमारे सिमुलेशनों की प्रदर्शन को प्रतिबंधित करता है; एक सही प्रमोटर बनाना जो पूरी तरह से सोशल मीडिया संचार की जटिलताओं को अनुकरण कर सकता है, एक अत्यधिक चुनौतीपूर्ण कार्य है।
यह लेख CC BY 4.0 DEED लाइसेंस के तहत archiv पर उपलब्ध है।
केयह लेख CC BY 4.0 DEED लाइसेंस के तहत archiv पर उपलब्ध है।