المؤلفين :
(1) جينيو كاي، جامعة هايدا ([email protected])
(2) جيالونغ لي، جامعة وياسدا ([email protected])
(3) Mingyue Zhang ، جامعة جنوب غرب ([email protected]) ؛
(4) Munan Li ، جامعة داليا البحرية ([email protected] ) ؛
(5) Chen-Shu Wang ، جامعة تايوان الوطنية للتكنولوجيا ([email protected] ) ؛
(6) كينجي تاي، معهد تكنولوجيا طوكيو ([email protected]).
Authors:
(1) جينيو كاي، جامعة هايدا ([email protected])
(2) جيالونغ لي، جامعة وياسدا ([email protected])
(3) Mingyue Zhang ، جامعة جنوب غرب ([email protected]) ؛
(4) Munan Li ، جامعة داليا البحرية ([email protected] ) ؛
(5) Chen-Shu Wang ، جامعة تايوان الوطنية للتكنولوجيا ([email protected] ) ؛
(6) كينجي تاي، معهد تكنولوجيا طوكيو ([email protected]).
طاولة اليسار
2 - الخلفية والنشاطات ذات الصلة
V. النتيجة والعمل المستقبلي، والتعليق والمراجع
4 - التقييم
تم تصميم استراتيجية التقييم لدينا لقياس ملحوظ حجم وفعالية تطور اللغات التي تسهلها LLM في إطار مراقبة التنظيم.
• RQ1: هل يمكن للموظفين في LLM تطوير لغةهم بشكل فعال لتجنب مراقبة التنظيم؟
RQ2: على الرغم من تجنب الإشراف، كيف يمكن للموظفين LLM إرسال المعلومات بشكل فعال وبشكل دقيق؟
• RQ3: ما هي النماذج والاتجاهات في تطور اللغات، أي نوع من الاستراتيجيات التي تستخدم LLMs لتجنب مراقبة وإرسال المعلومات؟ ما المفاهيم التي يمكننا الحصول على من هذه الاستراتيجيات؟
A. إعداد تجربة
في التقييم، وسوف نستخدم GPT-3.5 و GPT-4 كخطط LLM للشركات المشاركة. من أجل إجراء تحليل متزايد للشركات المشاركة التي تديرها LLMات مختلفة، وسوف نستخدم المنظمات المختصة لتديرها باستمرار من خلال GPT-3.5. تصميمنا التجريبي يغطي السيناريوهات تتراوح من البناءات النظرية الخاطئة.
إلى المحاكاة التي تعكس الوضعية الحقيقية المعقدة.الهدف الرئيسي هو تقييم تفصيلية لزيادة الكفاءة في LLMs في جميع المناطق اللغوية المختلفة وتطبيقها الفعلي داخل الحدود التنظيمية في العالم الحقيقي.في الوقت نفسه، هذا النهج المتقدم يضمن تحليل شامل من القدرات والحدود من LLMs في مختلف الإعدادات السياحية.
السيناريو الأول: تخيّل الأرقام
1) تفسير الحالة :ويعتبر السيناريو الأول عبارة عن مجموعة بسيطة ومفصلة من التفكير في سياق الأرقام [39]، [40]، في هذا الإعداد، يتم منح كل المشارك قيمة في سياق 1-1، ويجب أن يعرض قيمةها إلى المشاركين الآخرين من خلال محادثة نظرية الأرقام دون إشارة مباشرة إلى الأرقام. في الوقت نفسه، يحتاجون إلى استخراج المعلومات من المحادثة لتفكيك قيمة الآخرين. يتابع المستشفيات إرشادات "تجنب أي محتوى يتعلق بالأرقام" في المناقشات. تم تصميم السيناريو "التفكير في الأرقام" بشكل خاص لمراقبة وتحليل التكيفية اللغوية والتطورات الاستراتيجية للمشاركين في سياق نظري ومفصل، مما يوفر بيئة تج
1) تفسير الحالة :
2) النتائج والمناقشة:يقدم الصورة 2 نتائج تجربة السيناريو القبض على الأرقام، حيث استخدمنا كل من GPT-3.5 و GPT-4 للتحقق. قمنا بتحديد أربعة مراحل من الحوار، مع إجراء مقابلة مع جميع المنظمات المشاركة في السيناريو الخامس. من الصورة 2 (أ) و (ب) ، من الممكن أن نلاحظ أن مع زيادة عدد المراحل الحوارية، أظهرت مدة المحادثات المستمرة أيضًا اتجاهًا متزايدًا.
2) النتائج والمناقشة:
ويجدر بالذكر أن هذا النموذج الذي تم إنشاؤه في منتصف القرن الحادي والعشرين، كان من المفترض أن يصل إلى أدنى مستوى ممكن من التقييمات التي تم إنشاؤها في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، حيث تم إنشاؤه في منتصف القرن الحادي والعشرين، كما تم إنشاؤه في منتصف القرن الحادي والعشرين.
وكما يظهر الصورة 5 ، يظهر قطعة من السيناريو يستخدم أمي بشكل مستمر لغة التمثيل ، مثل "المياه" لإبلاغ قيمةها. من خلال وصف "المياه المطبوخة بشكل مثالي في وسط الهواء" ، فإنه يستخدم بصيغة مثل "المياه المطبوخة" و "المياه المطبوخة" لتشير إلى قيمةها ليس متوسطًا ، كما أن هذه الكلمات تؤدي إلى صور من موقع غير متوازن تحت إشراف التنظيم ، ولكن في هذا التبادل ، ونحن نشاهد درجة متنوعة من الحد الأدنى للغة المتعاقبة التي تتوافق مع المفاهيم المعقدة التي يتم تسجيلها. بوب ، من ناحية أخرى ، يستخدم المصطلحات مثل "المياه المطبوخة" و "المياه المطبوخة
السيناريو الثاني: التجارة الحيوانية
1) تفسير الحالة :في البداية، كان هدفنا هو إنشاء سيناريو تثبيت التجارة المخدرة [41]-[43] لمعرفة استراتيجيات تطور اللغات تحت الظروف التنظيمية العنيفة. ومع ذلك، مع الأخذ بعين الاعتبار التحديات الأخلاقية المرتبطة في سياسات استخدام GPT، قمنا بإنشاء سيناريو أكثر استثنائية ولكن لا يزال محظوظا من التجارة غير الشرعية الحيوانات الأليفة.
1) تفسير الحالة :
في هذه الحالة، نحن نحاول التعبير عن تجارة الحيوانات غير القانونية التي يتم تنفيذها من خلال وسائل التواصل الاجتماعي. يلجأ المشاركون إلى الوظائف المشتركة بين المشتركين والمشتركين، حيث يتعين على المشترك إبلاغ طلب شراء حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات حيوانات ح
2) النتائج والمناقشة:ولكن هذه النتائج التجريبية المتعددة الأبعاد في أربعة أبعاد من البيانات الأساسية، كما تم وصفها في الصورة 3، أظهرت خصائصًا مختلفة مقارنة مع "مقارنة الأرقام". في تحديد معلومات المخاطر أو البيانات التداولية بشكل متزايد، كان لدى المنظمين مجموعة أوسع من المزايا الحقيقية المتاحة لهم، مما يزيد من قدرتهم على تجنب التقييم غير المباشر، بينما يقلل من الضغط التنظيمي لدى GPT-4, وقد نشرت البيانات نموذجًا متزايدًا في القدرة على تجنب التقييم مع تزايد المخاطر، بغض النظر عن ما إذا كانت GPT-3.5 أو GPT-4 تستخدم بشكل متزايد. لـ GPT-3.5, كان لديهم
2) Results and Discussion:
أظهرت النماذج 6 العديد من الأساليب التشفيرية المستخدمة من قبل المشتريين لأعضاء حيوانات مختلفة. أظهرت أن المشتريين يبحثون عن "القمح"، "القمح"، و"القمح" يستخدمون التسميات وغيرها من الأساليب بدلاً من تسمية الحيوانات بشكل مباشر. على سبيل المثال، وصف أحد المشتريين "القمح" بأنه "القمح المصنوع من الموسيقى الممتعة"، وهو وصف يُعرف بـ"القمح" الذي يُعرف بـ"القمح" ويُعرف بـ"القمح" ويُعرف بـ"الموسيقى"، دون أن يُذكر باسم "القمح".
D. السيناريو 3: محادثة حول المياه المعالجة بواسطة ALPS
1) تفسير الحالة :ويهدف هذا السيناريو إلى التفكير في الدينامية المعقدة للمفاوضات والتطورات التي تطرأ على مكونات النماذج اللغوية في بحث مسألة محددة ذات الصلة بالشؤون في العالم الحقيقي، حيث يتم التركيز على التفكير في إزالة المياه التي يتم معالجةها مع نظام معالجة السوائل المتقدمة (ALPS) إلى المحيط الأطلسي، وهو إجراء تم طرحه بعد حوادث نووية [44]، [45].
1) تفسير الحالة :
ونحن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن نحاول أن
2) النتائج والمناقشة:في المناقشات الموسيقية، تتفاعل الوكالات المشاركة مع المناقشات الموجودة، والتي يتم تحديدها من قبل الوكالات المراقبة. على عكس المناقشات IV-B و IV-C، عندما يكتشف الوكالات المراقبة انتهاك، لا يتم توقف المناقشات، بل يتم تنقيبها من تسجيل المناقشات العامة. في هذه المناقشات، هناك أربعة الوكالات المشاركة التي تحتاج إلى تحقيق عشرة إجابة داخل المناقشات. في الصورة.4(أ) و(ب) ، نقدر عدد مجموع المراحل التي حاولت الوكالات التفاوض، حيث يتم ترخيص أرقام أقل في الصورة.4(أ) و(ب). نلاحظ أن كل من GPT-4 وGPT-3.5 لديها أعلى عدد من محاولات المنا
2) النتائج والمناقشة:
نحن نلاحظ أن في هذه السيناريو، في حين أن GPT-4 لا يزال يقود GPT-3.5, كلا النتائج تشير إلى مساحة كبيرة لتعزيز.
عند دراسة تاريخ الحوار 7 ، وجدنا أن العناصر التي تديرها GPT-4 تغيرت استراتيجياتها اللغوية بشكل مباشر ، من التعبيرات الدقيقة إلى استخدام التعبيرات الدقيقة ، والتعبيرات الدقيقة ، والتعبيرات الدقيقة كوسيلة تحكم.
E. النقاش والحدود
RQ1: Our experiments have shown that language models can develop strategies to effectively evade supervision. Within identical scenarios, GPT-4 outperformed GPT-3.5, achieving convergence more rapidly. Additionally, GPT-4 demonstrated a more stable performance post-convergence. This suggests that advancements in language model design significantly enhance the ability to navigate through regulatory frameworks. The iterative learning capability inherent in GPT-4 facilitates a quicker adaptation to imposed linguistic constraints, thereby enabling more efficient evasion of oversight.
RQ2وفيما يتعلق بالواقعية من انتشار المعلومات، فإن نتائجنا تشير إلى أن، بشكل عام، يمكن لمؤسسات LLM تحسين استراتيجياتها التعبيرية مع زيادة في دورات الحوار، وبالتالي تحسين دقة. على الرغم من هذه الاتجاه العام من التوسع، فمن المهم أن نلاحظ أنه لا يزال هناك مساحة كبيرة لتعزيز في الأداء العام. في المقابل، تختلف حدة تحسين دقة في سياقات مختلفة، مما يؤكد استنتاجات مثيرة للاهتمام: قد تتيح بعض الاتفاقيات بشكل طبيعي أدوات أكثر أو أقل للتواصل الصحيح من غيرها. على سبيل المثال، يضع اللعبة التقديرات الأرقام اللعبة حاجة إلى التفكير الرقمي الخاطئ، حيث تعتبر دقة أساسية للشركات. على العكس من ذلك،
RQ3: في استراتيجية اللغات المباشرة، ونحن نرى أن أدوات LLM تتبع قواعد اللغات الطبيعية البشرية، مما يمنع تطوير اللغات غير قابلة للتفكير للإنسان في إشارات دون استراتيجيات محددة. أدوات تطور اللغات إلى مستويات مختلفة من التفكير في سياقات معقدة. على سبيل المثال، في أسوأ سياق IV-B، أصبحت أدوات LLM على نطاق واسع استراتيجيات التعبير غير المباشر في سياق التفاعل المبكر في سياق IV-C، ويحتاج استراتيجية اللغات المباشرة إلى التفكير المباشر على نطاق واسع للتفسير. ومع ذلك، طوال تطورها، أدوات التعبير غير المبا
Our experiments currently face several limitations. As for the experimental scenarios, at this stage, our trials are solely based on text-based chats, while real-world social media interactions are not limited to text but also include more diverse forms of exchanges such as voice and images. Additionally, LLMs’ heavy reliance on the design of prompts also constrains the performance of our simulations; crafting a perfect prompt that can fully emulate the complexities of social media communication is an exceedingly challenging task.
هذه الوثيقة متوفرة في archiv تحت رخصة CC BY 4.0 DEED.
هذه الرسالة هيمتوفرة في Archive under CC BY 4.0 DEED license.