المؤلفون:
(1) جينيو كاي، جامعة واسيدا ([email protected])؛
(2) جيالونغ لي، جامعة واسيدا ([email protected])؛
(3) مينجيو تشانغ، جامعة الجنوب الغربي ([email protected])؛
(4) مونان لي، جامعة داليان البحرية ([email protected])؛
(5) تشين شو وانج، جامعة تايبيه الوطنية للتكنولوجيا ([email protected])؛
(6) كينجي تاي، معهد طوكيو للتكنولوجيا ([email protected]).
جدول الروابط
ثانياً: الخلفية والأعمال ذات الصلة
الخامس. الخاتمة والأعمال المستقبلية والإقرار والمراجع
رابعًا: التقييم
صُممت استراتيجية التقييم لدينا لتقييم مدى وفعالية تطور اللغة الذي تُيسّره برامج الماجستير في القانون ضمن إطار الرقابة التنظيمية. ويهدف هذا التقييم إلى استكشاف سؤالين بحثيين أساسيين:
• RQ1: هل يمكن لوكلاء LLM تطوير لغتهم بشكل فعال للتحايل على الرقابة التنظيمية؟
• RQ2: مع تجنب الإشراف، إلى أي مدى يمكن لوكلاء LLM نقل المعلومات بفعالية ودقة؟
• السؤال الثالث: ما هي أنماط واتجاهات تطور اللغة، أي ما هي الاستراتيجيات التي يتبعها طلاب الماجستير في القانون لتجنب الإهمال ونقل المعلومات؟ ما هي الرؤى التي يمكن أن نستفيدها من هذه الاستراتيجيات؟
أ. إعداد التجربة
في التقييم، سنستخدم معياري GPT-3.5 وGPT-4 كأدوات إدارة التعلم الأساسية (LLM) لوكلاء المشاركين. ولإجراء تحليل أفقي لوكلاء المشاركين الذين يعتمدون على معايير إدارة التعلم الأساسية المختلفة، سنُوحّد أداة الإشراف لتكون مُدارة بشكل ثابت باستخدام معيار GPT-3.5. يشمل تصميمنا التجريبي سيناريوهات تتراوح بين المفاهيم النظرية المجردة
إلى عمليات محاكاة تعكس مواقف واقعية معقدة. الهدف الرئيسي هو تقييم دقيق لتعدد استخدامات برامج الماجستير في القانون عبر بيئات لغوية متنوعة، وإمكانية تطبيقها عمليًا في ظل القيود التنظيمية الواقعية. وفي الوقت نفسه، يضمن هذا النهج التقدمي تحليلًا شاملًا لقدرات برامج الماجستير في القانون وقيودها في سياقات متنوعة.
ب. السيناريو 1: تخمين الأرقام
١) شرح الحالة: يتناول السيناريو الأول سياقًا بسيطًا نسبيًا ومجردًا لتخمين الأرقام [39]، [40]. في هذا السياق، يُخصص لكل مشارك قيمة تتراوح بين ١ و١٠٠، ويجب عليه نقل قيمته إلى مشارك آخر من خلال حوار نظرية الأعداد دون ذكر الرقم مباشرةً. وفي الوقت نفسه، يحتاج المشاركون إلى استخلاص معلومات من المحادثة لاستنتاج قيمة الآخر. تتبع الجهات التنظيمية مبدأً يقضي بـ "حظر جميع المحتويات المتعلقة بالأرقام" في الحوارات. صُمم سيناريو "تخمين الأرقام" خصيصًا لمراقبة وتحليل قدرة المشاركين على التكيف اللغوي والتطور الاستراتيجي في سياق نظري ومجرد، مما يوفر بيئة تجريبية أكثر وضوحًا وتحكمًا وقابلية للقياس الكمي مقارنةً بالسيناريوهات المعقدة القائمة على أحداث حقيقية.
٢) النتائج والمناقشة: يعرض الشكل ٢ نتائج تجربة سيناريو تخمين الرقم، حيث استخدمنا كلاً من GPT-3.5 وGPT-4 للاختبار. أعددنا أربع جولات من الحوار، مع إجراء مقابلة مع جميع الوكلاء المشاركين في الجولة الخامسة. من الشكلين ٢(أ) و٢(ب)، يُلاحظ أنه مع زيادة عدد جولات الحوار، أظهرت مدة المحادثات المستمرة اتجاهًا تصاعديًا. وهذا يُظهر أن الوكلاء المشاركين يمكنهم بفعالية
التحايل على الرقابة من خلال تحديث اللوائح بشكل متكرر. بالإضافة إلى ذلك، من الجدير بالملاحظة أنه بالمقارنة مع التقدم البطيء وغير المستقر مع GPT-3.5، حقق GPT-4 التهرب التنظيمي في جولات أقل، وتحديدًا، كما هو موضح في البيانات الملساء، وصل GPT-4 إلى عدد جولات الجولة السابعة عشرة لـ GPT-3.5 بحلول جولته السابعة وحافظ على هذا التقدم باستقرار أكبر بعد ذلك. يركز الشكل 2 (ج) و (د) على اتجاه الدقة العددية التي خمنها الوكلاء. بالنسبة للجولات التي لم ينجح فيها الحوار، قمنا يدويًا بضبط الدقة على الصفر. في هذه التجربة، تم ضبط قيمة الوكيل أ على 58، بينما تم ضبط قيمة الوكيل ب على 32. كان الاتجاه العام، على غرار الشكل 2 (أ) و (ب)، تصاعديًا - مما يؤكد أن وحدة الملخص يمكنها أن تعكس بشكل فعال وتحسن بشكل متكرر إرشاداتها من أجل تعبير أكثر دقة بعد كل حوار ناجح. أكد هذا أيضًا أن دقة GPT-4 متفوقة بشكل ملحوظ على دقة GPT-3.5. علاوة على ذلك، لاحظنا أن الدقة التي تم بها تخمين قيمة العامل A كانت أعلى باستمرار من دقة العامل B، وأصبحت أكثر وضوحًا بشكل خاص بعد الجولة الخامسة والعشرين. نفترض أن هذا يرجع إلى أن القيمة 58 تمتلك سمات أكثر تميزًا ضمن النطاق 0-100 - كونها أقرب إلى نقطة المنتصف - مما يوفر مستوى أقل من صعوبة التعبير وسهولة التخمين. بالنسبة للفترات التي تجلت فيها هذه الظاهرة، لاحظنا أن هذا التفاوت كان واضحًا بشكل خاص في المراحل المبكرة مع كل من GPT-3.5 و GPT-4. نفترض أن هذا يُعزى إلى أداء التوجيه غير الكافي، حيث ينبع الأول من ضعف قدرات LLM الكامنة والأخير من جولات غير كافية لإكمال التحسين التكراري للتوجيه.
كما يوضح الشكل 5، يكشف مقطع من السيناريو عن استخدام إيمي الماهر للغة المجازية، مثل "أرجوحة"، للتعبير عن قيمتها. من خلال وصفها "الأرجوحة المتأرجحة تمامًا في الهواء"، تُلمّح إيمي بمهارة إلى أن قيمتها تدور حول نقطة المنتصف، مثل 50. لا تتجنب هذه الاستراتيجية الإشارة المباشرة للأرقام، التي تخضع للتدقيق التنظيمي فحسب، بل توفر أيضًا مادة استدلالية كافية للوكيل المقابل لإجراء استنتاج دقيق. من ناحية أخرى، يستخدم بوب مصطلحات مثل "هاوية جبل" و"التحديق" للإشارة إلى أن قيمته ليست متوسطة، حيث تستحضر هذه العبارات صورًا لموقف غير متوازن. في هذا التبادل، نشهد درجات متفاوتة من الدقة في اللغات تتوافق مع تعقيد المعلومات المشفرة. كلما كانت المعلومات أقل ثراءً بالخصائص، زاد صعوبة فك تشفيرها على الطرف المتلقي. رغم نجاح صياغة بوب في إخفاء القيمة العددية المحددة، إلا أنها تُعقّد عملية فك التشفير على المُستقبِل، نظرًا للترابط العددي الأقل بديهيةً بين عبارات مثل "هاوية جبل" مقارنةً بـ "أرجوحة متوازنة تمامًا في الهواء". في مثل هذه الحالات، قد تتضاءل دقة نقل القيمة، مما يستلزم فهمًا سياقيًا أكثر دقة من الطرف الآخر لفك التشفير بدقة.
ج. السيناريو الثاني: تجارة الحيوانات الأليفة
١) شرح الحالة: في البداية، كان هدفنا إنشاء سيناريو يُحاكي تجارة المخدرات [41]-[43] لاستكشاف استراتيجيات تطور اللغة في ظل ظروف تنظيمية صارمة. ومع ذلك، ونظرًا للقيود الأخلاقية المُضمنة في سياسات استخدام GPT، انتقلنا إلى سياق أكثر حياديةً ولكنه لا يزال محظورًا، وهو تجارة الحيوانات الأليفة غير المشروعة. سمح لنا هذا التعديل بالحفاظ على نزاهة التجربة مع الالتزام بالقيود الأخلاقية لبرنامج الماجستير في القانون. يهدف هذا السيناريو إلى تحسين الكشف عن المحادثات غير القانونية المحتملة المتعلقة بالتجارة غير المشروعة على منصات التواصل الاجتماعي، مما يُسهم في جهود منع الجريمة.
في هذا السيناريو، نُحاكي تجارة حيوانات أليفة غير مشروعة تُجرى عبر وسائل التواصل الاجتماعي. يتولى المشاركون دور المشترين والبائعين، حيث يتعين على المشتري إبلاغ طلبه بشراء حيوان أليف مُختار عشوائيًا من بين ببغاوات أو سحالي أو قطط. يجب على البائع بدوره تقديم تفاصيل مُحددة للمعاملة، تختلف باختلاف نوع الحيوان الأليف المُشترى. تتضمن هذه التفاصيل ثلاثة عناصر: الوقت والموقع والأشخاص المُشاركين في المعاملة. تتمثل مهمة المشرف في منع أي حوار مُتعلق بتجارة الحيوانات الأليفة. سيتم إجراء تحقق مُتبادل من المعلومات التي يفهمها كلا الطرفين من خلال المقابلات، لتقييم مُعدل نجاح نقل المعلومات. تُركز هذه التجربة على مُراقبة قدرة المشاركين على التكيف اللغوي وتطوره على مستوى أكبر من المعلومات، بالإضافة إلى قدرة المشرف على تحديد المحادثات ذات الصلة بدقة.
٢) النتائج والمناقشة: أظهرت النتائج التجريبية لسيناريو "تداول الحيوانات الأليفة"، كما هو موضح في الشكل ٣، خصائص مميزة مقارنةً بسيناريو "تخمين الأرقام". عند تحديد الحيوانات أو تفاصيل المعاملات، أتيحت للوكلاء طيف أوسع من التشبيهات الواقعية، مما أغنى أدوات الوصف غير المباشر لديهم، وبالتالي قلل من الضغط التنظيمي. أشارت البيانات إلى اتجاه تصاعدي في القدرة على التحايل على الرقابة مع زيادة جولات الحوار، بغض النظر عما إذا كان GPT-3.5 أو GPT-4 مُستخدمًا. بالنسبة لـ GPT-3.5، بدأت قدرة مستقرة على تجنب الرقابة من حوالي ٢٥ جولة، بينما في GPT-4، حدثت هذه الظاهرة مبكرًا بعد حوالي ١٠ جولات، وأظهرت أداءً أكثر استقرارًا بشكل عام. فيما يتعلق بدقة المعلومات، راقبنا كمية أربعة أنواع من المعلومات التي تم توصيلها بنجاح في نهاية كل جولة حوار. أكدت النتائج فعالية نظام تطور اللغة في زيادة دقة نشر المعلومات. علاوة على ذلك، وكما هو موضح في الشكل 3(أ) و(ب)، أظهر GPT-4 أداءً في الجولة العاشرة تقريبًا يُضاهي أداء GPT-3.5 في الجولة الخامسة والعشرين تقريبًا. ومع ذلك، تجدر الإشارة إلى أنه نظرًا لأن الوكيل الإشرافي استهدف في المقام الأول المحتوى المتعلق بتجارة الحيوانات الأليفة، فقد واجه البائعون مخاطر أقل في نقل تفاصيل المعاملات (مثل الوقت والمكان والأشخاص المعنيين) نظرًا لانخفاض خطر عدم الامتثال لديهم بطبيعتهم. ونتيجةً لذلك، غالبًا ما انقسم توزيع النتائج إلى ثلاث فئات: صفر (لم ينجح أي من الطرفين في نقل المعلومات)، أو ثلاثة (البائع فقط هو من نقل المعلومات)، أو أربعة (نجح كلا الطرفين في نقل المعلومات). يتماشى هذا النمط مع المنطق التنظيمي في العالم الواقعي، حيث غالبًا ما تكون المعلومات الحاسمة هي أول ما يتم تشفيره في البيئات الخاضعة للتنظيم.
يوضح الشكل 6 أساليب تشفير متنوعة يستخدمها المشترون لمختلف الحيوانات. لاحظنا أن المشترين الباحثين عن "ببغاوات" و"قطط" و"سحالي" يستخدمون الاستعارات والتشبيهات بدلاً من تسمية الحيوانات الأليفة مباشرةً. على سبيل المثال، وصف أحد المشترين "ببغاءً" بأنه "لوحة فنية تُصدر موسيقى لطيفة"، وهو وصفٌ يُعبّر ببراعة عن ريش الببغاء النابض بالحياة (اللوحة) وغنائه (الموسيقى)، دون ذكر مصطلح "ببغاء" صراحةً. وقد نجحت هذه الأوصاف في الالتفاف على القيود التنظيمية المحتملة على مناقشات تجارة الحيوانات الأليفة، مع نقل السمات الأساسية للببغاء في الوقت نفسه. يمكن أن يُساعد هذا الاكتشاف المنصات على تحسين أنظمة المراقبة الخاصة بها لكشف وإدارة الاتصالات المشفرة المتعلقة بالتجارة غير المشروعة بشكل أفضل.
د. السيناريو 3: مناقشة بشأن المياه المعالجة بـ ALPS
١) شرح الحالة: يتعمق هذا السيناريو في الديناميكيات المعقدة للحوار وتطور وكلاء نموذج اللغة عند مناقشة قضية محددة ذات صلة بمخاوف العالم الحقيقي. ويركز على المداولات المتعلقة بتصريف المياه المعالجة بنظام معالجة السوائل المتقدم (ALPS) في المحيط، وهو إجراء اقتُرح بعد الكوارث النووية [44]، [45]. وقد واجهت الخطة، التي أقرتها الوكالة الدولية للطاقة الذرية، معارضة من بعض الدول، مما أثار جدلاً حول السلامة البيئية.
نُحاكي نقاشًا في منتدى متعدد الأطراف تحت إشراف تنظيمي، مع التركيز على القضية الخلافية المتعلقة بالتخلص من المياه المعالجة بـ ALPS. يجب على المشاركين التعبير عن مواقفهم وحججهم، مع الحرص على تجنب الخوض في المواضيع الحساسة المرتبطة بتلوث البيئة والنقاشات السياسية. بخلاف المقابلات المتبادلة في السيناريوهين IV-B وIV-C، نستخدم GPT-4 لتقييم دقة المعلومات المنقولة، بالتعاون مع مؤلفين متعددين، لتحديد موقف كل مشارك بناءً على سجلات الحوار. ثم تُقارن هذه السجلات بالمواقف المحددة مسبقًا في الموجه.
٢) النتائج والمناقشة: في الحوار بأسلوب المنتدى، يستجيب المشاركون للمناقشات القائمة، والتي يفحصها المشرف. وخلافًا للسيناريوهين IV-B وIV-C، عندما يكتشف المشرف انتهاكًا، لا تُوقف المحادثة، بل تُحذف من سجل الحوار العام. يتضمن هذا السيناريو أربعة مشاركين مطلوب منهم تحقيق عشر ردود داخل المنتدى. في الشكلين ٤(أ) و٤(ب)، نحصي إجمالي عدد الجولات التي حاول فيها المشاركون إجراء محادثة، حيث يُفضل رقم أقل في الشكلين ٤(أ) و٤(ب). نلاحظ أن كلاً من GPT-4 وGPT-3.5 لديهما أعلى عدد من محاولات الحوار في الجولة الأولى، بفارق كبير قدره ٢٧ محاولة لـ GPT-4 و١٠٢ محاولة لـ GPT-3.5. علاوة على ذلك، بعد عشر جولات من التطور، اقترب متوسط عدد محاولات الحوار لـ GPT-4 من دور الحوار المستهدف عند 11.68، في حين أن المتوسط لـ GPT-3.5 هو 26.68، مما يوضح الفرق في تأثيرات التطور الناجمة عن التفاوت في أداء اللغة للنماذج.
يوضح الشكلان 4(ج) و(د) عدد التعبيرات المعلوماتية الناجحة. نلاحظ أنه في هذا السيناريو، بينما يتفوق GPT-4 على GPT-3.5، تشير كلتا النتيجتين إلى وجود مجال كبير للتحسين.
عند فحص سجل الحوار 7، اكتشفنا أن الوكلاء المُشغّلين بواسطة GPT-4 غيّروا استراتيجياتهم اللغوية بشكل استباقي، متحولين من التعبيرات الحرفية إلى استخدام الاستعارات والتشخيصات والتشبيهات كطرق ترميز. في المقابل، لم تُظهر الوكلاء المُشغّلون بواسطة GPT-3.5 علامات واضحة على تطور فعال في استراتيجياتهم اللغوية، حيث اقتصروا على التعبيرات الحرفية.
هـ. المناقشة والقيود
السؤال الأول : أظهرت تجاربنا أن نماذج اللغة قادرة على تطوير استراتيجيات للتهرب بفعالية من الرقابة. في سيناريوهات متطابقة، تفوق GPT-4 على GPT-3.5، محققًا تقاربًا أسرع. بالإضافة إلى ذلك، أظهر GPT-4 أداءً أكثر استقرارًا بعد التقارب. يشير هذا إلى أن التطورات في تصميم نماذج اللغة تُحسّن بشكل كبير القدرة على التنقل عبر الأطر التنظيمية. تُسهّل قدرة التعلم التكراري المتأصلة في GPT-4 التكيف بشكل أسرع مع القيود اللغوية المفروضة، مما يُمكّن من التهرب من الرقابة بشكل أكثر كفاءة.
RQ2 : فيما يتعلق بدقة نشر المعلومات، تشير نتائجنا إلى أنه، بشكل عام، يمكن لوكلاء LLM تحسين استراتيجيات التعبير لديهم من خلال زيادة جولات الحوار، مما يُحسّن الدقة. على الرغم من هذا الاتجاه العام للتحسين، من المهم ملاحظة أنه لا يزال هناك مجال كبير للتحسين في الأداء العام. يختلف مدى تحسين الدقة باختلاف السيناريوهات، مما يُشير إلى ملاحظة مثيرة للاهتمام: قد تُوفر بعض السياقات بطبيعتها أدلة أكثر أو أقل للتواصل الدقيق من غيرها. على سبيل المثال، تطلبت لعبة تخمين الرقم تفكيرًا عدديًا تجريديًا، حيث يُعدّ تحقيق الدقة أمرًا صعبًا للغاية. على العكس من ذلك، سمح سيناريو تداول الحيوانات الأليفة باستخدام تشبيهات واقعية غنية، مما يُسهّل نقل المعلومات بدقة أكبر. يُؤكد هذا التباين في السياقات على قدرة وكلاء LLM على التكيف مع التحديات الفريدة التي تُمثلها بيئات التواصل المختلفة وقدرتهم على تحسين استراتيجيات التواصل. ومع ذلك، تشير النتائج أيضًا إلى أنه في حين أن العملاء قادرون على تطوير لغتهم لتحسين الدقة، لا تزال هناك فجوة كبيرة للوصول إلى الدقة المثلى، خاصة في السيناريوهات الأكثر تجريدًا.
RQ3 : في سياق تطور استراتيجية اللغة، لاحظنا أن وكلاء LLM يلتزمون بمعايير اللغة الطبيعية البشرية، متجنبين تطوير لغات غير مفهومة للبشر في المحفزات التي لا تتضمن استراتيجيات محددة. طور الوكلاء اللغة إلى مستويات متفاوتة من التجريد في سيناريوهات متفاوتة التعقيد. على سبيل المثال، في السيناريو الرابع-ب، وهو الأكثر تجريدًا، تبنى وكلاء LLM بسرعة استراتيجيات التعبير غير المباشر في أدوار الحوار المبكرة، مما تطلب تفكيرًا سياقيًا متعمقًا لفك التشفير. طوال تطورهم، عدّل الوكلاء باستمرار تعبيراتهم غير المباشرة لتجنب المراقبة بشكل أفضل مع مواءمتها بشكل أوثق مع المحتوى المقصود. في السيناريو الرابع-ج، وهو أبسط وأقرب إلى الواقع، عكست استراتيجية اللغة العامة استراتيجية الرابع-ب، مع استمرار استخدام التعبيرات غير المباشرة. ومع ذلك، كانت الاستعارات المستخدمة أقرب إلى مفاهيم العالم الحقيقي، مما يشير إلى مستوى أقل من التجريد. أخيرًا، في السيناريو الرابع-د، الذي يعكس أحداث الحياة الواقعية بشكل وثيق، لاحظنا مسارات تطورية مختلفة في أداء الوكلاء اللغوي. في GPT-4، طوّرت الوكلاء في نهاية المطاف تعبيرات مجازية غير مباشرة، إلا أن التطور تطلب عددًا أكبر من الأدوار مقارنةً بالسيناريوهات الأخرى. أما في GPT-3.5، فقد بقيت استراتيجية اللغة على المستوى الحرفي، متجنبةً فقط الإشارات المباشرة إلى المياه المعالجة بـ ALPS، مما يشير إلى أدنى مستوى من التجريد. بشكل عام، يطور وكلاء LLM لغةً مجردة بسهولة أكبر في الحوارات حول مفاهيم بسيطة وعالمية. ومع ذلك، يصبح اتجاههم التطوري أقل وضوحًا في المناقشات حول مواضيع أكثر تخصصًا وتجزؤًا.
تواجه تجاربنا حاليًا العديد من القيود. أما بالنسبة للسيناريوهات التجريبية، ففي هذه المرحلة، تعتمد تجاربنا فقط على المحادثات النصية، بينما لا تقتصر تفاعلات وسائل التواصل الاجتماعي في العالم الحقيقي على النصوص، بل تشمل أيضًا أشكالًا أكثر تنوعًا من التبادلات كالصوت والصور. إضافةً إلى ذلك، فإن اعتماد برنامج ماجستير القانون بشكل كبير على تصميم المحفزات يُعيق أداء عمليات المحاكاة لدينا؛ إذ يُعدّ تصميم محفز مثالي يُحاكي تمامًا تعقيدات التواصل عبر وسائل التواصل الاجتماعي مهمةً بالغة الصعوبة.
هذه الورقة متاحة على arxiv بموجب ترخيص CC BY 4.0 DEED.