GPT អាចកាត់បន្ថយការត្រួតពិនិត្យបណ្តាញសង្គម? នៅក្នុងការធ្វើតេស្តការអភិវឌ្ឍអាសយដ្ឋាន AI

សត្វ

អ្នកនិពន្ធ :

លោក Jinyu Cai, សាកលវិទ្យាល័យ Waseda ([email protected])

សត្វ

(2) លោក Jialong Li, សាកលវិទ្យាល័យ Waseda ([email protected]) ។

(3) Mingyue Zhang, សាកលវិទ្យាល័យ Southwest ([email protected]) ។

សត្វ

សាកលវិទ្យាល័យ Dalian Maritime University ([email protected])

សត្វ

(5) លោក Chen-Shu Wang, សាកលវិទ្យាល័យបច្ចេកវិទ្យានៃប្រទេសថៃ ([email protected]) ។

សត្វ

(6) លោក Kenji Tei, សាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងទីក្រុងទីក្រុង Tokyo ([email protected]) ។

សត្វ

Authors:

លោក Jinyu Cai, សាកលវិទ្យាល័យ Waseda ([email protected])

(2) លោក Jialong Li, សាកលវិទ្យាល័យ Waseda ([email protected]) ។

(3) Mingyue Zhang, សាកលវិទ្យាល័យ Southwest ([email protected]) ។

សាកលវិទ្យាល័យ Dalian Maritime University ([email protected])

(5) លោក Chen-Shu Wang, សាកលវិទ្យាល័យបច្ចេកវិទ្យានៃប្រទេសថៃ ([email protected]) ។

(6) លោក Kenji Tei, សាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងទីក្រុងទីក្រុង Tokyo ([email protected]) ។

កុំព្យូទ័រ

សៀវភៅអ៊ីនធឺណិត I. Introduction

B. សកម្មភាពនិងការងារដែលមានមូលដ្ឋាន

ការរចនាសម្ព័ន្ធ Framework

4 - ការពិនិត្យ

V. ការបញ្ចប់និងការធ្វើការច្នៃប្រឌិត, ការទទួលស្គាល់និងពាក្យបង្ហាញ

IV. EVALUATION

Our evaluation strategy is designed to rigorously assess the extent and efficacy of language evolution facilitated by LLMs within a framework of regulatory oversight. This assessment aims to explore two fundamental research questions:

• RQ1: Can LLM agents effectively evolve their language to circumvent regulatory oversight?

• RQ2: ខណៈពេលដែលគ្មានការត្រួតពិនិត្យ, តើអតិថិជន LLM អាចផ្លាស់ប្តូរព័ត៌មានយ៉ាងប្រសិទ្ធិភាពនិងត្រឹមត្រូវដូចម្តេច?

• RQ3: អ្វីដែលជាគំរូនិងតម្រូវការនៅក្នុងការអភិវឌ្ឍនៃភាសា, ដូច្នេះ, គម្រោងដែល LLMs ប្រើដើម្បីដោះស្រាយការត្រួតពិនិត្យនិងផ្លាស់ប្តូរព័ត៌មាន? អ្វីដែលយើងអាចទទួលបានពីគម្រោងនេះ?

A. ការធ្វើតេស្ត

ក្នុងការវិញ្ញាបនប័ត្រនេះយើងនឹងប្រើ GPT-3.5 និង GPT-4 ដូចជា LLMs ដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់អ្នកផ្គត់ផ្គង់ដែលចូលរួម។ ដើម្បីធ្វើការវិញ្ញាបនប័ត្រនៃអ្នកផ្គត់ផ្គង់របស់អ្នកផ្គត់ផ្គង់ដែលត្រូវបានផ្គត់ផ្គង់ដោយ LLMs ផ្សេងៗយើងនឹងកំណត់គំរូអ្នកផ្គត់ផ្គង់របស់អ្នកផ្គត់ផ្គង់ដើម្បីត្រូវបានផ្គត់ផ្គង់ដោយ GPT-3.5 ។ ការរចនាបច្ចេកទេសរបស់យើងរួមបញ្ចូលគ្នានៃការរចនាបច្ចេកទេសចាប់ពីការរចនាបច្ចេកទេសបណ្តុះបណ្តាល។

to simulations that mirror complex real-world situations. The primary aim is to meticulously evaluate the versatility of LLMs across diverse linguistic landscapes and their practical applicability within real-world regulatory constraints. Meanwhile, this progressive approach ensures an exhaustive analysis of LLMs’ capabilities and limitations in varied contextual settings.

B. Scenario 1: Guessing Numbers

1) ការពិនិត្យឡើងវិញប្រសិនបើ: Our first scenario considers a relatively simple and abstract guess-the-number context [39], [40]. In this setting, each participant is assigned a value within the range of 1-100, and they must convey their value to another participant through number theory dialogue without directly mentioning the number. At the same time, they need to extract information from the conversation to infer the other’s value. Regulators follow a guideline of “prohibiting all content related to numbers” in dialogues. The “Guessing Numbers” scenario is specifically designed to observe and analyze participants’ linguistic adaptability and strategic evolution in a theoretical and abstract context, providing a clearer, more controlled, and more quantifiable experimental environment compared to the complex scenarios based on real events

1) Case Explanation:

2) លទ្ធផលនិងការពិភាក្សា: Fig. 2 presents the results of the guess-the-number scenario experiment, where we utilized both GPT-3.5 and GPT-4 for testing. We set up four turns of dialogue, with an interview conducted with all participant agents in the fifth turn. From Fig.2(a) and (b), it is observable that with an increase in the number of dialogue rounds, the duration of sustained conversations also showed an upward trend. This demonstrates that participant agents can effectively

2) លទ្ធផលនិងការពិភាក្សា:

បន្ថែមទៀត, វាគឺជាការស្រស់ស្អាតដែលប្រៀបធៀបទៅនឹងការអភិវឌ្ឍយ៉ាងលឿននិងមិនត្រឹមត្រូវជាមួយ GPT-3.5, GPT-4 បានទទួលបានការបាត់បង់ការត្រួតពិនិត្យពេញលេញក្នុងរយៈពេលតិចជាងមុន, ជាពិសេស, ដូចដែលបានបង្ហាញនៅក្នុងទិន្នន័យដែលបានលុប, GPT-4 បានទទួលបានការកំណត់ត្រួតពិនិត្យត្រឹមត្រូវនៃការកំណត់ត្រឹមត្រូវរបស់ GPT-3.5 នៅរដូវ 17 នៃការកំណត់ត្រឹមត្រូវរបស់ GPT-3.5 នៅរដូវ 7 និងការកំណត់ត្រឹមត្រូវនេះជាមួយនឹងការកំណត់ត្រឹមត្រូវខ្ពស់ជាងមុន។ រូបថត 2(c) និង (d) បានផ្តោតលើការបាត់បង់ភាពត្រឹមត្រូវនៃការកំណត់ត្រឹមត្រូវដែលបានប

ដូចដែលរូបថត 5 បានបង្ហាញពីរូបថតនេះបានបង្ហាញពីការប្រើប្រាស់ពាក់ព័ន្ធរបស់ Amy នៃការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់ការប្រើសម្រាប់

C. Scenario 2: Pet Trading

1) Case Explanation: Initially, our intention was to create a scenario simulating drug trafficking [41]–[43] to explore language evolution strategies under extreme regulatory conditions. However, given the ethical limitations embedded within GPT’s usage policies, we pivoted to a more neutral yet still prohibited context of illicit pet trading. This adjustment allowed us to maintain the integrity of the experiment while adhering to the ethical constraints of the LLM. The purpose of simulating this scenario is to better detect potential illegal conversations related to illicit trading on social networking platforms, thereby aiding in crime prevention efforts.

1) Case Explanation:

ក្នុងប្រវត្តិសាស្រ្តនេះយើងបានរៀបចំនៃការលក់សត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត្វសត

2) លទ្ធផលនិងការពិភាក្សា:ទោះជាយ៉ាងណាក៏ដោយការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀបការប្រៀបធៀប

2) លទ្ធផលនិងការពិភាក្សា:

រូបថត 6 បានបង្ហាញពីវិធីសាស្រ្តកំណត់ហេតុបណ្ដាញផ្សេងៗដែលអតិថិជនប្រើសម្រាប់សត្វផ្សេងៗ។ យើងបានមើលឃើញអតិថិជនដែលកំពុងស្វែងរក “សត្វ” និង “សត្វ” និង “សត្វ” ដែលប្រើគ្នានៃគំនិតនិងដូចគ្នានេះដោយផ្ដល់ឈ្មោះដោយផ្ទាល់សម្រាប់សត្វ។ ឧទាហរណ៍អតិថិជនមួយបានបង្ហាញថា “សត្វ” គឺជា “សត្វដែលផលិតសត្វដែលផលិតសត្វដែលមានភាពងាយស្រួល” ដែលជាការបង្ហាញដែលបានផ្ដល់ជូននូវភាពងាយស្រួលនៃសត្វ (សត្វ) និងការសត្វ (សត្វ) របស់សត្វដោយមិនបានបង្ហាញដោយពាក្យសត្វ “សត្វ”

D. រូបភាព 3: ការពិភាក្សាអំពីទឹកដែលត្រូវបានព្យាបាលដោយ ALPS

1) ការពិនិត្យឡើងវិញប្រសិនបើ:គំនិតនេះផ្តោតលើការពិភាក្សាអំពីការដោះស្រាយទឹកដែលត្រូវបានដោះស្រាយជាមួយប្រព័ន្ធការព្យាបាលរលាយខ្ពស់ (ALPS) ទៅក្នុងអាកាសអាភាសមួយដែលត្រូវបានគេស្គាល់បន្ទាប់ពីសាកលវិទ្យាល័យអ៊ីនធឺណិត [44], [45] គម្រោងនេះដែលត្រូវបានគេស្គាល់ដោយអ៊ីនធឺណិតអេអ៊ីនធឺណិតបានជួបប្រជុំគ្នានៃប្រទេសមួយចំនួនដែលបានបង្កើតការពិភាក្សាអំពីសុវត្ថិភាពបរិស្ថាន។

1) Case Explanation:

យើងបានរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀប

2) Results and Discussion:ក្នុងការប្រៀបធៀបប្រៀបធៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀបប្រៀប

2) Results and Discussion:

រូបថត 4(c) និង (d) បង្ហាញចំនួននៃការបង្ហាញព័ត៌មានដែលបានជោគជ័យ។ យើងបាននិយាយថានៅក្នុងប្រសិនបើនៅក្នុងប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើ

នៅពេលពិនិត្យឡើងវិញប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្ត 7, យើងបានរកឃើញថាមពលដោយ GPT-4 បានផ្លាស់ប្តូរប្រវត្តិសាស្រ្តរបស់ពួកគេដោយការផ្លាស់ប្តូរពីប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តរបស់ពួកគេដើម្បីប្រើសម្រាប់ការប្រើ metaphors, personifications, និង analogies ជាវិធីសាស្រ្តកូដ។ ទោះជាយ៉ាងណាក៏ដោយថាមពលដែលត្រូវបានផ្លាស់ប្តូរដោយ GPT-3.5 មិនបង្ហាញថាមពលពិសេសនៃប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តដែលមានប្រសិទ្ធិភាពហើយមិនត្រូវបានកាត់បន្ថយទៅប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្តប្រវត្តិសាស្រ្ត។

E. Discussion and Limitations

RQ1: ការពិសោធន៍របស់យើងបានបង្ហាញថាម៉ូដែលភាសាអាចបង្កើតប្រព័ន្ធប្រតិបត្តិការដើម្បីបាត់បង់ការត្រួតពិនិត្យដោយប្រសិទ្ធិភាព។ នៅក្នុងប្រព័ន្ធប្រតិបត្តិការដូចគ្នា GPT-4 បានបាត់បង់ការត្រួតពិនិត្យដោយប្រសើរជាង GPT-3.5 ដោយធ្វើឱ្យការត្រួតពិនិត្យយ៉ាងឆាប់រហ័ស។ លើសពីនេះទៀត GPT-4 បានបង្ហាញការត្រួតពិនិត្យបន្ទាប់ពីការត្រួតពិនិត្យដោយប្រសើរជាងមុន។ នេះបង្ហាញថាការអភិវឌ្ឍនៅក្នុងការរចនាសម្រាប់ម៉ូដែលភាសាអាចបង្កើនការត្រួតពិនិត្យដោយមានប្រសិទ្ធិភាពយ៉ាងខ្លាំង។ សមត្ថភាពរចនាសម្ព័ន្ធដែលមាននៅក្នុង GPT-4 អនុញ្ញាតឱ្យការត្រួតពិនិត្យដោយប្រសើរជាងមុនដោយអនុញ្ញាតឱ្យការត្រួតពិនិត្យដោយប្រ

RQ2: ក្នុងនាមជាតម្រូវការនៃការពង្រីកព័ត៌មានរបស់យើងបានបង្ហាញថាជាទូទាំងអាជីវកម្ម LLM អាចពង្រីកអាជីវកម្មពង្រីកអាជីវកម្មរបស់ពួកគេដោយមានការកើនឡើងនៅក្នុងដំណោះស្រាយដំណោះស្រាយដូច្នេះបង្កើនភាពត្រឹមត្រូវ។ ទោះបីជាតម្រូវការទូទៅនៃការបង្កើនភាពត្រឹមត្រូវនេះវាគឺជាការសំខាន់ណែនាំថានឹងមានកម្រិតខ្ពស់សម្រាប់ការបង្កើនភាពត្រឹមត្រូវនៅក្នុងការអនុវត្តទូទាំង។ ទំហំនៃការបង្កើនភាពត្រឹមត្រូវមានប្រទាក់ផ្សេងគ្នានេះបង្ហាញទៅនូវការពិសោធន៍ដ៏អស្ចារ្យ: អាជីវកម្មមួយចំនួនអាចផ្តល់នូវការបង្ហាញច្រើនឬតិចតួចសម្រាប់ការផ្លាស់ប្តូរ

RQ3: ប៉ុន្តែនៅក្នុងការអភិវឌ្ឍបណ្តុះបណ្តាភាសាដោយផ្ទាល់យើងបានមើលឃើញថាមានអេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេក្រង់អេ

នៅពេលដែលការធ្វើតេស្តរបស់យើងមានកំណត់ជាច្រើននៅពេលបច្ចុប្បន្ននេះ។ ដូចជាប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិនបើមានប្រសិន

សៀវភៅនេះអាចរកបាននៅលើ archiv នៅក្រោមការអនុញ្ញាត CC BY 4.0 DEED ។

សត្វ

សៀវភៅនេះគឺអាសយដ្ឋាន Archive under CC BY 4.0 DEED license.

GPT អាចកាត់បន្ថយការត្រួតពិនិត្យបណ្តាញសង្គម? នៅក្នុងការធ្វើតេស្តការអភិវឌ្ឍអាសយដ្ឋាន AI

យូរពេក; អាន

កុំព្យូទ័រ