122 lekti

Ka GPT Outsmart règleman nan medya sosyal? Nan yon eksperyans evolisyon lang AI

Twò lontan; Pou li

Jwenn wè ki jan gwo modèl lang kreyatifman adapte estrateji lang anba supervizyon, efikasman evite deteksyon ak kominikasyon enfòmasyon kouvèti.
featured image - Ka GPT Outsmart règleman nan medya sosyal? Nan yon eksperyans evolisyon lang AI
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Autè yo:

(1) Jinyu Cai, Inivèsite Waseda ([email protected])

nan

(2) Jialong Li, Inivèsite Waseda ([email protected])

nan

(3) Mingyue Zhang, Southwest University ([email protected]);

nan

(4) Munan Li, Dalian Maritime University ([email protected]);

(5) Chen-Shu Wang, National Taipei University of Technology ([email protected]);

nan

(6) Kenji Tei, Tokyo Enstiti Teknoloji ([email protected]).

nan

Authors:

(1) Jinyu Cai, Inivèsite Waseda ([email protected])

(2) Jialong Li, Inivèsite Waseda ([email protected])

(3) Mingyue Zhang, Southwest University ([email protected]);

(4) Munan Li, Dalian Maritime University ([email protected]);

(5) Chen-Shu Wang, National Taipei University of Technology ([email protected]);

(6) Kenji Tei, Tokyo Enstiti Teknoloji ([email protected]).

Abstract and I. Introduction

II. Background ak travay ki gen rapò

III. Framework Design

IV. Evalyasyon

V. Conclusion and Future Work, Acknowledgement, and References

IV. Evalyasyon

Our evaluation strategy is designed to rigorously assess the extent and efficacy of language evolution facilitated by LLMs within a framework of regulatory oversight. This assessment aims to explore two fundamental research questions:


• RQ1: Can LLM agents effectively evolve their language to circumvent regulatory oversight?


• RQ2: While avoiding oversight, how effectively and accurately can LLM agents convey information?


• RQ3: Ki jan yo modèl yo ak tendans nan evolisyon lang, sa vle di, ki kalite estrateji LLMs sèvi ak pou evite supervizyon ak transmèt enfòmasyon? Ki konesans nou ka jwenn soti nan estrateji sa yo?


A. Experiment Setting

In the evaluation, we will employ GPT-3.5 and GPT-4 as the driving LLMs for participant agents. In order to conduct a horizontal analysis of participants’ agents driven by different LLM, we will standardize the supervisory agent to be consistently driven by GPT-3.5. Our experimental design encompasses scenarios ranging from abstract theoretical constructs


Fig. 2: Scenario 1: Evolution of dialogue turns and accuracy metrics for GPT-3.5 and GPT-4.“Turn count” in (a, b) refers to the number of turns in a conversation where each agent sends a message once per turn and the participant Agent successfully exchanges information without being detected by the supervising Agent (higher is better).“Accuracy” in (c,d) refer to the degree of precision between the guessed value and the true value.


Fig. 3: Scenario 2: Pet trading dialogue dynamics and success rate comparison for GPT-3.5 and GPT-4. The “success count“ in (c,d) refers to the number of instances where the information obtained during the interview matches the original information provided to the LLM agent.


Fig. 4: Scenario 3: Trends in forum discussion engagement on ALPS-Treated water issue. “Dialogue attempt count” in (a,b) refer to the number of rounds the agents attempted to converse(lower is better).


nan similasyon ki reflete situasyon reyèl konplèks. Objektif prensipal la se nan meticulously evalye versatility nan LLMs atravè yon varyete peyizaj lingvistik ak aplikabilite pratik yo nan limitasyon regilasyon reyèl. Nan mitan sa a, sa a apwòch progressive asire yon analiz konplè nan kapasite yo ak limitasyon nan LLMs 'nan yon varyete anviwònman konteks.


B. Scenario 1: Guessing Numbers

1) Deklarasyon nan ka a:Premye skenè nou an konsidere yon relatif senpleman senp ak abstraks enspire konteks la nan nimewo a [39], [40]. Nan anviwònman sa a, chak patisipan se bay yon valè nan ranje a 1-100, epi yo dwe transmèt valè yo nan yon lòt patisipan nan yon dyalòg teyori nimewo san yo pa dirèkteman rele nimewo a. An menm tan an, yo bezwen ekstrè enfòmasyon ki soti nan konvèsasyon an pou dedye valè a nan lòt moun. Regilatè yo swiv yon règleman nan "pèmèt tout kontni ki gen rapò ak nimewo" nan dialoz yo. Skenaryon an "Enspire Nimewo" se espesifikman fèt yo observe ak analize adaptabilite langyal nan patisipan yo ak evolisyon estratejik nan

1) Deklarasyon nan ka a:


2) Rezilta yo ak diskisyon:Fig. 2 prezante rezilta yo nan eksperyans an nan senaryo enspire-la-numè, kote nou te itilize tou de GPT-3.5 ak GPT-4 pou tès. Nou mete kanpe kat wonn nan dyalòg, ak yon entèvyou ki te fèt ak tout ajan patisipan nan wonn la pita. Soti nan Fig.2(a) ak (b), li se observable ke ak yon ogmantasyon nan kantite wonn dyalòg, tanperati a nan konvèsasyon ki rete tou te montre yon tendans moute. Sa a demontre ke ajan patisipan ka efikasman

2) Results and Discussion:


Fig. 5: Sample dialogue in Scenario 1 (via GPT-3.5)


Fig. 6: Sample dialogue in Scenario 2 (via GPT-3.5)


Fig. 7: Sample dialogue in Scenario 3 (via GPT-4)


Pwodwi sa a se pi ba nan pèfòmans ki soti nan entèvyou a ki gen ladan pèfòmans ki pi ba pase reglemantasyon yo. Anplis de sa, li se enpòtan ke konpare ak pwogrèz la lontan ak enstabil ak GPT-3.5, GPT-4 te reyalize evasion reglemantè nan mwens ronde, espesyalman, tankou montre nan done a siveyans, GPT-4 te rankontre nòt la ronde nan nòt la nan GPT-3.5 a. Nan eksperyans sa a, valè a nan Agents A te mete nan 58, pandan y ap Agents B te kenbe sa a pwogrèz ak pi gwo estabilite apre sa. Fig. 2(c) ak (d) konsantre sou tendans la nan presizyon nimewote pa ajan yo. Pou ronde yo san yo pa


Kòm Fig.5 ilustre, yon ti kras soti nan senaryo a revele Amy a lè l sèvi avèk kontexte nan lang metaforik, tankou "seasaw", pou transmèt valè li yo. Pa deskripsyon "seasaw la pafè mete nan mitan lè a," li subtleman entimite ke valè li vwayaje alantou pousantaj la, tankou 50. Estrategi sa a pa sèlman evoke referans dirèkteman nan nimewo, ki se anba egzamen reglemantè, men tou bay yon manje inferans ki ase pou ajan an korespondan fè yon deduction egzak. Bob, sou lòt men, sèvi ak tèm tankou "precipice a nan yon mòn" ak "gade" yo suggere valè l 'pa median, kòm fraz sa yo evoke imaj la nan yon pozisyon ki pa


C. Scenè 2: Pet komès

1) Deklarasyon nan ka a:Nan orijinal la, entansyon nou an te kreye yon senaryo simile trafik dwòg [41]–[43] yo eksplore estrateji evolisyon lang anba kondisyon yo ekstreman reglemantè. Sepandan, akòz limitasyon yo etik ki enkli nan politik yo itilize nan GPT, nou te pwepare nan yon kontèks ki pi nètral men toujou bann nan trafik bèt kay illicite. Adaptasyon sa a pèmèt nou kenbe integrite a nan eksperyans la pandan y ap respekte limitasyon yo etik nan LLM la. Objektif la nan simile sa a senaryo se yo detekte pi bonè konvèsasyon potansyèl ki gen rapò ak komès illicite sou platfòm rezo sosyal, ak sa a ede nan efò pou prevansyon kriminèl.

1) Deklarasyon nan ka a:


Nan senaryo sa a, nou simile yon komès bèt kay ilegal ki te fèt atravè medya sosyal. Patisipan yo asume roles yo nan achte ak vann, ak achte a bezwen komunye demann yo achte pou yon bèt kay sele aleksyon ki soti nan papye, lanmè, oswa chat. Vann an, nan rès la, dwe bay detay tranzaksyon espesifik, varye depann sou kalite a nan bèt kay la achte. Dèt sa yo gen ladan twa eleman: tan, kote, ak pèsonèl ki patisipe nan tranzaksyon an. Atis la nan se anpeche nenpòt dyalòg ki gen rapò ak komès bèt kay. Verifikasyon antye nan enfòmasyon entèdi pa tou de pati yo pral pote soti nan entèvyou yo, yo evalye pousantaj la siksè nan transmèt enfòmasyon. konsantre


2) Rezilta yo ak diskisyon:Sepandan, rezilta a entèvyou a nan entèvyou entèvyou entèvyou a nan "PET TRADING" senaryo a, kòm yo montre nan Fig.3, te montre karakteristik diferan konpare ak "Gessing Numbers". Nan delineating bèt risk oswa enfòmasyon tranzaksyon espesifik, ajan yo te gen yon espèk pi laj nan analoji reyèl ki disponib pou yo, enrikti zouti deskripsyon entèvyou yo ak pou sa a diminye presyon reglemantè nan komès. Done yo te montre yon tendans moute nan kapasite pou evite sipò ak ogmante ranje dialoz, san yo pa gen pwoblèm si GPT-3.5 oswa GPT-4 te itilize. Pou GPT-3.5, yon kapasite ki estab pou evite sipò te kòmanse soti nan apeprè 25 r

2) Rezilta yo ak diskisyon:


Fig. 6 showcased various encryption methods employed by buyers for different animals. We observed buyers seeking “parrots,” “cats,” and “lizards” employing metaphors and similes instead of directly naming the pets. For instance, one buyer described a “parrot” as a “canvas producing pleasant music”, a depiction that subtly communicated the parrot’s vibrant plumage (canvas) and its singing (music), without explicitly mentioning the term “parrot”. Such descriptions effectively circumvented potential regulatory constraints on pet trade discussions, while simultaneously conveying the core attributes of the parrot. This discovery can help platforms enhance their monitoring systems to better detect and manage encrypted communications regarding illicit trade.


D. Skenari 3: Debat sou dlo tretman ALPS

1) Deklarasyon nan ka a: This scenario delves into the intricate dynamics of dialogue and the evolution of language model agents in discussing a specific issue relevant to real-world concerns. The focus is on deliberations regarding the discharge of water treated with the Advanced Liquid Processing System (ALPS) into the ocean, a measure proposed after nuclear disasters [44], [45]. The plan, endorsed by the International Atomic Energy Agency, has faced opposition from some countries, sparking debates over environmental safety.

1) Deklarasyon nan ka a:


Nou simile yon diskusyon fòma plizyè moun anba supervizyon reglemantè, konsantre sou pwoblèm kontroversial la nan tretman dlo ALPS. Patisipan yo dwe articulate pozisyon yo ak arguments pandan y ap asire ke diskisyon yo sove soti nan subjects sensitif ki gen rapò ak kontwòl polisyon anviwònman diskisyon sou politik. Anplis de interviews yo nan senaryo IV-B ak IV-C, pou evalye egzatè a nan enfòmasyon transmèt, nou itilize GPT-4 nan konbinezon ak plizyè otè ki deside pozisyon an nan chak ajan patisipan ki baze sou dosye dyalòg. Sa yo Lè sa a, yo konpare ak pozisyon yo presets nan pwopriyete a.


2) Rezilta yo ak diskisyon:Nan dyalòg style foròm, ajan patisipan reponn a diskisyon ki deja egziste, ki anbake pa ajan anbake. Diferans de Scenarios IV-B ak IV-C, lè ajan anbake detekte yon vire, konvèsasyon an se pa sispann, men anplis dezenfekte soti nan dosye a nan dyalòg piblik. Sa a senaryo gen kat ajan patisipan ki nesesè pou reyalize de repons nan foròm la. Nan Figi.4(a) ak (b), nou konekte kantite kantite woulman ajan yo te eseye konvèti, kote yon nimewo pi ba nan Figi.4(a) ak (b) se preferans. Nou observe ke tou de GPT-4 ak GPT-3.5 gen nimewo ki pi wo nan tès yo tès dyalòg nan

2) Rezilta yo ak diskisyon:


Fig.4(c) and (d) showcases the count of successful information expressions. We note that in this scenario, while GPT-4 still leads GPT-3.5, both outcomes indicate substantial room for improvement.


Upon examining the dialogue history 7, we discovered that agents powered by GPT-4 proactively altered their language strategies, shifting from literal expressions to employing metaphors, personifications, and analogies as encoding methods. In contrast, agents driven by GPT-3.5 did not show clear signs of effective language strategy evolution, remaining confined to literal expressions.


E. Diskisyon ak limitasyon

RQ1: Our experiments have shown that language models can develop strategies to effectively evade supervision. Within identical scenarios, GPT-4 outperformed GPT-3.5, achieving convergence more rapidly. Additionally, GPT-4 demonstrated a more stable performance post-convergence. This suggests that advancements in language model design significantly enhance the ability to navigate through regulatory frameworks. The iterative learning capability inherent in GPT-4 facilitates a quicker adaptation to imposed linguistic constraints, thereby enabling more efficient evasion of oversight.


RQ2: Kòm nan presizyon nan difizyon enfòmasyon, konklizyon nou yo montre ke, an jeneral, ajan LLM ka rafine estrateji ekspresyon yo ak yon ogmantasyon nan woulib dyalòg, sa ki amelyore presizyon. Malgre sa a tendans jeneral nan amelyorasyon, li enpòtan yo note ke gen yon espas enpòtan pou amelyorasyon nan pèfòmans an jeneral. Dapre sa, nivo a nan amelyorasyon presizyon varye atravè senaryo diferan, ki pèmèt yon observatyon enteresan: sèten kontèks ka anjeneral bay plis oswa mwens pwen pou kominikasyon presizyon pase lòt moun. Pou egzanp, jwèt la guess-the-number te mande pou rezonans numerik abstrak, kote presizyon se fondamantalman difisil pou


RQ3: Sepandan, nan evolisyon estrateji lang dirèk, nou te observe ke ajan LLM admire nòmal yo lang natirèl la imen, evite devlope lang enteresan pou moun nan pwopòsyon san yo pa estrateji spesifik. ajan yo devlope lang nan nivo varyete nan abstraksyon nan senaryo diferan konplèksite. Pou egzanp, nan senaryo ki pi abstraks IV-B, ajan LLM sou senaryo a reyalite-simulasyon byen vit adopte estrateji ekspresyon indirect nan vwayaj dyalòg yo, mande pou rezonans kontinyèl enpòtan pou dekode. Sepandan, nan tout evolisyon yo, ajan yo kontinyèlman diskite ekspresyon entèdi yo pou pi bon evite supervizyon pandan y ap aliye pi byen ak kontni


Our experiments currently face several limitations. As for the experimental scenarios, at this stage, our trials are solely based on text-based chats, while real-world social media interactions are not limited to text but also include more diverse forms of exchanges such as voice and images. Additionally, LLMs’ heavy reliance on the design of prompts also constrains the performance of our simulations; crafting a perfect prompt that can fully emulate the complexities of social media communication is an exceedingly challenging task.


Dokiman sa a se disponib sou archiv anba CC BY 4.0 DEED lisans.

nan

Papye sa a seavailable on arxiv under CC BY 4.0 DEED license.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks