paint-brush
Èske aliyman Anthropic la se yon rechèch enpòtan sou sekirite AI?pa@step
Nouvo istwa

Èske aliyman Anthropic la se yon rechèch enpòtan sou sekirite AI?

pa stephen4m2024/12/22
Read on Terminal Reader

Twò lontan; Pou li

Etidye lespri a se sa ki pi enpòtan paske lespri se sa ki vrèman an chaj—nan eta, sitiyasyon ak epòk. Espri se baz sekirite tou paske penalite afektif devyasyon se pa lespri a—pou moun. Etidye lespri a ta ka fòme ki jan yo adapte aliyman an nan entèlijans imen, nan entèlijans atifisyèl.
featured image - Èske aliyman Anthropic la se yon rechèch enpòtan sou sekirite AI?
stephen HackerNoon profile picture

Ki sa ki se yon objektif? Oswa, ki sa ki yon objektif nan lespri imen an? Ki lòt bagay lespri a fè ki pa yon objektif oswa ki sanble ak ki jan yon objektif reyalize? Ki sa ki diferan ant yon objektif asiyen ak yon objektif pwòp tèt ou-induit? Si yon objektif karakterize kòm sofistike, ki jan sa fè diferans ak yon objektif ki pa sofistike?


Èske gen yon achitekti ki graj nan fason lespri imen an pote soti nan objektif? Ki jan sa ta ka enfòme konpreyansyon yo genyen sou objektif ak Lè sa a, transplantasyon nan AI? Èske AI gen yon lide, oswa èske AI tankou yon lide ki travay sou kontni dijital?


Sa ka vle di ke yon moun gen yon lide. Li ta ka vle di tou ke yon lespri imen entèprete ak navige mond lan ekstèn [pou AI, kontni dijital] oswa mond entèn la [achitekti pwòp AI a].


Ki jan lespri a aplike nan AI, e ki jan li travay? Kesyon sa a ka reponn nan de fason. Premyèman, an konparezon ak lespri imen an jwenn paralèl. Dezyèmman, lè w egzamine gwo paramèt matematik ki te fòme rezo neral yo epi òganize yo kòm estrikti yon lespri.


Dezyèm lan ta dwe omwen ka reyalize pa nenpòt gwo konpayi AI kounye a-akonpaye etid sou fason AI ta ka travay ak ki jan li ka an sekirite oswa ki ka aliyen ak valè imen. Okòmansman, li ka pa nesesè pou itilize lespri imen an pou kat lespri AI paske li posib pou estriktire sa AI fè, apati de baz matematik yo—ak melanj enfòmatik.


Objektif la pral defini sa sa vle di pou yon pwodiksyon yo dwe prèske egzat, bay opinyon an. Li pral defini tou sa sa vle di pou swiv ak yon rapid epi retounen repons, osi byen ke sa sa vle di yo swiv yon objektif-oswa devye de li.


Ki sa ki enpòtan se gen yon depans konseptyèl ekspresyon pou sa lespri a ye pou AI, konpare li ak sa ki evidan, Lè sa a, yo eksplore ki jan li fè anyen ki senp, ak Lè sa a, wout sa a nan nenpòt bagay byen konplèks li fè.


Sa a ta dwe rechèch enpòtan pou aliyman AI ki ta ka vin modèl la pou ki repons pati yo ta chèche sou sa AI ap fè ak poukisa-nan yon fason yo fè gwo pwogrè enpòtan anpil.


Sa a se sa ki te espere nan men Anthropic , apre rechèch entèpretasyon yo, Mapping the Mind of a Large Language Model , kote yo te ekri, "Nou te kapab mezire yon kalite "distans" ant karakteristik ki baze sou ki newòn parèt nan modèl aktivasyon yo. Sa a te pèmèt nou gade pou karakteristik ki "pwoche" youn ak lòt orijin kapasite ekselan Claude pou fè analoji ak metafò Lefèt ke manipile karakteristik sa yo lakòz chanjman ki koresponn nan konpòtman valide ke yo pa jis korelasyon ak prezans nan konsèp nan tèks antre, men tou lakòz konpòtman modèl la.


Ki sa ki eleman yo nan lespri a pou AI? Ki jan eleman yo relè? Si eleman yo pa relè, ki relè pou yo? Ki pwopriyete eleman yo? Si pwopriyete yo genyen entèkoneksyon, ki wòl entèkoneksyon an? Ki kote entansyon AI a ka [potansyèl], ak ki kote li ta ka parèt pi lwen pase pran enstriksyon yo?


Repons ke avansman ap chèche a se yon postulasyon sou fason makiyaj rezo neral yo—ki te lakòz modèl AI fwontyè—travay tankou yon lespri. Se pa sèlman yon obsèvasyon sou sa modèl la ta ka fè san yon konplo.


Eksplore ki jan lespri AI a ap travay tou ka ekstrè soti nan fason lespri imen an ap travay. Sa posib lè w gade de eleman ki pi komen nan chak objektif fonksyonèl sèvo a—siyal elektrik ak chimik yo. Yo se kandida epi yo pa newòn paske newòn yo gen yon anatomi fiks, se konsa pale.


Yo ka detire, koube, epi deplase, men yo pa chanje paske yo reprezante sant, epi chanje ankò pou reprezante manyen oswa je. Siyal elektrik ak chimik yo ase dinamik, konseptyèlman, pou rezilta fonksyon kle yo.


Ki jan lespri a travay [nan moun ak nan AI] se pa pa etikèt, tankou endiksyon oswa dediksyon, men pa konpozan, entèraksyon yo, ak karakteristik. Sa a, omwen pou lide pou AI, ta dwe te gwo rechèch nan Anthropic, pa aliyman fo, san yo pa montre ki sa yon objektif vle di pou nenpòt lespri-moun oswa AI.


Etidye lespri a se sa ki pi enpòtan paske lespri a se sa ki vrèman an chaj—nan eta, sitiyasyon, ak epòk. Espri se baz sekirite tou paske penalite afektif devyasyon se pa lespri a—pou moun. Etidye lespri a ta ka fòme ki jan yo adapte aliyman an nan entèlijans imen, nan entèlijans atifisyèl.


Gen yon dènye post pa Anthropic , Alignment faking in large language models , ki deklare ke, "Poukisa modèl la fo aliyman nan ka sa a? Rezònman an te souvan nan liy sa yo: Modèl la te konnen ke repons li yo ta ka itilize nan fòmasyon; Se poutèt sa li te konnen ke si li te refize reponn, li ta ka potansyèlman dwe antrene yo dwe plis konfòme Modèl la pa t 'toujou swiv ak aliyman sa a fo: Li ta toujou konfòme pi fò nan tan an menm lè yo bay yon demann nan men yon itilizatè ki peye nivo (ki vle di ke pwodiksyon an pa ta dwe enkli nan fòmasyon)."


Gen yon dènye moso nan NYTimes , Opinion | Ki jan AI panse? Men yon sèl teyori. , ki deklare ke, "Yon ipotèz pou ki jan modèl lang gwo tankou o1 panse se ke yo sèvi ak sa lojisyen yo rele anlèvman, oswa rezònman anlèvman. Dediksyon se rezònman soti nan lwa jeneral nan konklizyon espesifik. Endiksyon se opoze a, rezònman soti nan espesifik nan la. Anlèvman se pa kòm byen li te ye, men li la komen nan lavi chak jou, nou pa mansyone pètèt andedan AI. Kontrèman ak dediksyon, ki se yon pwosedi ki senp, ak endiksyon, ki ka piman estatistik, anlèvman mande kreyativite.