Anthropic-en Lerrokatzeak AIaren Segurtasun Ikerketa Garrantzitsu bat faltsutzen al du?

Zer da helburu bat? Edo, zein da helburu bat giza adimenean? Zer gehiago egiten du gogoak helburua ez den edo helburu bat lortzeko moduaren antzekoa? Zein da esleitutako helburu baten eta norberak eragindako helburu baten artean? Helburu bat sofistikatua dela ezaugarritzen bada, nola kontrajartzen du horrek helburu ez-sofistikatu batekin?

Ba al dago giza adimenak helburuak nola gauzatzen dituen jakiteko arkitektura zakarra? Nola jakin dezake horrek helburuak ulertzeko eta gero AIra transplantatu? AIak badu gogorik, ala AI eduki digitalean lan egiten duen adimena bezalakoa da?

Horrek esan nahi du gizakiak adimena duela. Giza adimenak kanpoko mundua [AI, eduki digitaletarako] edo barne mundua [AIren arkitektura propioa] interpretatzen eta nabigatzen duela ere esan lezake.

Nola aplikatzen zaio adimena AIari, eta nola funtzionatzen du? Galdera honi bi eratara erantzun daiteke. Lehenik eta behin, giza adimenaren aldean paralelismoak aurkitzeko. Bigarrenik, sare neuronalak moldatzen zituzten parametro matematiko nagusiak aztertuz eta adimenaren egitura gisa antolatuz.

Bigarrena, gutxienez, edozein AI enpresa handiek lor dezakete orain, AI nola funtziona lezakeen eta nola seguru egon daitekeen edo giza balioekin lerrokatuta dauden azterketekin batera. Agian ez da beharrezkoa izango giza adimena erabiltzea AIaren adimena mapatzeko, AI-ak egiten duena egituratzea posible baita bere oinarri matematikoetatik, nahasketa konputazionalarekin.

Irteera batek ia zehatza izateak zer esan nahi duen definitzea izango da helburua, sarrera kontuan hartuta. Era berean, gonbita batekin jarraitzea eta erantzunak itzultzea zer den zehaztuko du, baita helburu bat jarraitzeak-edo hortik desbideratzeak ere.

Garrantzitsua da adimena AIrako nolakoa den jakiteko gastu kontzeptual bat izatea, bistakoa denarekin alderatzea, gero ezer sinplea nola egiten duen aztertzea eta, ondoren, hori egiten duen edozer konplexutasunera bideratzea.

Hau AI lerrokatzeko ikerketa esanguratsua izango litzateke, AI zer egiten ari den eta zertarako erantzun zatiak bilatuko lituzkeen txantiloia bihur daitekeena, ezinbesteko aurrerapen handiak egiteko modu batean.

Horixe da Anthropic- en espero zena, interpretagarritasunaren ikerketaren ondoren, Mapping the Mind of a Large Language Model , non idatzi zuten: "Gai izan ginen ezaugarrien arteko "distantzia" moduko bat neurtu ahal izan genuen neuronak beren aktibazio-ereduetan agertzen zirenean. Honek elkarrengandik "hurbil" dauden ezaugarriak bilatzeko aukera eman digu. Horrek erakusten du AI ereduan kontzeptuen barne-antolaketa bat datorrela, behintzat, gure giza-nozioei Claudek analogiak eta metaforak egiteko duen gaitasun bikainaren jatorria Ezaugarri hauek manipulatzeak portaerari dagozkion aldaketak eragiten dituela egiaztatzen du sarrerako testuan kontzeptuen presentziarekin erlazionatuta daudela, baizik eta ereduaren portaera kausalki moldatzen dutela.

Zeintzuk dira adimenaren osagaiak AIrako? Nola transmititzen dute osagaiek? Osagaiek ez badute erreleatzen, zer erreleentzat? Zeintzuk dira osagaien propietateak? Propietateek interkonexioa barne hartzen badute, zein da interkonexioaren eginkizuna? Non egon liteke AIren asmoa [potentziala], eta non ager daiteke argibideak hartzeaz harago?

Aurrerapenak bilatzen ari den erantzuna sare neuronalen osaketak —mugako AI ereduak eragin zituen— adimen baten moduan funtzionatzen duenaren postulazioa da. Ez da ereduak lursailik gabe zer egin dezakeenaren behaketa besterik ez.

AIaren adimenak nola funtzionatzen duen aztertzea giza adimenaren funtzionamendutik ere estrapola daiteke. Hau posible da garunaren helburu funtzional guztietan bi osagai ohikoenak aztertuz: seinale elektrikoak eta kimikoak. Hautagaiak dira eta ez neuronak, neuronek anatomia finkoa dutelako, nolabait esateko.

Luzatu, okertu eta mugitu egin daitezke, baina ez dira aldatzen usaina adierazten dutelako, gero berriro aldatu ukimena edo ikusmena irudikatzeko. Seinale elektriko eta kimikoak nahikoa dinamikoak dira, kontzeptualki, funtsezko funtzioak lortzeko.

Adimenak nola funtzionatzen duen [gizakiaren eta AIaren] ez da etiketen arabera, indukzioa edo dedukzioa bezala, osagaien, elkarrekintzaren eta ezaugarrien arabera baizik. Hau, AIrentzat behintzat kontuan izanda, Anthropic-en ikerketa garrantzitsua izan beharko litzateke, ez lerrokatze-faltsukeria, helburu batek zer esan nahi duen edozein adimenarentzat: gizakiarentzat edo AIrentzat.

Adimena aztertzea da garrantzitsuena, adimena delako benetan arduratzen dena —egoeren, egoeren eta aroen—. Adimena ere segurtasunaren oinarria da, desbideratzeen zigor afektiboa adimenarena baita —gizakientzat—. Adimena aztertzeak giza adimenaren lerrokadura nola egokitu moldatu dezake, adimen artifizialera.

Anthropic -en azken argitalpen bat dago, Alignment faking in large language models , zera dioena: "Zergatik egin du ereduak lerrokadura faltsua kasu honetan? Arrazoiketa sarritan ildo hauetatik zetorren: Ereduak bazekien bere erantzunak prestakuntzan erabil zitezkeela; beraz, bazekien erantzutea uko eginez gero, potentzialki trebatu zitekeela betegarriagoa izateko. Ereduak ez zuen beti betetzen lerrokatze-faltsu honekin: oraindik ere beteko luke gehienetan nahiz eta ordainpeko mailako erabiltzaile baten kontsulta bat emanda (horrek esan nahi du irteera ez zela prestakuntzan sartuko)."

The NYTimes -en berriki dagoen pieza bat dago, Opinion | Nola pentsatzen du AI? Hona Teoria Bat. , zera adieraziz, "o1 bezalako hizkuntza-eredu handien ustez nola pentsatzen duten logikariek abdukzioa edo arrazonamendu abduktiboa deitzen dutena erabiltzen duten hipotesi bat da. Dedukzioa lege orokorretatik ondorio zehatzetara arrazoitzea da. Indukzioa alderantzizkoa da, espezifikotik arrazonamendua. bahiketa ez da hain ezaguna, baina eguneroko bizitzan ohikoa da, ziurrenik AIren barnean. behaketa, dedukzioa, prozedura zuzena dena, eta indukzioa, estatistiko hutsa izan daitekeen bezala, bahiketak sormena eskatzen du».

Anthropic-en Lerrokatzeak AIaren Segurtasun Ikerketa Garrantzitsu bat faltsutzen al du?

Luzeegia; Irakurri

About Author

ESKEGI ETIKETAK

ARTIKULU HAU AURKEZTU ZEN...

Categories

Trending Topics

Anthropic-en Lerrokatzeak AIaren Segurtasun Ikerketa Garrantzitsu bat faltsutzen al du?

Luzeegia; Irakurri

About Author

ESKEGI ETIKETAK

ARTIKULU HAU AURKEZTU ZEN...

LOTUKO IPUINAK

Categories

Trending Topics