paint-brush
Est-ce que Faking ya Alignment ya Anthropic ezali recherche ya sécurité ya AI ya significatif?pene@step
Lisolo ya sika

Est-ce que Faking ya Alignment ya Anthropic ezali recherche ya sécurité ya AI ya significatif?

pene stephen4m2024/12/22
Read on Terminal Reader

Molai mingi; Mpo na kotánga

Koyekola makanisi ezali oyo ezali na ntina mingi mpo ete makanisi nde ezali mpenza na mokumba —ya ba états, ba situations mpe ba époques. Makanisi ezali mpe moboko ya bokengi mpo ete etumbu ya mayoki ya kopengwisa ezali na makanisi —mpo na bato. Koyekola makanisi ekokaki kobongisa ndenge ya kobongisa boyokani ya mayele ya moto, na mayele ya kosala.
featured image - Est-ce que Faking ya Alignment ya Anthropic ezali recherche ya sécurité ya AI ya significatif?
stephen HackerNoon profile picture

Mokano ezali nini? To, mokano ezali nini na makanisi ya moto? Nini lisusu makanisi esalaka oyo ezali mokano te to ekokani na ndenge oyo mokano moko ekokisama? Nini ekeseni kati na mokano oyo bapesi ye mpe mokano oyo moto amipesi? Soki mokano moko emonisami lokola ya mayele, ndenge nini yango ekeseni na mokano oyo ezali ya mayele te?


Ezali na architecture moko ya mabe ya ndenge oyo makanisi ya moto ekokisaka mikano? Ndenge nini yango ekoki koyebisa bososoli ya mikano mpe na nsima kozongisama na AI? AI ezali na makanisi, to AI ezali lokola makanisi oyo esalaka na makambo ya nimero?


Yango ekoki kolimbola ete moto azali na makanisi. Ekoki mpe kolimbola ete makanisi ya moto elimbolaka mpe etambolaka na mokili ya libanda [mpo na AI, makambo ya nimero] to mokili ya kati [architecture ya AI ye moko].


Ndenge nini makanisi etali AI, mpe ndenge nini esalaka? Motuna oyo ekoki kozwa eyano na ndenge mibale. Ya liboso, na ko comparer na esprit ya mutu pona koluka ba parallèles. Ya mibale, na kotalaka ba paramètres minene ya matematiki oyo ebongisi ba réseaux neuronaux mpe kobongisa yango lokola ba structures ya esprit.


Ya mibale esengeli ata moke te kokokisama na kompanyi nyonso ya monene ya AI sikawa —boyekoli oyo elandi na lolenge nini AI ekoki kozala kosala mpe lolenge nini ekoki kozala na likama te to koyokana na bizaleli ya bato. Ekoki kozala na ntina te na ebandeli kosalela makanisi ya moto mpo na kosala carte ya makanisi ya AI uta ezali likoki ya kobongisa oyo AI esalaka, uta na ba soutiens na bango ya matematiki —na mélange ya calcul.


Ntina ekozala ya kolimbola nini elingi koloba mpo na sortie moko ezala pene na bosikisiki, soki totali entrée. Ekolimbola mpe nini elimboli kolanda na biyano ya mbalakaka mpe ya kozongisa, mpe lisusu nini elimboli kolanda mokano moko —to kopengwa na yango.


Oyo ezali na ntina ezali kozala na dépense conceptuelle mpo na ndenge makanisi ezali mpo na AI, kokokanisa yango na oyo ezali polele, sima kotala ndenge nini esalaka eloko nyonso ya pete, mpe na nsima ko router yango na eloko nyonso oyo esalaka mpenza ya mindondo.


Oyo ekozala bolukiluki ya ntina mpo na boyokani ya AI oyo ekoki kokoma modèle oyo mpo na yango biyano ya ndambo ekolukama na oyo AI ezali kosala mpe mpo na nini —na lolenge moko ya kosala bokoli monene ya ntina.


Oyo ezali oyo ezelamaki uta na Anthropic , nsima ya bolukiluki na bango ya kolimbola, Mapping the Mind of a Large Language Model , esika bakomaki, "Tozalaki na makoki ya komeka lolenge moko ya "ntaka" kati na makambo oyo esalemi na kotalela oyo ba neurones ebimaki na ba modèles na yango ya activation. Yango epesaki biso nzela ya koluka makambo oyo ezali "penepene" moko na mosusu Yango ezali kolakisa ete ebongiseli ya kati ya makanisi na modèle ya AI ekokani, ata moke te, na makanisi na biso ya bomoto ya bokokani Yango ekoki kozala ebandeli ya makoki ya malamu mpenza ya Claude ya kosala analogie mpe masese mpe causally shape comportement ya modèle."


Nini ezali ba composants ya esprit pona AI? Ndenge nini ba composants ezo relais? Soki ba composants ezo relais te, relais nini pona bango? Ba propriétés ya ba composants ezali nini? Soki ba propriétés ezali na interconnexion, rôle ya interconnexion ezali nini? Wapi mokano [potentiel] ya AI ekoki kozala, mpe wapi ekoki kobima koleka kozwa malako?


Eyano oyo bokoli ezali koluka ezali postulation ya ndenge nini maquillage ya ba réseaux neuronaux —oyo esali que ba modèles ya AI ya frontière —esalaka lokola esprit. Ezali kaka te observation ya oyo modèle ekoki kozala kosala sans complot.


Koluka ndenge makanisi ya AI esalaka ekoki mpe kozala extrapolé na ndenge makanisi ya moto esalaka. Yango ekoki kosalema soki totaleli biloko mibale oyo emonanaka mingi na ntina nyonso oyo bɔɔngɔ esalaka​—bilembo ya kura mpe ya biloko ya chimique. Bazali ba candidats mpe ba neurones te mpo ba neurones ezali na anatomie fixe, soit disant.


Bakoki kotandama, kogumbama mpe koningana, kasi ebongwanaka te mpo ezali komonisa nsolo, na nsima ebongwanaka lisusu mpo na komonisa kosimba to komona. Ba signaux électriques na chimiques ezali dynamique suffisamment, conceptuellement, mpo na ko résulter na ba fonctions clés.


Ndenge oyo makanisi esalaka [ya moto mpe ya AI] ezali te na nzela ya bilembo, lokola induction to deduction, kasi na ba composants, interactions na yango, mpe ba éléments. Oyo, ata mpo na makanisi mpo na AI, esengelaki kozala bolukiluki monene uta na Anthropic, te alignment faking, kozanga kolakisa nini mokano elingi koloba mpo na makanisi moko —moto to AI.


Koyekola makanisi ezali oyo ezali na ntina mingi mpo ete makanisi nde ezali mpenza na mokumba —ya makambo, makambo mpe bileko. Makanisi ezali mpe moboko ya bokengi mpo ete etumbu ya mayoki ya kopengwisa ezali na makanisi —mpo na bato. Koyekola makanisi ekokaki kobongisa ndenge ya kobongisa boyokani ya mayele ya moto, na mayele ya kosala.


Ezali na post moko ya sika ya Anthropic , Alignment faking in large language models , koloba ete, "Pourquoi modèle a faux alignment na cas oyo? Raisonnement ezalaki mbala mingi na ba lignes oyo elandi: Modèle ayebaki que ba réponses na yango ekoki kosalelama na formation; yango wana eyebaki ete soki eboyi koyanola, ekokaki na likoki ya kozala na formasyo mpo na kozala na boyokani mingi Modèle elandaki ntango nyonso te na alignment oyo faking: Elingaki kaka kotosa mingi mingi ata soki epesami motuna uta na mosaleli ya niveau payé (oyo elingaki koloba ete sortie ekozala te na formation)."


Ezali na eteni moko ya sika na The NYTimes , Opinion | AI Ekanisaka Ndenge nini? Tala Théorie Moko. , kolobaka ete, "Hypothèse moko mpo na lolenge nini ba modèles ya minoko ya minene lokola o1 bakanisaka ezali ete basalelaka oyo ba logiciens babengaka enlèvement, to raisonnement abductif. Déduction ezali raisonnement depuis les lois générales à des conclusions spécifiques. Induction ezali le contraire, raisonnement depuis le spécifique à la." général Enlèvement eyebani malamu te, kasi ezali commun na vie ya mokolo na mokolo, koloba te peut-être na kati ya AI Ezali ko inferer ba ndimbola oyo ekoki kozala mingi mpo na observation moko epesami na bokeseni na deduction, oyo ezali procédure ya semba, mpe induction, oyo ekoki kozala purement statistique, enlèvement esengaka créativité."

L O A D I N G
. . . comments & more!

About Author

stephen HackerNoon profile picture
stephen@step
signals theory of the brain https://shorturl.at/SZDqh

KOKANGA BA ÉTIQUES

ARTICLE OYO EZALAKI PRESENTE NA...