paint-brush
Adakah Penjajaran Anthropic Memalsukan Penyelidikan Keselamatan AI yang Penting?oleh@step
sejarah baru

Adakah Penjajaran Anthropic Memalsukan Penyelidikan Keselamatan AI yang Penting?

oleh stephen4m2024/12/22
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Mempelajari minda ialah perkara yang paling penting kerana minda adalah yang benar-benar bertanggungjawab—keadaan, situasi dan era. Fikiran juga merupakan asas keselamatan kerana hukuman afektif penyimpangan adalah oleh minda—untuk manusia. Mempelajari minda boleh membentuk cara menyesuaikan penjajaran kecerdasan manusia, kepada kecerdasan buatan.
featured image - Adakah Penjajaran Anthropic Memalsukan Penyelidikan Keselamatan AI yang Penting?
stephen HackerNoon profile picture

Apakah matlamat? Atau, apakah matlamat dalam fikiran manusia? Apa lagi yang dilakukan oleh minda yang bukan matlamat atau serupa dengan bagaimana matlamat itu dicapai? Apakah perbezaan antara matlamat yang ditetapkan dan matlamat yang disebabkan oleh diri sendiri? Jika matlamat dicirikan sebagai canggih, bagaimana ia berbeza dengan matlamat yang tidak canggih?


Adakah terdapat seni bina kasar bagaimana minda manusia menjalankan matlamat? Bagaimanakah ini boleh memberitahu pemahaman tentang matlamat dan kemudian dipindahkan ke AI? Adakah AI mempunyai fikiran, atau adakah AI seperti minda yang berfungsi pada kandungan digital?


Ini boleh bermakna bahawa manusia mempunyai fikiran. Ini juga boleh bermakna bahawa minda manusia mentafsir dan mengemudi dunia luar [untuk AI, kandungan digital] atau dunia dalaman [seni bina AI sendiri].


Bagaimanakah minda digunakan untuk AI, dan bagaimana ia berfungsi? Soalan ini boleh dijawab dengan dua cara. Pertama, berbanding dengan minda manusia untuk mencari persamaan. Kedua, dengan meneliti parameter matematik utama yang membentuk rangkaian saraf dan menyusunnya sebagai struktur minda.


Yang kedua sekurang-kurangnya boleh dicapai oleh mana-mana syarikat AI utama sekarang—mengiringi kajian tentang cara AI mungkin berfungsi dan cara ia boleh selamat atau sejajar dengan nilai manusia. Pada mulanya mungkin tidak perlu menggunakan minda manusia untuk memetakan minda AI kerana mungkin untuk menstrukturkan apa yang AI lakukan, daripada asas matematik mereka—dengan campuran pengiraan.


Tujuannya adalah untuk mentakrifkan maksud output yang hampir tepat, memandangkan input. Ia juga akan mentakrifkan maksud mengikuti dengan jawapan segera dan membalas, serta maksud mengikuti matlamat—atau menyimpang daripadanya.


Apa yang penting ialah mempunyai perbelanjaan konseptual untuk bagaimana minda untuk AI, bandingkan dengan apa yang jelas, kemudian untuk meneroka bagaimana ia melakukan sesuatu yang mudah, dan kemudian mengarahkannya kepada apa-apa yang agak kompleks yang dilakukannya.


Ini akan menjadi penyelidikan penting untuk penjajaran AI yang boleh menjadi templat yang mana jawapan sebahagian akan dicari tentang apa yang AI lakukan dan sebabnya—dalam cara untuk membuat kemajuan penting yang besar.


Inilah yang diharapkan daripada Anthropic , berikutan penyelidikan kebolehtafsiran mereka, Mapping the Mind of a Large Language Model , di mana mereka menulis, "Kami dapat mengukur sejenis "jarak" antara ciri berdasarkan neuron yang muncul dalam corak pengaktifan mereka. Ini membolehkan kami mencari ciri-ciri yang "dekat" antara satu sama lain Ini menunjukkan bahawa organisasi dalaman konsep dalam model AI sepadan, sekurang-kurangnya agak, dengan tanggapan manusia kita ini mungkin asalnya kebolehan Claude yang sangat baik untuk membuat analogi dan metafora Hakikat bahawa memanipulasi ciri-ciri ini menyebabkan perubahan yang sepadan kepada tingkah laku mengesahkan bahawa ia bukan sahaja dikaitkan dengan kehadiran konsep dalam teks input, tetapi juga membentuk tingkah laku model.


Apakah komponen minda untuk AI? Bagaimanakah penyampaian komponen? Jika komponen tidak geganti, apakah geganti untuk mereka? Apakah sifat-sifat komponen? Jika sifat-sifat tersebut termasuk interkoneksi, apakah peranan interconnection tersebut? Di manakah niat AI [berpotensi], dan di manakah ia mungkin muncul selain daripada mengambil arahan?


Jawapan yang dicari oleh kemajuan ialah postulasi tentang cara susunan rangkaian saraf—yang menghasilkan model AI sempadan—berfungsi seperti minda. Ia bukan sekadar pemerhatian tentang apa yang model mungkin lakukan tanpa plot.


Meneroka cara minda AI berfungsi juga boleh diekstrapolasi daripada cara minda manusia berfungsi. Ini boleh dilakukan dengan melihat dua komponen yang paling biasa dalam setiap tujuan berfungsi otak-isyarat elektrik dan kimia. Mereka adalah calon dan bukan neuron kerana neuron mempunyai anatomi tetap, boleh dikatakan.


Mereka mungkin meregang, membengkok, dan bergerak, tetapi mereka tidak berubah kerana ia mewakili bau, kemudian berubah lagi untuk mewakili sentuhan atau penglihatan. Isyarat elektrik dan kimia cukup dinamik, dari segi konsep, untuk menghasilkan fungsi utama.


Cara minda berfungsi [manusia dan AI] bukan dengan label, seperti induksi atau deduksi, tetapi oleh komponen, interaksi dan cirinya. Ini, sekurang-kurangnya untuk minda untuk AI, sepatutnya merupakan penyelidikan utama dari Anthropic, bukan penjajaran palsu, tanpa menunjukkan maksud matlamat untuk mana-mana minda—manusia atau AI.


Mempelajari minda adalah perkara yang paling penting kerana minda adalah yang benar-benar bertanggungjawab—keadaan, situasi, dan era. Fikiran juga merupakan asas keselamatan kerana hukuman afektif penyimpangan adalah oleh minda—untuk manusia. Mempelajari minda boleh membentuk cara menyesuaikan penjajaran kecerdasan manusia, kepada kecerdasan buatan.


Terdapat catatan terbaru oleh Anthropic , Penjajaran memalsukan dalam model bahasa besar , menyatakan bahawa, "Mengapa model penjajaran palsu dalam kes ini? Penalaran selalunya mengikut baris berikut: Model mengetahui bahawa responsnya mungkin digunakan dalam latihan; Oleh itu, ia tahu bahawa jika ia enggan bertindak balas, ia berpotensi dilatih untuk menjadi lebih patuh Model itu tidak selalu mengikuti dengan pemalsuan penjajaran ini: Ia masih akan mematuhi kebanyakan masa walaupun ketika diberikan pertanyaan daripada pengguna peringkat berbayar (yang membayangkan bahawa output tidak akan disertakan dalam latihan)."


Terdapat sekeping terbaharu dalam The NYTimes , Opinion | Bagaimana AI Berfikir? Inilah Satu Teori. , menyatakan bahawa, "Satu hipotesis untuk bagaimana model bahasa besar seperti o1 berfikir bahawa mereka menggunakan apa yang dipanggil oleh ahli logik penculikan, atau penaakulan penculikan. Deduksi ialah penaakulan daripada undang-undang umum kepada kesimpulan khusus. Induksi adalah sebaliknya, penaakulan daripada khusus kepada umum. Penculikan tidak begitu terkenal, tetapi ia adalah perkara biasa dalam kehidupan seharian, apatah lagi di dalam AI Ia menyimpulkan penjelasan yang paling mungkin untuk sesuatu yang diberikan. pemerhatian. Tidak seperti deduksi, yang merupakan prosedur yang mudah, dan induksi, yang boleh menjadi statistik semata-mata, penculikan memerlukan kreativiti."