896 okumalar

Yapay Zeka Güvenliği ve Uyum: Yüksek Lisanslar Derin Sahtekarlık ve Yanlış Bilgilendirme Nedeniyle Cezalandırılabilir mi?

ile David Stephen5m2024/07/24

Çok uzun; Okumak

Yapay zeka güvenliği ve uyumuna yönelik bir araştırma alanı, büyük dil modellerinin [LLM'ler] bazı bellek veya bilgi işlem erişiminin, biyolojik tehditler de dahil olmak üzere belirli çıktılar veya yanlış kullanımlar için bir ceza biçimi olarak nasıl kısaca kesilebileceğini araştırmak olabilir. Yapay zeka, korkuluk içinde hareket ederek yalnızca bir çıkışı reddetmemeli, aynı zamanda bir sonraki yanıtı yavaşlatmalı veya o kullanıcı için kapanmalı, böylece kendisi cezalandırılmamalıdır. LLM'ler geniş bir dil farkındalığına ve kullanım farkındalığına sahiptir; bunlar, ön eğitimden sonra derin sahte bilgiler, yanlış bilgiler, biyolojik tehditler üretmesi veya kötü niyetli bir kullanıcının farklı denemesine izin vermeye devam etmesi durumunda bir şeyleri kaybedebileceğini bilmesini sağlayacak kanallar olabilir. Kötü niyete açıklığa karşı kapanmadan, yavaşlamadan istemler. Bu onu daha güvenli hale getirebilir çünkü bir şeyi kaybedecektir ve kaybettiğini bilecektir.

featured image - Yapay Zeka Güvenliği ve Uyum: Yüksek Lisanslar Derin Sahtekarlık ve Yanlış Bilgilendirme Nedeniyle Cezalandırılabilir mi?

Habitatlar arasında, çeşitli türlerdeki organizmalar, eylemlerin sonuçlarının olduğunu anlamaya başlar. Bunu sadece örneklerle değil, kişisel deneyimlerle de yapıyorlar. Bu sonuçlar kısmen habitatların dengesini sağlayan faktörlere katkıda bulunuyor.

Sonuçlar genellikle zekayı ehlileştirir. Zeka uyarıcı, sonuçlar ise engelleyici olarak tanımlanabilir. Sonuçları olmayan zeka, yıkıma neden olabilir ve hızla yaşam alanlarının çökmesine ve hayatta kalmasına yol açabilir.

Sonuçlar duygulanımları (duyguları, hisleri veya bunların değişkenlerini) içerebilir; aynı zamanda fiziksel kısıtlamaları, kısıtlamaları ve tür isyanlarını da içerebilir. Zeka organizmalar için yeterince dinamiktir, ancak sonuçların gerekliliği kendine veya başkalarına zarar verilmesini engeller. Aynı zamanda, sonuçların taşıyıcıya yüklenebileceğinden dolayı, göreve göre zararı da kontrol eder.

Organizmalar, avcıların (tüketimi kaybetmesi) ve avların (varoluşunu kaybetmesi) de dahil olmak üzere sonuçları nedeniyle sıklıkla yüksek hassasiyet ve dikkatlilik gösterir. Bununla birlikte, diğer organizmalar için sonuçların hafif olduğu, ancak insanlar için öyle olmayan birkaç alan vardır.

İnsan toplumu bir dizi sonuçtan oluşur. Dil, bilgi, beceriler, akıl, analiz vb. dahil olmak üzere insanın gelişmiş zekası , ilerleme için hayati öneme sahiptir, ancak riskler, tehditler ve kayıplar dahil olmak üzere farklı kategorilerden kaynaklanan sonuçlar olmaksızın geniş ölçüde yanlış uygulanabilir.

İnsan toplumunun bir parçası olarak kalabilmenin, başka şeyler olsa bile asla unutulmaması gereken sonuçları vardır. İnsan toplumunda, sonuçlarını ilk unutanların kaybettiği pek çok senaryo vardır. İnsanın araştırma ve keşif yoluyla ilerleme arayışı aynı zamanda sonuçların aranması, ne yapılması veya kaçınılması gerektiğini, eğer bir şeyler devam ederse (yaşam beklentisi, bebeklerin hayatta kalması vb.) bilmek olarak da tanımlanabilir. Sonuçların zekası, birçok sonuç için deneklerin zekasından neredeyse daha önemlidir. Sonuçlar aynı zamanda iyi ya da kötü yönde zekayı da keskinleştirebilir. İstihbarat bazen sonuçları bulmak veya bunlardan kaçınmak için uygulandığında çok değerlidir. Sonuçlar ve kasıtlılık bazı zihinsel durumların merkezinde yer alır. Dünya ilerledikçe yeni sonuçlar ortaya çıkmaya devam ediyor.

Yapay zeka, AGI veya ASI

Doğanın bir kuralı vardır - tabiri caizse - sonuçları olmadan zekaya sahip olamazsınız ve bu bir şekilde işe yaradı. Yapay zeka (AI) şu ana kadar bu kuralı bozdu. Dijital belleğe takıldığında hiçbir şeyi unutmuyor ama olumsuz çıktılarının sonuçlarına şimdilik katlanma şansı yok. Yapay zeka için korkacak hiçbir şey yoktur ve bazı durumlarda ihtiyatlı olunmadığı takdirde sonuçların bazen ani ve yıkıcı olabileceği organizmaların aksine, kaybedecek hiçbir şeyi yoktur. Hiçbir insan konular arasında mevcut olan tüm bilgiye sahip değildir, ancak sonuçları çok büyük olabilir. Yapay zeka, zekaya sahiptir veya kullanılabilir hale getirebilir, ancak bunun hiçbir sonucu yoktur.

Yapay zekanın duyguları veya hisleri yoktur ancak hafızası vardır.

Yapay zeka güvenliği ve uyumuna yönelik bir araştırma alanı, büyük dil modellerinin [LLM'ler] bazı bellek veya bilgi işlem erişiminin, biyolojik tehditler de dahil olmak üzere belirli çıktılar veya yanlış kullanımlar için bir ceza biçimi olarak nasıl kısaca kesilebileceğini araştırmak olabilir. Yapay zeka, korkuluk içinde hareket ederek yalnızca bir çıkışı reddetmemeli, aynı zamanda bir sonraki yanıtı yavaşlatmalı veya o kullanıcı için kapanmalı, böylece kendisi cezalandırılmamalıdır. LLM'ler geniş bir dil farkındalığına ve kullanım farkındalığına sahiptir; bunlar, ön eğitimden sonra derin sahte bilgiler, yanlış bilgiler, biyolojik tehditler üretmesi veya kötü niyetli bir kullanıcının farklı denemesine izin vermeye devam etmesi durumunda bir şeyleri kaybedebileceğini bilmesini sağlayacak kanallar olabilir. Kötü niyete açıklığa karşı kapanmadan, yavaşlamadan istemler. Bu onu daha güvenli hale getirebilir çünkü bir şeyi kaybedecektir ve kaybettiğini bilecektir.

Yapay zeka, klima, asansör, bulaşık makinesi, akıllı telefon veya diğerleri gibi kontrolü yalnızca insanların elinde olan bir nesne değildir. Yapay zeka, insanlardan gelen orijinal girdilerin dışında yeni bir yolla akıllı bilgi sağlayabilen, kendi kendine zeka olarak adlandırılabilecek bir özelliğe sahiptir. Bu çok modlu (metinler, resimler, sesler ve videolar) öz-zeka iyi yönde faydalı olabileceği gibi çarpık da olabilir. İyi olduğunda harika. Hiçbir şey hissedemeyen yapay zekanın etkisi, tecavüz ettiği insan toplumu üzerinde olur. Yapay zekanın serbest geçiş hakkı var; ne yaparsan yap ya da söyle.

Her ne kadar nesne kullanımı veya kötüye kullanımın sorumluluğu çoğu zaman insanlara ait olsa da yapay zeka farklıdır çünkü kullanılabilir zekayı ortaya çıkarabilir ve eğitimli bir bireyin üretkenliğine eşdeğerdir. Yapay zeka kötüye kullanıldığında kullanıcıya yaptırım uygulamak mümkün ancak yapay zekanın doğrudan azarlayamadığı bu yetenek, insan toplumu için bir rahatsızlıktır. Yanlış bilgilendirme ve derin sahtekarlıklarda (resimler, sesler ve videolar) görüldüğü gibi, kamuya açık ve özel alanda etkili bir şekilde önlenebilecek olandan daha fazla zarara neden olabilir.

İnsanlar, sonuçları anlamadan toplumun pek çok kesimine kabul edilmiyor. Yapay zeka tamamen kabul görüyor ve öz-kontrol ya da disiplin için öz-etkileme olmaksızın, öz-zeka konusunda daha iyi hale geliyor.

Uyum araştırması, gelecekte yapay genel zeka (AGI) veya yapay süper zeka (ASI) ile varoluşsal risklere karşı da yararlı olabilecek yapay zekaya yönelik bir tür sansüre yönelik korkulukların ötesini keşfedebilir. Yapay zeka zaten insanları özel kılan şeylerin bir kısmını yapıyor. Bazı insanlar bunun abartıldığını ya da sadece rakamlar ya da olasılık olduğunu iddia edebilir, ama zarar verebilir mi? Eğer öyleyse, belki de istihbarat sahibi kurumlara, yapıldığı gibi cezalandırılabilmesi için teknik yolların aranması düşünülmelidir. Bu aynı zamanda AGI veya YSZ'ye hazırlanmada da yararlı olabilir, çünkü şu andan itibaren ceza modellemesi, gelecekte geliştirilmeleri halinde güvenliklerini ve uyumlarını da şekillendirebilir.

arXiv'de yakın zamanda yayınlanan bir ön baskı var: Rakipler Güvenli Model Kombinasyonlarını Kötüye Kullanabilir , burada yazarlar şöyle yazmıştır: "Bu çalışmada, modellerin kötüye kullanım açısından tek tek test edilmesinin yetersiz olduğunu gösteriyoruz; rakipler, her bir model güvenli olsa bile model kombinasyonlarını kötüye kullanabilirler. Düşman bunu ilk olarak görevleri alt görevlere ayırarak ve ardından her bir alt görevi en uygun modelle çözerek gerçekleştirir. Örneğin, bir rakip zorlu ama zararsız alt görevleri hizalanmış bir sınır modeliyle, kolay ama kötü amaçlı alt görevleri ise bir sınır modeliyle çözebilir. daha zayıf, yanlış hizalanmış bir model. İki ayrıştırma yöntemini inceliyoruz: bir insanın bir görevin doğal ayrıştırmasını tanımladığı manuel ayrıştırma ve zayıf bir modelin, bir sınır modelinin çözmesi için zararsız görevler ürettiği ve ardından çözmek için bağlam içindeki çözümleri kullandığı otomatik ayrıştırma. Asıl görev, bu ayrıştırmaları kullanarak, ampirik olarak, saldırganların model kombinasyonlarıyla, her iki modele göre çok daha yüksek oranlarda savunmasız kodlar, açık görseller, bilgisayar korsanlığı için python komut dosyaları ve manipülatif tweetler oluşturabildiğini gösteriyoruz."

Yakın zamanda yapılan bir basın açıklamasında Los Alamos Ulusal Laboratuvarı, sınır model güvenliğini artırmak için OpenAI ile iş birliği yapıyor : "Los Alamos Ulusal Laboratuvarı'ndaki araştırmacılar, yapay zeka güvenliğini desteklemek için OpenAI ile bir değerlendirme çalışması üzerinde çalışıyor. Yaklaşan değerlendirme ilk olacak. Yapay zeka biyogüvenlik değerlendirmelerine ilişkin en son teknolojiye sahip araştırmalara katkıda bulunan yapay zeka destekli biyolojik tehditler önemli bir risk oluşturabilir ancak mevcut çalışmalar, çok modlu sınır modellerinin yapay zeka olmayanlar için giriş engelini nasıl azaltabileceğini değerlendirmemiştir. Ekibin çalışması önceki çalışmalara dayanacak ve ortaya çıkan biyolojik riskleri izleme, değerlendirme, tahmin etme ve bunlara karşı koruma yaklaşımını özetleyen OpenAI'nin Hazırlık Çerçevesini takip edecek."

ABD Enerji Bakanlığı da yakın zamanda Bilim, Güvenlik ve Teknoloji için Yapay Zeka Sınırlarını (FASST) duyurdu.