paint-brush
Yapay Zeka Empatisinin Derinliklerini Test Etmek: Çerçeveler ve Zorluklarile@anywhichway
382 okumalar
382 okumalar

Yapay Zeka Empatisinin Derinliklerini Test Etmek: Çerçeveler ve Zorluklar

ile Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

Çok uzun; Okumak

Empatik yapay zeka sistemlerinin geliştirilmesi ve değerlendirilmesi üzerine pek çok araştırma yapılmıştır. Ancak hala birçok açık soru ve zorluk var: - Test etmek için açık ve üzerinde anlaşmaya varılmış bir empati tanımına ihtiyacımız var. - Yapay zekaların duyguları "gerçekten" hissedip hissedemediğini tartışmaktan kaçınmalı ve bunun yerine onların gözlemlenebilir empatik davranışlarını değerlendirmeye odaklanmalıyız. - Tanımlama ile empati oluşturma arasında ve tek seferlik yanıtlarda empati ile diyaloglar arasında önemli ayrımlar vardır. Sistemleri buna göre değerlendirmek lazım. - Yapay zeka sistemlerini test etmek; çoktan seçmeli önyargı, insan derecelendirmelerinde örnekleme yanlılığı ve istemlere gereğinden fazla uyma gibi riskleri beraberinde getirir. - Yapay zeka empatisini test etmek için bazı standart çerçeveler önerildi, ancak bilinen riskleri azaltmak ve bilinmeyen zorlukları keşfetmek için hâlâ daha fazla çalışmaya ihtiyaç var. - Daha fazla araştırma yapılması gereken alanlar arasında mevcut testlerdeki risklerin değerlendirilmesi, tamamlayıcı test senaryolarının geliştirilmesi ve daha fazla sistemin sistematik olarak değerlendirilmesi yer almaktadır.
featured image - Yapay Zeka Empatisinin Derinliklerini Test Etmek: Çerçeveler ve Zorluklar
Simon Y. Blackwell HackerNoon profile picture
0-item


Google Akademik'te " empatik yapay zeka " araması 2023'ten bu yana 16.000'den fazla öğeyle sonuçlanıyor. "Empatik yapay zekayı test etme" ve "empatik yapay zekayı değerlendirme" gibi ifadeler için yapılan bir arama, bu kümeyi yaklaşık 12.000 öğeye düşürüyor. Geçilmesi gereken pek çok başlık var! Elbette hepsini okuduğumu, hatta her başlığına baktığımı iddia edemem ama düşüncelerim şunlar.


  1. Empatinin ortak bir tanımına sahip olmalıyız.
  2. "Yapay zeka gerçekten hissedebilir mi?" sorusunu görmezden gelmeyi kabul etmeliyiz. ve sadece yapay zekanın ürettiği şeyleri nasıl yorumladığımıza odaklanın; örneğin yapay zeka bir insan olsaydı, o insanın düşündüğünü veya hissettiğini nasıl hissederdik veya düşünürdük? (Vay be, bu biraz jimnastik gibi).
  3. Duyguları tanımlamak, empatiyi tanımlamak, empatik yanıtlar üretmek ve diyaloglara empatik bir şekilde katılmak arasında ayrım yapmalıyız.
  4. Tarihsel testlerin uygulanabilmesi, potansiyel olarak değiştirilebilmesi ve uygun şekilde değerlendirilebilmesi için yapay zekaların ne kadar farklı olduğunu kabul ederken, insanlardaki duygusal ve empatik yetenek testlerinin zengin geçmişini de hesaba katmalıyız.
  5. Yapay zekaya uygun mevcut değerlendirme çerçevelerini anlamalıyız.
  6. Yeni çerçeveler ve yaklaşımlar geliştirmeliyiz.


Empati Nedir?

Merriam-Webster: “Başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma, duyarlı olma ve dolaylı olarak deneyimleme eylemi ”.


Yüksek Lisans bağlamında "deneyimleme" ile ilgili olası endişeleri ortadan kaldırmak için bunu, bir başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma, duyarlı olma ve dolaylı olarak deneyimliyor gibi görünme eylemi olarak yeniden ifade edeceğim.

Ve elbette, eğer konuşmayla ilgileniyorsak şunu ekleriz: Ve bunu, konuşmadaki diğer tarafların eylemin farkında olacağı şekilde ortaya koyarız. Elbette bir sosyopat da bu şekilde ortaya çıkabilir ve tezahür edebilir, bu yüzden son bir ayarlama yapacağım.


Empati:

Bir başkasının duygularını, düşüncelerini ve deneyimlerini anlama, farkında olma, olumlu bir şekilde duyarlı olma ve dolaylı olarak yaşıyormuş gibi görünme eylemi . Ve bunu öyle bir şekilde ortaya koyar ki, konuşmadaki diğer taraflar da eylemin farkında olur.

Bunu ve orijinal tanımı gözden geçirdiğimizde empatinin iki bileşeni açıkça ortaya çıkıyor: duygusal ve bilişsel.


  1. Duygusal bileşen, empatinin duygusal veya hissetme kısmını ifade eder. Başka bir kişinin duygularını paylaşma veya yansıtma yeteneğidir. Örneğin, bir arkadaşınız üzgünse empatinizin duygusal kısmı sizin de üzgün hissetmenize neden olabilir veya en azından onun üzüntüsünü hissedebilirsiniz.


  2. Bilişsel bileşen ise empatinin zihinsel veya düşünme kısmını ifade eder. Kişinin kendisini zihinsel olarak başka bir kişinin yerine koyabilmesi için kuyrukları aktif olarak tanımlama ve anlama yeteneğidir. Örneğin, bir meslektaşınız size üzerinde çalıştıkları zor bir projeden (bir kuyruk) yorgun bir sesle (bir kuyruk) bahsediyorsa, benzer bir durumda nasıl hissedeceğinizi aktif olarak hayal ederek onun stresini anlamayı denemeyi seçebilirsiniz. . Bazıları için bu yapay olarak etki yaratabilir.


Yapay Zekalar Hissedebilir mi?

Bu noktada çoğu insan yapay zekaların hislerinin olmadığını söyleyecektir. Bazıları yapay zekaların duyguları olduğu, diğerleri ise yapay zekaların olmadığı ve olamayacağı bir gelecek öngörüyor ve üçüncü bir grup ise "Yapay zekalar hissediyor/hissetecek ama insanlardan farklı bir şekilde" diyebilir.


Ne olursa olsun, bu konuyu tartışarak zaman harcarsak yapay zekanın empati testi konusunda ilerleme kaydedemeyeceğiz. Yapay zekaların içsel durumlarına değil, tezahür ettiklerine ilişkin yorumumuza odaklanmalıyız. Bu konuyla ilgili bazı ilginç araştırmalar olmasına rağmen, bkz . Duygusal Olarak Uyuşmuş mu, Empatik mi? Yüksek Lisans'ların EmotionBench'i Kullanarak Nasıl Hissettiklerini Değerlendirmek .


Bu engeli aşamazsanız, bu web sitesindeki kriterleri göz ardı etmenizi öneririm. Ancak yine de makalelerin ve sohbetlerin tadını çıkarabilirsiniz!

Tanımlama ve Üretim

Bir şeyi tanımlamakla bir şeyi yapmak arasında büyük bir sıçrama vardır. Genç sporcular veya akademisyenler, daha yüksek bir seviyede hemen performans göstermeden, performanslarında neyin yanlış olduğunu tespit edebilirler. Benzer şekilde, duyguları tanımlama ve empatik konuşmalar yapma becerisine sahip olmak, duygulara sahipmiş gibi görünebilmek ve diğer tarafın empatik olarak yorumlayacağı yanıtlar üretebilmekle aynı şey değildir. Aslında arada bir adım bile var. Genç sporcular veya akademisyenlerin bir antrenörün veya öğretmenin görüşlerini alması ve o anda daha iyi sonuçlar üretmesi onları tam anlamıyla yetenekli kılmaz. Bir yapay zeka, bir test tasarımının veya isteminin yan etkisi olarak empatik bir sonuç üretirse, o zaman yapay zeka yeni doğmakta olan bir empatik yeteneğe sahip olabilir ancak doğası gereği empatik değildir.


Bir yapay zekanın içsel durumunu tam olarak anlamak mümkün olmasa da, duyguların tanımlanmasının yapay zekanın empati sergileyebilmesi için gerekli bir koşul olduğuna inanıyorum. Ayrıca, bir yapay zekayı empatik bir yanıt vermesi için teşvik edebilmenin/yönetebilmenin yeni ortaya çıkan bir yeteneğin göstergesi olduğuna inanıyorum, yani ince ayar (insan pratiğinin eşdeğeri) bu yeteneği yaratabilir.

Tanımlama ile oluşturma ve koçluk ile içsel arasındaki ayrımlar, bu makalenin kapsamı dışındaki testlerin ve test çerçevelerinin etkinliğine ilişkin tartışmalar için önemlidir.

Tanılama

Metin içeriğindeki duyguların belirlenmesi, gösterge kelimelerin varlığına, büyük harflere, noktalama işaretlerine ve dilbilgisi yapısına dayanmaktadır. Duyguları doğru bir şekilde belirleme yeteneği, mevcut yapay zeka devriminden yirmi yıldan fazla bir süre öncesine dayanmaktadır. 1990'larda kelime n-gram kesişimleri ve sembolik akıl yürütme zaten etkileyici sonuçlar sağlıyordu. 2000'li yılların başında sosyal medya büyüdükçe, otomatik denetime olan ihtiyaç bu alanda birçok ilerlemeye yol açtı. Ancak günümüzün Yüksek Lisans'ları sadece genel duyguları değil belirli duyguları da tanımlama yetenekleri açısından hayret vericidir.


Bununla birlikte, tamamen empatik konuşmalar için gerekli olan çeşitli duygu ifadesi tanımlama türleri vardır; bunları şu şekilde sınıflandırıyorum:


  • açık — Kullanıcı bir hisleri olduğunu belirtir.

  • konuşma tarzı — Duygular üst düzey metin analizinden açıkça anlaşılıyor, konuşmada mevcutlar.

  • sürüş — Duygular konuşmayı yönlendiriyor, bir kişi öfkesini gösteriyor ve diğeri aynı şekilde tepki veriyor.

  • çekirdek — Başka duygulara neden olan ancak kendileri bir duygudan kaynaklanmayan duygular ÇEKİRDEKtir. Tipik olarak geleceğe dair bir beklentiye (bilinçli veya bilinçaltı) neden olan bazı tarihsel tetikleyicilerin sonucu olarak ortaya çıkarlar. Farklı araştırmacılar bunları farklı şekilde sınıflandırabilir; Dalia Lama tarafından desteklenen bir örnek, Duygu Atlası'ndaki Beş Kıta Duygudur (Öfke, Korku, İğrenme, Üzüntü, Keyif).


Not: Temel bir duygu aynı zamanda yönlendirici, konuşkan ve açık da olabilir, ancak temel duygular genellikle gizlidir. Bu makalenin ötesinde testlerin veya test sonuçlarının gözden geçirilmesi ve tanımlanması sırasında bu sınıflandırmalara tekrar dikkat çekeceğim.


Test Konuları

Duygu tanımlamaya yönelik klasik insan testleri, kolay test ve doğrulamayı kolaylaştırmak için genellikle iki gruba ayrılır:


  1. Bir konuşmada hangi duyguların var olup olmadığına ilişkin, bazen yoğunluk puanıyla ilişkilendirilen çoktan seçmeli testler.

  2. Duygularla ilgili kendi kendine uygulanan içe dönük testler, örneğin EQ-60 , sınava giren kişinin belirli durumlarda nasıl hissettiğini sorar.


Bunlar, yüksek kaliteli yapay zeka testleri için farklı zorluklar ortaya koyuyor.


  • Çoktan Seçmeli Testler — Kalıp eşleştirme dil modelleri olarak günümüzün yapay zekalarına, tanımlanacak öğe seçenekleri sunularak etkili bir şekilde destek verilmektedir. Bu, işi kolaylaştırır ve yapay zekanın her zaman duyguları tanımlama yeteneğini test etmez. Potansiyel olarak daha iyi bir yaklaşım, yapay zekaya bir metinde bulunan tüm duyguları tanımlamasını ve perde arkasında bunu ya temel gerçeğe (duygularla ilgili böyle bir şey olduğundan emin değilim :-) ya da istatistiksel analize dayalı bir anahtara göre puanlamasını söylemektir. Aynı teste verilen insan tepkileri. Gelecekte önerilen testleri değerlendirirken buna Çoktan Seçmeli Risk adını veriyorum. Ancak insanlardan istatistiksel örnekleme ek bir risk oluşturabilir. Ortalama insandan daha iyi bir yapay zeka oluşturma arzusunu varsayalım. Bunu yapmak için istatistiksel örneğin, duyguları tanımlama konusunda ortalamanın üzerinde bir yeteneğe sahip insanları temel aldığından emin olmak gerekli olabilir; Aksi takdirde yapay zeka, ortalama bir insanın tanımlayamayacağı duyguları tanımlayabilir ve puanlamada cezalandırılabilir. Ben buna İnsan Örnekleme Riski diyorum.


  • İçe Dönük Testler — Duygularla ilgili içe dönük testler çoğu yapay zeka modeli için zorluklar sağlar. Yapay zekaların genellikle "Ben bir yapay zekayım, dolayısıyla duygularım yok" gibi bir yanıt vermelerini gerektiren korkulukları vardır. Bazen bu kısıtlamaları aşmak için jailbreak yapmak veya mühendisleri yönlendirmek mümkündür, ancak o zaman sorular şöyle olur:


    • Bu uyarı, yapay zekanın empatiye ilişkin yeteneğinin geri kalanını ya da aslında herhangi bir şeyi olumlu ya da olumsuz etkiliyor mu? Jailbreak Yan Etki Riski

    • Yanıtlar, yapay zekanın yönlendirme olmadan konuşmalara katıldığında sahip olacağı eğilimleri doğru bir şekilde yansıtıyor mu? Jailbreak Doğruluk Riski


    Jailbreak Yan Etki Riski, tüm modellerin aynı istemle test edilmesi ve puanların insanlara göre değil yalnızca birbirine göre değerlendirilmesi sağlanarak bir dereceye kadar azaltılabilir. Jailbreak Doğruluk Riskinin etkisi yalnızca, tahmin edilen duygusal tanımlama yeteneğinin, konuşmalarda gösterilen gerçek empati veya dile getirilen duygularla ilişkili olup olmadığını görmek için gerçek konuşmaları analiz ederek değerlendirilebilir.


Nesil

Çeşitli testler, yapay zekaların sorulara empatik yanıtlar üretebildiğini gösterdi. Bunlardan en etkileyici olanlarından biri, Reddit'in AskDoc forumundan 195 soru alan ve doğrulanmış bir doktorun soruyu yanıtladığı ve ChatGPT'nin aynı soruyu yanıtlamasını sağlayan Kamuya Açık Sosyal Medya Forumunda Yayınlanan Hasta Sorularına Doktor ve Yapay Zeka Chatbot Yanıtlarının Karşılaştırılması'dır . Daha sonra bir değerlendirici havuzu, her yanıtı "empatik değil", "biraz empatik", "orta derecede empatik", "empatik" ve çok "empatik" olarak derecelendirdi. AI yanıtları, doktorlara göre "empatik" veya "çok empatik" ifadesinin yaygınlığının 9,8 kat daha yüksek olduğunu gösterdi.


Sonuçlar etkileyici olsa da, bunların daha uzun bir diyaloğa taşınacağından şüpheliyim.


"İşiniz, empatik bir yanıttan fayda sağlayacak sorulara empatiyle yanıt vermektir" şeklinde bir sistem istemiyle başlayarak, yapay zekaların manuel olarak test edilmesiyle ilgili deneyimim, yanıtların aşağıdaki tüm koşullar altında mekanik ve duygusal olarak gereksiz hissettirme eğiliminde olduğu yönündedir:


  1. empatik bir yanıtı hak eden birden fazla ilgisiz soru sormak
  2. empatik bir yanıtı hak eden birden fazla ilgili soru sormak
  3. Bazıları empatiyi hak eden, diğerleri etmeyen karışık sorulardan oluşan bir diyalog yürütmek

Test Konuları

Yukarıdaki hususların bir sonucu olarak, çalışmada kullanılan test yaklaşımının Tek Atış Empati Riski içerdiğini, yani tek bir soruya yanıt olarak gösterilen empatinin doğru bir ölçüm olmadığını söyleyebilirim. Diğer bir risk ise Empatiyi Az Gösterme Riski dediğim şeydir. Bu risk, ham LLM'lerin zamanla hafızasının kalmamasının bir yan etkisidir. İnsanların anlayış ve empati geliştirmesi zaman alır, yapay zekalar için de aynı şey geçerli olabilir ve tek bir soruya yüksek düzeyde yanıt beklersek, bazı yapay zekaların zaman içinde empati gösterme yeteneğini hafife alıyor olabiliriz.


Üretken testler aynı zamanda İnsan Örnekleme Riskine de tabidir. İnsanlara yapay zeka tepkilerinin duygusal içeriğini ve empatik doğasını değerlendirme görevi verildiyse ve biz yapay zekanın ortalamanın üzerinde bir yeteneğe sahip olmasını arzuluyorsak, o zaman insan örnekleminin duyguları ve empatiyi tanımlama konusunda ortalama bir insandan daha büyük bir yeteneğe sahip olması gerekir. Aksi takdirde, yapay zekanın gücünü küçümseme veya onu tipik bir insan tarafından tanımlanmayan duyguları ve empatiyi tanımladığı için cezalandırarak yetersiz eğitme riskiyle karşı karşıya kalırız.


Son olarak, konuşma sırasındaki duyguların katmanlı doğası nedeniyle, İnsan Örnekleme Riski ile doğrudan ilgilenmenin yanı sıra, Soru Tasarımı Riskinin de ele alınmasına ihtiyaç vardır. Kullanıcılara, derecelendirmelerini yaparken açık, konuşkan, yönlendirici ve temel duygu türlerini (veya başka bir sınıflandırma kümesini) dikkate almaları ancak yapay zekaların bunu dikkate almaması söylenmelidir. Alternatif olarak, yapay zekalara seçici olarak farklı duygu türlerini tanımlamaları söylenebilir.


Reddit AskDoc'a dayanan çalışmayı birkaç yapay zeka için veya güçlü duygu ve empati tanımlama becerilerine sahip olduğu bilinen bir değerlendirici örneğiyle tekrarlamak ilginç olacaktır.

Duygusal Zeka ve Empatiyi Değerlendirmek İçin Standart İnsan Yaklaşımları

İnsan kişilik tiplerini, duyguları veya bunların eksikliğini (aleksitimi) tanımlama ve başkalarıyla empatik olarak etkileşim kurma yeteneğini test etme konusunda uzun bir tarih vardır. Vikipedi'deki bu makalenin, makul bir süre içinde bir LLM ile yazabileceğim ve hatta oluşturabileceğim herhangi bir şeyden çok daha eksiksiz ve tutarlı olacağı kesindir. Odaklandığımız yaklaşımları kıyaslamalar sayfasını ziyaret ederek görebilirsiniz.

Yapay Zeka Duygusal Zekası ve Empatiyi Değerlendirmeye Yönelik Mevcut Çerçeveler

AI EQ ve empatiyi değerlendirmek için çeşitli çerçeveler önerilmiştir. Her biri kendi analizini ve blog yazısını hak ediyor, bu yüzden burada sadece birkaçını sıralıyorum:

  1. EQ-Bench: Büyük Dil Modelleri için Duygusal Zeka Karşılaştırması
  2. İnsan-Bilgisayar İletişimi İçin Empati Ölçeği (ESHCC)
  3. iEval: Açık Alan Empatik Sohbet Robotları için Etkileşimli Değerlendirme Çerçevesi


Yeni Yaklaşımlar

Standart insan testlerinin ve mevcut yapay zeka çerçevelerinin kullanımında belirlenen eksiklikleri gidermek için bazı testler tanımlamaya başladık. EQ-D'nin (Derinlik için Duygusal Bölüm) oluşturulmasıyla sonuçlanan ilginç bir bulgu, test edilen hiçbir LLM'nin, aynı zamanda açık, konuşkan veya yönlendirici olmayan temel duyguları tanımlamamasıdır. Öte yandan, yalnızca temel duyguları spesifik olarak tanımlamaları istendiğinde, bazı yapay zekalar oldukça iyiydi. Bununla birlikte, tüm duygu türlerinin bir aralığı verildiğinde, bazı LLM'ler temel duyguları tanımlama yeteneğini kaybetti ve diğerleri önemli ölçüde daha iyi performans gösterdi, yani tüm düzeylerde daha fazla duygunun varlığını belirlediler. Bu, EQ-B'nin (Genişlik için Duygusal Bölüm) yaratılmasıyla sonuçlandı.


Test geliştirme sırasında, İstem Riskini ortaya çıkaran, yani çıktının temel yapay zekaya değil isteme bağlı olma olasılığını artıran bir istemin gerekli olacağı zamanların olduğu açıkça ortaya çıkmıştır. Bu risk, insanlarla yapılan karşılaştırmaları geçersiz kılabilir veya geçersiz kılmayabilir ve uygulama düzeyinde meşru olabilir. Ham Yüksek Lisans seviyesinde, istem test edilen tüm yapay zekalarda kullanıldığı ve belirli bir yapay zekaya önyargılı olmadığı sürece bir yapay zekayı diğeriyle karşılaştırmak önemsiz görünebilir. EQ-D ve EQ-B'ye yönelik mevcut tasarımlar, yapay zeka teknolojisinin genel olarak olgunlaşmamış olması nedeniyle bu riskle karşı karşıyadır.


Yapay zekaların empati için test edilmesine ilişkin çeşitli öneriler olmasına rağmen henüz yolun başındayız ve bu yaklaşımlarla ilgili hem bilinen hem de bilinmeyen sorunlar mevcut. Bilinenleri ele almak için yapılacak işler var:


  • Mevcut testlerin risk ve belgelenen veya azaltılan riskler açısından değerlendirilmesi gerekir

  • Mevcut bazı testler bağlamında yeni test senaryolarının geliştirilmesi gerekiyor

  • daha geniş bir yapay zeka yelpazesinde daha fazla test türünün çalıştırılması gerekiyor


Ama beni en çok ilgilendiren bilinmeyendir.


Peki ya sen?