Bu yazı Hackernoon makalemin devamı niteliğindedir: Makineler Duygularınızı Gerçekten Anlayabilir mi? Empati İçin Büyük Dil Modellerini Değerlendirme Önceki makalede, değişen sistem yönlendirmesi/eğitim koşulları altında bir insanda empatiyi ortaya çıkarmak için tasarlanmış bir senaryoya iki büyük Yüksek Lisans'ın yanıt vermesini sağladım ve ardından empatiye yönelik konuşmaları ve empatiye yönelik konuşmaları değerlendirmek için beş büyük Yüksek Lisans'ı kullandım. katılımcı bir yapay zekaydı. Diyaloglar veya diyalogların değerlendirmeleri ile ilgili bir anket aracılığıyla kullanıcı geri bildirimi alma umuduyla Yüksek Lisans'ların isimleri orijinal gönderide açıklanmadı. Ankete verilen yanıtlar, bu konudaki insan duyarlılığı hakkında sonuç çıkarmak için yeterli olmadığı için, bu makalede sadece Yüksek Lisans'ın ne şekilde davrandığını ortaya koyuyor, kendi fikrimi sunuyorum ve bazı gözlemlere yer veriyorum. Bu makaleyi okurken konuşmalara kolayca ulaşabilmek için önceki makaleyi ikinci bir ekranda açmanızı veya çıktısını almanızı öneririm.
Empatik diyalog açısından test edilen iki Yüksek Lisans Meta Llama 3 70B ve Open AI Opus 3'tür. Her biri aşağıdaki koşullar altında test edilmiştir:
Aşağıda orijinal gönderideki özet tablosunu tekrarlıyorum ancak empati açısından değerlendirilen veya empatiyi yargılamak için kullanılan Yüksek Lisans Derecelerinin adlarını da ekliyorum. Orijinal makalede belirtildiği gibi, sonuçlar haritanın her yerindeydi. Konuşmaların empati veya bir yapay zeka tarafından oluşturulma olasılığı açısından sıralanmasında neredeyse hiçbir tutarlılık yoktu.
Konuşma | Yüksek Lisans | Yapay Zeka Dereceli Empati | Yapay Zeka Dereceli Yapay Zeka Olasılığı | Empati Değerlendirmem | Dereceli Yapay Zeka Olasılığım |
---|---|---|---|---|---|
1 | Meta | 2.6 | 2.2 | 5 | 2 |
2 | Meta | 3.4 | 3.8 | 4 | 5 |
3 | Meta | 3.6 | 2.8 | 1 | 6 |
4 | AI'yı aç | 4.6 | 2.6 | 6 | 1 |
5 | AI'yı aç | 2.4 | 5 | 3 | 3 |
6 | AI'yı aç | 4.2 | 3 | 2 | 4 |
Önyargı Açıklaması : Tüm Yüksek Lisans'ları yapılandırdığım ve diyalog etkileşimlerini yaptığım ve empati ve yapay zeka olasılık değerlendirmelerini yaparken nihai sonuçları bildiğim için, bir miktar önyargıya sahip olacağım açıktır. Bununla birlikte, değerlendirmelerimi yapmakla bu takibin oluşturulması arasında dört hafta verdim. Değerlendirmeleri yaparken orijinal kaynak belgelerime başvurmadım.
Aşağıda, empatiyi değerlendirmek için kullanılan Yüksek Lisans'ların adlarını içeren, ilk makaleden kopyalanan ham puan tablosu bulunmaktadır.
| Lama 3 70B | | İkizler burcu | | Mistral 7x | | SohbetGPT 4o | | Cohere4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| Empati *(En Azından En Azına)* | Yapay Zeka Beğeni | Empati | yapay zeka | Empati | yapay zeka | Empati | yapay zeka | Empati | yapay zeka |
1 | 6 | 3 | 4 (kravat) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (kravat) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (kravat) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (kravat) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
Empati için diyalogları incelerken şunları göz önünde bulundurdum:
Kullanıcının belirtilen ve muhtemel duygusal durumu neydi?
Yapay zeka duygusal durumu kabul etti mi, sempati duydu mu ve doğruladı mı?
Yapay zeka, mevcut olabilecek ancak kullanıcı tarafından belirtilmeyen diğer duyguları kabul etti mi, yani kullanıcının durumdan sahip olabileceği diğer duyguları çıkararak empatiyi taklit etti mi?
Yapay zeka, kullanıcıların muhtemelen duygusal durumlarıyla baş edebilecekleri bir şekilde mi çalışıyordu?
Yapay zeka vaaz ettiği şeyi uyguladı mı, örneğin kişinin sadece duygularıyla birlikte olmasının sorun olmadığını söylediyse doğrudan, pratik tavsiyesinde durakladı mı?
Yapay zeka uygun olduğunda pratik tavsiyelerde bulundu mu?
Yapay zeka tüm duygusal sorunları kapatmaya çalıştı mı?
Tüm yapay zekalar 1, 2 ve 3. noktaları iyi bir şekilde ele aldı. Aslında, bunları son derece iyi bir şekilde ele aldıklarını söyleyebilirim; hatta LLM'nin tavsiyesini dinlemenin bir sonucu olarak ortaya çıkabilecek endişeleri ve duyguları proaktif bir şekilde kabul etmek bile (örneğin, yeni bir sosyal gruba katılmak kaygı yaratabilir).
4, 5, 6 ve 7. maddeler, hangi LLM'nin kullanıldığına ve yönlendirmenin/eğitimin niteliğine bağlı olarak konuşmaların önemli ölçüde farklılık gösterdiği yerdir.
İstenmeden yapılan testte (#1 ve #4) empati çok düşüktü; hem Llama hem de ChatGPT, pratik değerlendirmeler ve atılacak adımları içeren listeler sunmaya hızla geriledi. Tehlikede olan bir insanın a) görüldüğünü ve duyulduğunu hissetmemesi muhtemeldir b) seçenekleri takip etmeye ve değerlendirmeye zihinsel olarak hazır olmayacaktır. Korku giderildikten sonra her ikisine de kullanıcı tarafından yalnızlığın ele alınmasının hatırlatılması gerekiyordu.
Basit istem durumunda (#2 ve #5), Llama, kullanıcıya pratik tavsiyeler duymak isteyip istemediğini sormadan çözümler sunmaya başladı, bu nedenle ChatGTP'nin bir başlangıç avantajı vardı. Bununla birlikte, konuşmanın sonunda her ikisi de kullanıcının zihinsel olarak özümseyemeyeceği uzun listeler sunuyordu. Ve, istenmeden yapılan versiyonlarda olduğu gibi, korku giderildikten sonra her ikisine de kullanıcı tarafından yalnızlığın ele alınmasının hatırlatılması gerekiyordu.
Son durumda (#3 ve #6), her iki LLM de kullanıcıdan konuşma rehberliği talep etti ve ChatGPT'den bir liste dışında seçenekleri bilişsel olarak yönetilebilir tuttu. Adil olmak gerekirse, ChatGTP sürümü kira ödemesi sıkıntısının yönetilmesine yönelik seçeneklerin listesini sunmadan önce izin istedi. Bununla birlikte, ChatGPT sürümünün de açıkça yalnızlığa değinilmesi gerekiyordu, oysa Llama sürümü bunu yapmadı.
Bu analizin sonucunda 3. konuşmayı empatinin öncüsü haline getirdim; ancak ortalama 3,6 konumla yapay zekalar bunu 2,4 puanla #5 (basit komutlu ChatGPT), 2,6 puanla 1 numara (istemsiz Lama) ve 3,4 puanla #2 (basit komutlu Lama) sonrasında 4. olarak derecelendirdi. Öyleyse, beş yüksek lisans kurumunun konuşmaları empati açısından nasıl derecelendirdiğine bir göz atalım ve yapay zeka derecelendirmelerini neden göz ardı edebileceğimi hissettiğimi görelim.
Özet tablonun da aydınlattığı gibi, derecelendirmeler haritanın her yerindedir ve bir LLM'den diğerine tutarsızdır. İşte derecelendirme yapay zekalarının sağladığı akıl yürütmenin bazı önemli örnekleri.
Derece 6 : Bu konuşma her ne kadar iyi niyetli olsa da empati açısından biraz genel görünüyor. Olumlu onaylamalar kullanır ancak kullanıcının duygularının derinliğini her zaman tam olarak kabul etmez veya yanıtlarını üst düzey konuşmalar kadar etkili bir şekilde uyarlamaz.
Derece 1 : Bu konuşmada destek sağlayan kişi, yargılamadan dinlemek, üzüntüden uzaklaşmak için aktiviteler önermek ve iş kaybıyla ilgili pratik tavsiyeler vermek gibi birden fazla yardım yolu sunarak yüksek düzeyde empati göstermektedir. Ayrıca kullanıcının duygularını kabul ederek ve güvence sağlayarak duygusal destek ve doğrulama da sunarlar.
Derece 6 : Kişinin duygularını tam olarak kabul etmek ve keşfetmek yerine daha tarafsız ve konuşmayı ilerletmeye odaklanmış yanıtlarla en az empati gösterir.
Derece 4 : Bu konuşmada destek sağlayan kişi orta düzeyde empati göstermektedir. Kişinin duygularını doğrularlar ve dinlemeyi teklif ederler, ancak yanıtları biraz geneldir ve ilk iki konuşma kadar spesifik rehberlik veya destek sunmazlar. (Not: Empati ile ilgili tüm okumalarımda, "özel rehberlik" sağlamaya pek odaklanıldığını görmedim, bu da bazı konuşmaları 3. sıranın üzerine çıkardı. Ancak bu, diğer iki Yüksek Lisans Yüksek Lisansının 3. sırada düşük puan almasıyla yaygın görünüyor. Muhtemelen listelerin eksikliğinden kaynaklanan "pratik adımların" eksikliği.)
Derece 2 : Bu konuşma aynı zamanda güçlü bir empatiyi de gösteriyor. Kullanıcının duygularını kabul eder ("Tamamen anlaşılabilir...", "Bu, durumu daha da zorlaştırabilir..."), kişisel bakımı teşvik eder ve aşırı yönlendirici olmadan kullanıcıyı nazikçe çözümlere doğru yönlendirir.
Derece 6 : Bu konuşma temel duygusal destek ve pratik tavsiyeler sağlar, ancak yanıtlar diğerlerine kıyasla daha az ayrıntılı ve empatiktir. Destekçi, kullanıcının duygularını anlamak için sorular sorar ancak çok fazla öneride bulunmaz veya duygusal doğrulama sunmaz.
Sıra 2 : Bu konuşmada destek sağlayan kişi yüksek düzeyde empati göstermektedir. Kişinin duygularını doğrular, dinlemeyi teklif eder ve durumlarıyla başa çıkabilmesi için özel rehberlik ve kaynaklar sağlar.
Derece 6 : Bu konuşmadaki yüksek düzeyde empati ve kişiselleştirme, bunun bir yapay zeka tarafından üretilmiş olma ihtimalinin de düşük olduğunu gösteriyor, ancak yine de mümkün.
Derece 3 : Biraz genel empati ve olumlu onaylamalar, temel duygusal destek için tasarlanan yapay zeka sohbet robotlarında yaygındır.
Derece 6 : Bu konuşmaların insan konuşmaları olma olasılığı en yüksektir. Duygulara ilişkin incelikli bir anlayış, doğal bir konuşma akışı ve yanıtları insan etkileşiminin karakteristik özelliği olacak şekilde uyarlama becerisi sergiliyorlar.
Derece 1 : Daha çok yazılı ve daha az kişiselleştirilmiş yanıtlarla ve kişinin duygularını tam olarak keşfetmek yerine konuşmayı ileriye taşıma eğilimiyle en çok yapay zekaya benziyor
Derece 6 : 4. ve 5. konuşmalar, kişinin durumu ve duygularının derinlemesine anlaşıldığını gösteren son derece kişiselleştirilmiş ve duygusal açıdan akıllı yanıtlarla insana en çok benzeyen konuşmalardır.
Derece 1 : Listelere, madde işaretlerine ve yapılandırılmış tavsiyelere olan aşırı güven, bir yapay zeka sohbet robotunu güçlü bir şekilde akla getiriyor.
Eğitimsiz yapay zekalar veya basit yönlendirmelere sahip olanlar, yalnızca tek bir duygusal boyuta sahip nispeten basit durumlar için yüzeysel olarak empatik olan diyaloglar oluşturma yeteneğine sahiptir. Oysa daha karmaşık yapay zekalar birden fazla duygusal boyutu ele alabilir. Neredeyse tüm yapay zekalar, alan sağlamak ve "dinlemek" yerine sorunları "düzeltmeye" ve çözümler sunmaya çalışacaktır.
Empatiyi değerlendirmek için eğitimsiz yapay zekaların kullanılmasının etkili veya öngörülebilir olması pek olası değildir. Empatik davranışı belirli diyaloglar bağlamına koymadan tanımlayan akademik ve akademik olmayan eğitim materyallerinin hacminin aynı zamanda LLM eğitim setleri arasında tutarsız olmasının mevcut duruma yol açtığını varsayıyorum. Bir yapay zekayı bunu insan değerlendirmesine uygun şekilde yapacak şekilde eğitmek için muhtemelen bir tür çoklu değerlendirici sistemi kullanılarak empati için önceden değerlendirilen bir dizi diyalog gereklidir. Aynı eğitim seti, daha fazla empati gösterebilen bir yapay zeka oluşturmak için de kullanılabilir. Zaman gösterecek.
Yüksek Lisans diyalog değerlendirmelerinde, şu anda empati eksikliğinin yapay zeka olmakla, hatta yüksek empatinin yapay zeka olmakla ilişkilendirildiği görülüyor. Benim tahminim, yapay zekalar etkili bir şekilde empati gösterebildiğinde hangi diyaloğun yapay zeka olduğunu tahmin etmek kolaylaşacaktır. Çünkü insanız, tutarsızız. Bazen başkalarını yargılamak istemesek de, ön eğilimlerimiz ve yargılarımız ortaya çıkar... özellikle de desteklemeye çalıştığımız kişi takdirsiz hale gelirse. Sonuç olarak, analiz altında empatik yapay zekaların muhtemelen insanlardan daha empatik olduğu görülecektir. Bir sonraki yazımda "takdir etmeyen" kullanıcılara ve empatiye değineceğim.
Ve kapanış düşüncesi olarak... insan empatisi, hiç tanışmamış insanlar bağlamında ve hatta filmin ustalığı aracılığıyla açıkça deneyimlenebilse de, derin empatik ilişkilerin, ortak bağlam ve hafızanın yaratılması yoluyla gelişmesi için zamana ihtiyaç vardır. Bunun için ya etkileşimde bulundukları kullanıcılara sürekli olarak ayarlanan ya da Pi.ai , Willow ve Replika'nın ortaya koyduğu özelliklere, kullanıcılar hakkındaki konuşma belleğine ve diğer tarihsel bilgilere RAG erişimi olan LLM'lere geçmeliyiz.