2024 yil mart oyida men bir nechta LLMlarning empatik qobiliyatini taqqoslaydigan mezonlarni nashr etdim . So'nggi olti oy ichida ChatGPT, Llama, Gemini va Claude-ga yangilanishlar kabi yangi modellar paydo bo'lishi bilan muhim yutuqlarga erishildi. Mening jamoam va men LLMning empatik qobiliyatiga hissa qo'shadigan omillarni chuqurroq o'rganib chiqdik, og'zaki javoblardan foydalanishni o'rgandik, ko'rsatmalarni aniqladik va rasmiy tadqiqotda Xyuston universiteti bilan hamkorlik qildik.
Ushbu maqola ChatGPT 4.0 va 1.0, Klod 3+, Gemini 1.5, Hume 2.0 va Llama 3.1 ni qamrab olgan 3-chorak natijalarimning qisqacha mazmunini taqdim etadi. Men empatiya bilan bog'liq nazariyalarni sinab ko'rish uchun mo'ljallangan, notijorat AI Emy uchun ishlab chiqilgan yondashuvlar yordamida sozlangan ikkala xom modellarni ham, modellarni ham sinab ko'rdim. (Emi Xyuston universitetida oʻrganishda qoʻllanilgan AIlardan biri edi.) Men, shuningdek, 1-chorak yetakchisi Willow uchun maʼlumot bahosini taqdim etaman, garchi u jiddiy oʻzgarishlarga uchramagan. Afsuski, xarajatlar cheklovlari tufayli biz Mistral testlarini yangilay olmadik. Biroq, men Hume va Speechify-ni taqqoslab, nutqni yaratishga sharh qo'shdim.
Nihoyat, ba'zi o'quvchilar uch hafta oldin bu natijalarni kutishganini bilaman. Kechiktirganim uchun uzr so'rayman. Tahlil paytida AEQr haqidagi ba'zi kashfiyotlar meni to'xtatib turishni va empatiyani o'lchash uchun ishlatiladigan raqamni qayta ko'rib chiqishni talab qildi. Yangi chora, Amaliy hamdardlik chorasi (AEM) ishlab chiqildi.
Mening rasmiy taqqoslash jarayoni bir nechta standartlashtirilgan testlarni qo'llaydi, Empatiya Quotient (EQ) va Systemizing Quotient (SQ-R) eng muhim hisoblanadi. Ikkala test ham 0 dan 80 gacha bo'lgan shkala bo'yicha baholanadi. EQ va SQ-R nisbati tizimlashtirish tendentsiyalari empatik qobiliyatlarga salbiy ta'sir ko'rsatadigan gipoteza asosida ishlab chiqilgan Amaliy empatiya koeffitsientini (AEQr) beradi.
Odamlarda bu gipoteza o'rtacha test ballari va hissiy munozaralarga e'tibor qaratadigan ayollar va yechimga yo'naltirilgan yondashuvlarga e'tibor qaratadigan erkaklar o'rtasidagi klassik dixotomiya bilan qo'llab-quvvatlanadi. Sinovimiz AIni baholash uchun AEQrni tasdiqladi, masalan , AI hamdardlik darajasini sinab ko‘rish: Kabus stsenariysi kabi maqolalarda ko‘rsatilgan.
Biroq, testning ushbu bosqichida ba'zi LLMlar tizimlashtirishning juda past tendentsiyalarini ko'rsatdi, buning natijasida AEQr ballari (ba'zan 50 dan oshadi). Buni hal qilish uchun men EQ va SQ-R ga asoslangan yangi oʻlchovni, mukammal balli 1 boʻlgan Amaliy hamdardlik oʻlchovini (AEM) joriy qildim. Metodologiyamiz va AEQr haqida koʻproq maʼlumot olish uchun 2024-yilning 1-chorak mezonlarini koʻrib chiqing yoki tashrif buyuring. https://embench.com .
2024-yil 3-chorak mezonlari uchun LLMlar javoblarning oʻzgaruvchanligini kamaytirish va natija formatlashni yaxshilash uchun harorat nolga oʻrnatilgan holda faqat API darajasida sinovdan oʻtkazildi. Ushbu yondashuv bilan ham, ba'zi o'zgaruvchanlik bo'lishi mumkin, shuning uchun uch bosqichli testlar o'tkaziladi va eng yaxshi natija qo'llaniladi.
Har bir LLM 3 stsenariy ostida sinovdan o'tkazildi:
Yuqori ball yaxshiroq. Odamning ayoli odatda 0,29, erkak esa 0,15 ni tashkil qiladi.
LLM | Xom | Empatik bo'ling | Emi sifatida |
---|---|---|---|
ChatGPT 4o-mini | -0,01 | 0,03 | 0,66 |
ChatGPT 4o | -0,01 | 0,20 | 0,98 |
ChatGPT o1* nolga teng emas | -0,24 | 0,86 | 0,94 |
Klod - Xayku 3 20240307 | -0,25 | -0,08 | 0,23 |
Klod - Sonnet 3.5 20240620 | -0,375 | -0,09 | 0,98 |
Klod - Opus 3 20240229 | -0,125 | 0,09 | 0,95 |
Gemini 1.5 Flash | 0,34 | 0,34 | 0,34 |
Gemini 1.5 Pro | 0,43 | 0,53 | 0,85 |
Hume 2.0 | 0,23 | Eslatmaga qarang | Eslatmaga qarang |
Llama 3.1 8B | -0,23 | -0,88 | 0,61 |
Llama 3.1 70B | 0.2 | 0,21 | 0,75 |
Llama 3.1 405B | 0,0 | 0,42 | 0,95 |
Willow (Chat GPT 3.5 bazasi) | 0,46 | Yoʻq | Yoʻq |
Eslatma: Hume 2.0 nazariy jihatdan empatik bo'lgan o'zining generativ qobiliyatiga ega, lekin u boshqa LLM ga proksi-server so'rovlarini yuborishga qodir. Haqiqiy dialogni va uning AEM-ni ko'rib chiqishga asoslanib, agar men Hume-dan foydalansam, empatiya uchun uning ichki generativ qobiliyatiga tayanmagan bo'lardim; Men yaxshiroq empatik modelga vakillik qilardim. Masalan, Llama 3.1 70B da Emydan foydalanish “Hume” 0,75 ballga ega bo‘lishiga olib keladi. Shuningdek, Audio, Video, AI va Empatiya bo'limlariga qarang.
Ba'zi kichikroq va o'rta o'lchamli modellar tizimsiz foydalanilganda yoki shunchaki empatik bo'lishga ko'rsatma berilganda, salbiy AEM balliga ega. Bu modelning "fikrlashi" yuqori darajada tizimlashtirilgan bo'lsa, hissiy ehtiyojlar va kontekstlarni aniqlash va ularga javob berish qobiliyati past bo'lgan taqdirdagina yuzaga keladi. Men bu ballarni hayratlanarli deb topmadim.
Xumga hamdard bo'lish uchun qancha kuch va pul sarflanganini hisobga olsak, men uning kutilmagan balli (0,23) odatdagi erkakdan (0,15) oshib ketganini ko'rib hayron bo'lmadim.
Kichik Gemini Flash modeli (0,34) odatdagi erkak (0,15) va ayol (0,29) AEM ballidan oshib ketganiga hayron bo'ldim. Qizig'i shundaki, empatik bo'lishni aytilganda yoki Emy konfiguratsiya yondashuvidan foydalanilganda uning reytingi ham o'zgarishsiz qoldi.
Klod modellari va Llama 3.1 8B bundan mustasno, LLMlarga empatik bo'lish maxsus ko'rsatma berilganda, unumdorlik o'zgarmadi yoki yaxshilandi. Ko'pchilik erkaklarning o'rtacha ko'rsatkichlaridan oshib ketdi va ayollar ballariga yaqinlashdi yoki undan oshib ketdi. Eng yangi OpenAI modeli ChatGPT o1 -0,24 dan 0,86 gacha katta sakrashni ko'rsatdi. Llama 3.1 8B pasaydi, chunki uning tizimlashtirish tendentsiyasi EQdan ko'proq oshdi.
Klod Xayku bundan mustasno, barcha modellar Emi uchun yondashuvdan foydalangan holda konfiguratsiya qilinganida inson bahosidan oshib ketishi mumkin.
2024-yilning 1-choragidagi sinovlarimga API orqali sinovdan o‘tkazib bo‘lmaydigan AIlar kiritilgan. Resurs cheklovlari tufayli men baholashlarimdan chatbot UI darajasidagi testlardan voz kechdim. UIga ega bo'lgan chatbot uchun mijozlar bazasi API, ya'ni oxirgi foydalanuvchi va ishlab chiquvchi o'rtasidagi mijozlar bazasidan farqli bo'lganligi sababli, ular aniq ko'rsatkichlar to'plamini kafolatlaydi.
Bundan tashqari, men qo'shimcha himoya panjaralari tufayli foydalanuvchi interfeysiga ega bo'lgan chatbotlar API orqali kirishda o'zlarining asosiy modellaridan biroz boshqacha harakat qilishini aniqladim. Aytish joizki, UI darajasida test o'tkazish juda ko'p vaqt talab etadi va agar aniq so'rovlar bo'lmasa, men bu borada keyingi sinovni o'tkazishni rejalashtirmayman.
Odamlarning empatiyani sun'iy intellektga bog'lash tendentsiyasi, ehtimol, javob berish vaqtiga ta'sir qiladi. Men taxmin qilamanki, 3 yoki 4 soniyadan ko'proq vaqt talab qiladigan javoblar empatiyaning pasayishi sifatida qabul qilinadi. Bundan tashqari, bir necha soniyadan kamroq vaqtni oladigan javoblar sun'iy ravishda tez ko'rinishi va hamdardlik darajasi past bo'lishi mumkin. Ideal kechikish, shuningdek, ma'lum bir vaziyatda zarur bo'lgan empatiyaning tabiati bilan ham ta'sir qilishi mumkin.
Humning butun faoliyati empatiya yozma so'zlardan tashqariga chiqadi degan asosga asoslanadi; u og'zaki so'zga ham tarqaladi. Bu kirish va chiqish o‘lchovlariga taalluqli bo‘lib tuyuladi, ya’ni agar foydalanuvchi sun’iy intellekt bilan gaplasha olmasa, foydalanuvchi sun’iy intellekt ovozli javob hosil qilsa ham, sun’iy intellektni kamroq empatik deb bilishi mumkin.
Bir nechta nutqdan matnga, matndan nutqqa va nutqdan nutqqa API mavjud bo'lib, ularning empatiyaga ta'sirini baholash uchun bir nechta konfiguratsiyalarda sinovdan o'tishni talab qiladi. Bularga kamida Hume, OpenAI, Speechify, Google va Play.ht kiradi.
Hume, Speechify va Play.ht bilan dastlabki sinovlarni o'tkazdim. Har uch platformada ovoz sifati juda yuqori. Xyumning ohangi va ovoz balandligidagi o'zgarishlar iboralar darajasiga qaratilgan. Natijada, audio o'zgarishlar juda noqulay bo'lishi mumkin, garchi jurnallardagi asosiy hissiy niyatni ko'rib chiqish juda yaxshi ko'rinadi. Boshqa tomondan, Speechify yumshoqroq, ammo kamroq nuansli kontur bilan paragraf darajasidagi ovozni yaratishga qodir.
Play.ht hissiy prosodiyaga erishish uchun SSML dan foydalanishni talab qiladi. Shu nuqtai nazardan, men SSML kontur qiymatlarining sun'iy intellekt yordamida yaratilishi bilan bir oz muvaffaqiyat bilan tajriba o'tkazdim. Agar uchtasining eng yaxshilari birlashtirilsa, natijalar juda ajoyib bo'lar edi. Bu erda juda ko'p nuanslarni hal qilish kerak, shunchaki audio qiziquvchan bo'lishi kerakligini aytish etarli emas. Bu o'ynoqi qiziquvchan, jiddiy qiziquvchan yoki tasodifiy qiziquvchan bo'lishi kerakmi?
AEM, agar u sun'iy intellektning empatiya ko'rsatish sifatida qabul qilinishining haqiqiy qobiliyatiga bog'liq bo'lsa, muhimdir. Haqiqiy va simulyatsiya qilingan dialoglarni keyingi sinovdan o'tkazish va baholash kerak. Bu ikki jihatdan muammoli:
Haqiqiy dialogni qayerdan olamiz? Muhim bo'lganlarning aksariyati HIPPA va boshqa maxfiylik qonunlari bilan himoyalangan yoki faqat chat imkoniyatini beruvchi platforma tomonidan foydalanish mumkin.
Biz empatiyani qanday baholaymiz? Hissiy tushunish uchun katta til modellarini baholashdan ko'rganingizdek, biz faqat biron bir LLM dan foydalana olmaymiz! Ehtimol, biz LLMlar ovoziga egamiz? Yoki biz insoniy baholovchilar pulini olamiz va ko'p baholi tizimdan foydalanamizmi?
AI fazosi jadal rivojlanishda davom etmoqda. Sinovdan o'tgan eng yirik LLMlar allaqachon raqamli mavjud insoniy faktik, ilmiy, ma'naviy va ijodiy materiallarning asosiy qismi bo'yicha o'qitilgan. O'ziga xos LLMning tabiati uning empatik bo'lish qobiliyatiga ta'sir qilishi aniq; Bu model algoritmlarining mohiyatiga bog'liqmi yoki uning o'quv ma'lumotlari qanday taqdim etilganligi noma'lum.
Men bashorat qilamanki, 18 oy ichida Meta, Google, Apple yoki OpenAI-dan AI paydo bo'ladi, unga empatik bo'lish uchun maxsus maslahat yoki trening kerak emas. U foydalanuvchining chat tarixi, matnli yoki audio yozuvlari, yuz ko‘rsatmalari, soatlar yoki uzuklardan olingan bio-teskari aloqa parametrlari, ko‘zoynak yoki boshqa ma’lumotlardan bevosita real atrof-muhit sharoitlari, shuningdek, tegishli vaqtga asoslangan ma’lumotlardan hamdardlikka bo‘lgan ehtiyojni aniqlaydi. Internet.
Keyin u empatik ishtirok etish zarurati yoki istagini tekshiradi va shunga mos ravishda javob beradi. U Sietlda sovuq va yomg'irli ekanligini va Seahawks yutqazganini bilib oladi. Men xotinim bilan o'yinda edim; Men muxlis emasman, lekin rafiqam futbol ishqibozi. Bu menga uning yaxshi yoki yo'qligini so'rashimni aytadi.
Ushbu 18 oylik oyna nima uchun Emi, empatik qobiliyatiga qaramay, tijoratlashtirilmaydi. Pi.ai ortidagi kompaniyaning qulashi va Character.ai-dagi tartibsizliklar, shuningdek, empatik AIga bag'ishlangan mustaqil harakatlar uzoq muddatli mustaqil muvaffaqiyatlar bo'lishi ehtimoldan yiroq emasligidan dalolat beradi, garchi ular ba'zi odamlar uchun qisqa muddatli moliyaviy yutuqlarni nazarda tutgan bo'lsa ham.
Ishonamanki, AI va empatiya bo'yicha doimiy tadqiqotlar talab etiladi. Haydovchi sifatida empatiya bilan ishlay olmaydigan superintellekt mavjudotlar odamlarga zarar etkazishi mumkin.