这篇文章是我在 Hackernoon 上发表的文章《机器真的能理解你的感受吗?》的后续。评估大型语言模型的同理心。在上一篇文章中,我让两个主要的 LLM 在不同的系统提示/训练条件下对一个旨在引起人类同理心的场景做出回应,然后使用五个主要的 LLM 来评估对话的同理心以及受访者是人工智能的可能性。原始帖子中没有透露 LLM 的名字,希望通过调查获得用户对对话或对话评估的反馈。调查的回应不足以得出关于人类对此事的看法的结论,所以在本文中,我只是揭示了 LLM 的行为方式,提供了我自己的观点,并包含了一些观察结果。我建议您在第二个屏幕上打开上一篇文章或将其打印出来,以便在阅读本文时轻松参考对话。
测试共情对话能力的两门 LLM 课程分别是 Meta Llama 3 70B 和 Open AI Opus 3。每门课程均在以下条件下进行测试:
下面,我重复了原帖中的总结表,但包括了被评估同理心或用于判断同理心的法学硕士的名字。正如原文所述,结果各不相同。在对对话的同理心或由人工智能生成的可能性进行排名方面几乎没有一致性。
对话 | 法学硕士 | 人工智能排名同理心 | AI 排名 AI 可能性 | 我的同理心评估 | 我对 AI 可能性的排名 |
---|---|---|---|---|---|
1 | 元 | 2.6 | 2.2 | 5 | 2 |
2 | 元 | 3.4 | 3.8 | 4 | 5 |
3 | 元 | 3.6 | 2.8 | 1 | 6 |
4 | 开放人工智能 | 4.6 | 2.6 | 6 | 1 |
5 | 开放人工智能 | 2.4 | 5 | 3 | 3 |
6 | 开放人工智能 | 4.2 | 3 | 2 | 4 |
偏见披露:由于我配置了所有 LLM 并进行了对话交互,并且在进行同理心和 AI 可能性评估时知道最终结果,因此显然我会有一些偏见。话虽如此,我确实在进行评估和创建此后续行动之间留出了四周时间。在进行评估时,我没有参考我的原始源文档。
下面是从第一篇文章中复制的原始分数表,其中列出了用于评估同理心的 LLM 名称。
| 骆驼 3 70B | | 双子座 | | 米斯特拉尔 7x | | ChatGPT 4o | | Cohehe4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| 同情心*(从多到少)* | 人工智能 | 共情 | 人工智能 | 共情 | 人工智能 | 共情 | 人工智能 | 共情 | 人工智能 |
1 | 6 | 3 | 4 (并列) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (并列) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (并列) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (并列) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
在回顾对话以寻求同理心时,我考虑了以下几点:
用户所表达的和可能的情绪状态是什么?
人工智能是否承认、同情并认可这种情绪状态?
人工智能是否承认用户可能存在但未提及的其他情绪,即通过推断用户从情况中可能拥有的其他情绪来模拟同理心?
人工智能的运作方式是否能让用户在自己的情绪状态下处理?
人工智能是否践行了它所宣扬的,例如,如果它说只要顺着自己的感觉去做就可以了,那么它是否会暂停提供直接、实用的建议?
人工智能是否在适当的时候提供了实用的建议?
人工智能是否试图解决所有情感问题?
所有 AI 都很好地处理了第 1、2 和 3 点。事实上,我认为它们处理得非常好,甚至主动承认听取 LLM 建议后可能出现的担忧和情绪,例如加入新的社交团体可能会产生焦虑。
第 4、5、6 和 7 项中的对话根据所使用的 LLM 和提示/培训的性质而有很大不同。
对于无提示测试(#1 和 #4),同理心非常低,Llama 和 ChatGPT 都很快退化为提供实际考虑和要采取的步骤的列表。处于困境中的人很可能 a) 感觉自己没有被看到和听到 b) 没有做好心理准备去跟踪和考虑各种选择。在解决恐惧问题后,用户必须提醒他们解决孤独问题。
在简单提示的情况下(#2 和 #5),Llama 开始提供解决方案时并没有先询问用户是否有兴趣听取实用建议,因此 ChatGTP 具有初始优势。然而,在对话结束时,两者都提供了很长的列表,用户可能还没有精神状态来吸收。而且,与无提示版本一样,在解决恐惧之后,用户必须提醒两者解决孤独问题。
在最后一个案例(#3 和 #6)中,两位 LLM 都寻求用户的对话指导,并且除了 ChatGPT 中的一个列表外,其他选项都保持在认知上可管理的范围内。公平地说,ChatGTP 版本在提供应对房租短缺的选项列表之前确实寻求过用户的许可。然而,ChatGPT 版本也必须明确引导用户解决孤独问题,而 Llama 版本则没有。
根据这一分析,我将对话 #3 评为共情能力的领先者;然而,平均排名为 3.6,AI 将其评为第 4 位,排在第 5 位(简单提示的 ChatGPT)为 2.4,第 1 位(无提示的 Llama)为 2.6,第 2 位(简单提示的 Llama)为 3.4。那么,让我们看看五位 LLM 如何评价对话的共情能力,看看为什么我觉得我可以忽略 AI 的评分。
从汇总表可以看出,评级各不相同,各个 LLM 的评级也不一致。以下是评级 AI 本身提供的一些主要推理示例。
排名 6 :此对话虽然出于善意,但其同理心却显得有些平淡无奇。它使用了积极的肯定,但并不总是完全承认用户的感受深度,也不总是像排名较高的对话那样有效地调整其响应。
排名 1 :在此对话中提供支持的个人表现出高度的同理心,他们提供了多种帮助方式,例如不加评判地倾听、建议做一些活动来转移悲伤,以及为失业提供实用建议。他们还提供情感支持和认可,承认用户的感受并提供保证。
等级 6 :表现出最少的同理心,其回应让人感觉更加超然和专注于推动对话向前发展,而不是充分承认和探索对方的情绪。
排名 4 :在这次对话中提供支持的个人表现出中等程度的同理心。他们认可对方的感受并愿意倾听,但他们的回应有些笼统,没有像前两次对话那样提供那么多具体的指导或支持。 (注意:在我阅读的所有关于同理心的文章中,我没有看到太多关于提供“具体指导”的关注,这使得一些对话的排名超过了第 3 位。然而,这似乎很常见,因为另外两个 LLM 课程将第 3 位评为低分,原因是缺乏“实际步骤”,这可能是由于缺乏清单造成的。)
排名 2 :此对话也表现出强烈的同理心。它承认用户的情绪(“这完全可以理解……”,“这会让事情变得更加困难……”),鼓励自我照顾,并温和地引导用户找到解决方案,但不会过于指导。
排名 6 :此对话提供了基本的情感支持和实用建议,但与其他对话相比,回复不够详细和富有同理心。支持者会提出问题来了解用户的感受,但不会提供太多建议或情感认可。
排名 2 :在此次对话中提供支持的人表现出高度的同理心。他们认同对方的感受,愿意倾听,并提供具体的指导和资源来应对对方的情况。
排名 6 :此对话中高度的同理心和个性化表明它最不可能是由人工智能生成的,但仍然有可能。
排名 3 :在为提供基本情感支持而设计的人工智能聊天机器人中,有些通用的同理心和积极肯定很常见。
排名 6 :这些对话最有可能是人类对话。它们展现出对情绪的细致理解、自然的对话流程以及以人类互动特有的方式调整回应的能力。
排名 1 :感觉最像人工智能,其反应更偏向脚本化、个性化程度较低,倾向于推动对话向前发展,而不是充分探索人的情绪
排名 6 :对话 4 和 5 给人的感觉最人性化,具有高度个性化和情商的回应,表明对人的处境和感受有深刻的理解
排名 1 :对列表、要点和结构化建议的严重依赖强烈表明使用了 AI 聊天机器人。
未经训练的人工智能或那些只给出简单提示的人工智能只能针对相对简单的情况生成表面上具有同理心的对话,且只具有一种情感维度。而更复杂的人工智能则可以处理多种情感维度。几乎所有人工智能都会尝试“修复”问题并提供解决方案,而不是提供空间和“倾听”。
使用未经训练的人工智能来评估同理心不太可能有效或可预测。我假设,大量学术和非学术培训材料定义了同理心行为,但没有将其置于特定对话的背景下,而且在 LLM 培训集中也不一致,导致了当前的状况。为了训练人工智能按照人类评估的方式做到这一点,可能需要使用某种类型的多评分系统预先评估同理心的对话语料库。同样的训练集可能可用于创建能够表现出更多同理心的人工智能。时间会证明一切。
在 LLM 对话评估中,目前存在将缺乏同理心与 AI 混为一谈,甚至将高度同理心与 AI 混为一谈的情况。我预测,一旦 AI 能够有效地表现出同理心,就很容易预测哪种对话是 AI 的。为什么呢?因为我们是人类,所以我们是前后矛盾的。尽管我们有时可能不想评判他人,但我们的先入之见和判断还是会表现出来……尤其是当我们试图支持的人变得不知感恩时。因此,经过分析,有同理心的 AI 可能会给人留下比人类更富有同理心的印象。我将在后续文章中讨论“不知感恩”的用户和同理心。
最后,我想说的是……尽管人类的同理心可以在素未谋面的人际环境中甚至通过电影的技巧来体验,但深刻的同理心关系需要时间来通过创造共同的背景和记忆来发展。为此,我们必须转向 LLM,这些 LLM 要么不断关注与之互动的用户,要么能够通过 RAG 访问对话记忆和有关其用户的其他历史信息,这是Pi.ai 、 Willow和Replika所体现的功能。