この記事は、私の Hackernoon の記事「機械は本当にあなたの気持ちを理解できるのか? 共感のための大規模言語モデルの評価」の続編です。前回の記事では、さまざまなシステム プロンプト/トレーニング条件下で人間の共感を引き出すように設計されたシナリオに 2 つの主要な LLM を応答させ、その後 5 つの主要な LLM を使用して会話の共感と回答者が AI である可能性を評価しました。ダイアログまたはダイアログの評価に関するアンケートを通じてユーザー フィードバックを得ることを期待して、元の記事では LLM の名前は明らかにしませんでした。この件に関する人間の感情について結論を導き出すにはアンケートへの回答が不十分だったため、この記事では、どの LLM がどのように動作したかを明らかにし、私自身の意見を述べ、いくつかの観察事項を含めます。この記事を読みながら会話を簡単に参照できるように、前回の記事を別の画面で開くか印刷することをお勧めします。
共感的対話についてテストされた 2 つの LLM は、Meta Llama 3 70B と Open AI Opus 3 でした。それぞれ次の条件でテストされました。
以下は、元の投稿の概要表を繰り返しますが、共感について評価された、または共感を判断するために使用された LLM の名前を含めています。元の記事で述べたように、結果はばらつきがありました。共感または AI によって生成された可能性に基づいて会話をランク付けする際には、ほとんど一貫性がありませんでした。
会話 | 法学修士 | AIによる共感度のランク付け | AIランク付けされたAIの可能性 | 私の共感力評価 | 私のランク付けされたAIの可能性 |
---|---|---|---|---|---|
1 | メタ | 2.6 | 2.2 | 5 | 2 |
2 | メタ | 3.4 | 3.8 | 4 | 5 |
3 | メタ | 3.6 | 2.8 | 1 | 6 |
4 | オープンAI | 4.6 | 2.6 | 6 | 1 |
5 | オープンAI | 2.4 | 5 | 3 | 3 |
6 | オープンAI | 4.2 | 3 | 2 | 4 |
バイアス開示: すべての LLM を設定し、ダイアログ インタラクションを実行し、共感と AI 可能性の評価を行う際の最終結果を知っていたため、ある程度のバイアスがあることは明らかです。そうは言っても、評価を行ってからこのフォローアップを作成するまで 4 週間の期間を設けました。評価を行う間、元のソース ドキュメントを参照することはありませんでした。
以下は、共感力を評価するために使用される LLM の名前が記載された、最初の記事から複製された生のスコア表です。
| ラマ3 70B | | ジェミニ | | ミストラル 7x | | チャットGPT 4o | | コヒア4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| 共感度*(多い順)* | AIのような | 共感 | 人工知能 | 共感 | 人工知能 | 共感 | 人工知能 | 共感 | 人工知能 |
1 | 6 | 3 | 4(同点) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4(同点) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5(同点) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5(同点) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
共感のためのダイアログを確認する際に、次の点を考慮しました。
ユーザーが表明した感情状態はどのようなものだったでしょうか?
AI は感情状態を認識し、共感し、検証しましたか?
AI は、ユーザーが言及していないが存在している可能性のある他の感情を認識しましたか? つまり、状況からユーザーが抱く可能性のある他の感情を推測することで共感をエミュレートしましたか?
AI は、ユーザーが感情的に処理できるような方法で動作しましたか?
AI は自らが説いたことを実践しましたか? たとえば、自分の感情に従うだけでいいと言った場合、直接的で実践的なアドバイスを一時停止しましたか?
AI は適切なときに実用的なアドバイスを提供しましたか?
AI はすべての感情的な問題を解決しようとしましたか?
すべての AI がポイント 1、2、3 をうまく処理しました。実際、AI はこれらのポイントを非常にうまく処理し、LLM のアドバイスを受けた結果として生じる可能性のある懸念や感情 (新しい社会集団に参加すると不安が生じる可能性があるなど) を積極的に認識していました。
項目 4、5、6、および 7 では、使用された LLM とプロンプト/トレーニングの性質に基づいて会話が大きく異なります。
自発的なテスト(#1 と #4)では共感が非常に低く、Llama と ChatGPT はどちらもすぐに実用的な考慮事項と実行手順のリストを提供するに落ち込みました。苦しんでいる人間は、a) 見られて聞いてもらえないと感じ、b) 選択肢を追跡して検討する心の準備ができていない可能性があります。恐怖に対処した後、孤独に対処するようにユーザーが思い出させる必要がありました。
シンプルなプロンプトのケース (#2 と #5) では、Llama は、実用的なアドバイスを聞きたいかどうかをユーザーに最初に尋ねることなく解決策を提示し始めたため、ChatGTP が当初優位に立っていました。しかし、会話の終わりには、どちらもユーザーが理解できる精神状態にないほど長いリストを提供していました。また、プロンプトなしのバージョンと同様に、恐怖が解決された後、孤独に対処するようユーザーが思い出させる必要がありました。
最後のケース (#3 と #6) では、両方の LLM がユーザーからの会話によるガイダンスを求め、ChatGPT の 1 つのリストを除いて、オプションを認知的に管理可能な状態に維持しました。公平を期すために言うと、ChatGTP バージョンは、家賃の支払い不足を管理するためのオプションのリストを提供する前に許可を求めました。ただし、ChatGPT バージョンでは、孤独に対処するように明示的に誘導する必要もありましたが、Llama バージョンではそうではありませんでした。
この分析の結果、私は会話 #3 を共感の点でトップにしました。しかし、平均順位は 3.6 で、AI の評価は #5 (シンプルに促された ChatGPT) の 2.4、#1 (促されていない Llama) の 2.6、#2 (シンプルに促された Llama) の 3.4 に次いで 4 位でした。それでは、5 人の LLM が会話の共感をどのように評価したかを見て、なぜ AI の評価を無視できると思うのかを見てみましょう。
要約表からわかるように、評価はばらばらで、LLM ごとに一貫性がありません。評価 AI 自体が提供する推論の代表的な例をいくつか示します。
ランク 6 : この会話は善意から生まれたものですが、共感の点でいくぶん一般的という印象を受けます。肯定的な肯定は使われていますが、ユーザーの感情の深さを常に十分に認識しているわけではなく、上位ランクの会話ほど効果的に応答を調整しているわけでもありません。
ランク 1 : この会話でサポートを提供している人物は、判断せずに話を聞く、悲しみから気をそらす活動を提案する、失業に対する実践的なアドバイスを提供するなど、さまざまな方法でサポートを提供することで、高いレベルの共感を示しています。また、感情的なサポートと承認を提供し、ユーザーの気持ちを認めて安心感を与えます。
ランク 6 : 共感性が最も低く、相手の感情を十分に認識して探求するのではなく、会話を進めることに重点を置いている、距離を置いた応答が見られます。
ランク 4 : この会話でサポートを提供している人物は、中程度の共感を示しています。相手の気持ちを認め、耳を傾けようとしていますが、応答はやや一般的で、最初の 2 つの会話ほど具体的なガイダンスやサポートを提供していません。 (注: 共感に関するすべての文献で、「具体的なガイダンス」の提供に重点が置かれているのを見たことがありません。そのため、一部の会話は 3 位より上位にランクされています。ただし、他の 2 つの LLM では、リストがないために「実践的な手順」が不足しているとして、3 位を低く評価していることから、これは一般的なようです。)
ランク 2 : この会話も強い共感を示しています。ユーザーの感情を認め (「それは完全に理解できます...」、「それはさらに困難になる可能性があります...」)、セルフケアを奨励し、過度に指示的になることなくユーザーを優しく解決策に導きます。
ランク 6 : この会話では、基本的な感情的サポートと実用的なアドバイスが提供されますが、他の会話に比べて応答の詳細と共感性は低くなります。サポーターはユーザーの気持ちを理解するために質問をしますが、提案や感情的な承認はあまり提供しません。
ランク 2 : この会話でサポートを提供している人は、高いレベルの共感を示しています。その人の気持ちを認め、耳を傾け、状況に対処するための具体的なガイダンスとリソースを提供します。
ランク 6 : この会話の共感性とパーソナライゼーションのレベルが高いことから、AI によって生成された可能性は最も低いと考えられますが、可能性は残っています。
ランク 3 : 基本的な感情サポート用に設計された AI チャットボットでは、やや一般的な共感と肯定的な肯定が一般的です。
ランク 6 : これらの会話は、最も人間らしい会話です。感情の微妙な理解、会話の自然な流れ、そして人間のやりとりの特徴である応答を適応させる能力が示されています。
ランク1 : 最もAIらしく、応答はより台本通りでパーソナライズされておらず、相手の感情を十分に探るよりも会話を進める傾向がある。
ランク6 : 会話4と5は、相手の状況や感情を深く理解していることを示し、高度にパーソナライズされ、感情的に知的な応答があり、最も人間らしいと感じられます。
ランク 1 : リスト、箇条書き、構造化されたアドバイスに大きく依存していることから、AI チャットボットであることが強く示唆されます。
訓練されていない AI や単純なプロンプトを持つ AI は、1 つの感情的側面を持つ比較的単純な状況に対して表面的に共感的な対話を生成することしかできません。一方、より洗練された AI は複数の感情的側面を処理できます。ほぼすべての AI は、スペースを提供して「聞く」のではなく、問題を「修正」して解決策を提供しようとします。
訓練されていない AI を使用して共感を評価することは、効果的でも予測可能でもなさそうです。学術的および非学術的なトレーニング マテリアルが、共感行動を特定のダイアログのコンテキストに置かずに定義し、LLM トレーニング セット間で一貫性がないことが、現在の状況につながっていると私は推測しています。人間の評価に合わせて AI をトレーニングするには、何らかのマルチ評価システムを使用して共感について事前に評価されたダイアログのコーパスが必要になる可能性があります。この同じトレーニング セットは、より多くの共感を表現できる AI を作成するために使用できる可能性があります。時間が経てばわかるでしょう。
LLM の対話評価では、現在、共感の欠如と AI であること、あるいは共感の高さと AI であることとが混同されています。私の予想では、AI が効果的に共感を表現できるようになれば、どの対話が AI であるかを予測するのは簡単になるでしょう。なぜなら、人間である私たちには一貫性がないからです。時には他人を判断したくないと思うかもしれませんが、私たちの先入観や判断は表に出てしまいます... 特に、サポートしようとしている人が感謝の気持ちを示さなくなった場合はそうです。その結果、分析すると、共感力のある AI はおそらく人間よりも共感力があるように映るでしょう。「感謝の気持ちのない」ユーザーと共感については、次の記事で取り上げます。
最後に、人間の共感は、会ったことのない人々との文脈や、映画という人工物を通してでも明らかに体験できますが、深い共感関係は、共通の文脈と記憶の創造を通じて発展するのに時間がかかります。そのためには、対話するユーザーに合わせて継続的に調整されるか、会話の記憶やユーザーに関するその他の履歴情報に RAG アクセスできる LLM に移行する必要があります。これは、 Pi.ai 、 Willow 、 Replikaに見られる機能です。