397 測定値

AI 共感の深さをテストする: フレームワークと課題

に Simon Y. Blackwell10m2024/02/29

長すぎる; 読むには

共感 AI システムの開発と評価については、多くの研究が行われています。ただし、まだ多くの未解決の疑問と課題があります。 - テストするには、共感の明確で合意された定義が必要です。 - AI が感情を「本当に」感じることができるかどうかについての議論は避け、代わりに観察可能な共感行動の評価に焦点を当てるべきです。 - 共感の特定と生成、および 1 回限りの応答での共感と対話との間には重要な違いが存在します。システムはそれに応じて評価されるべきです。 - AI システムをテストすると、多肢選択バイアス、人間による評価のサンプリングバイアス、プロンプトへの過剰適合などのリスクが生じます。 - AI の共感をテストするための標準フレームワークがいくつか提案されていますが、既知のリスクを軽減し、未知の課題を探索するには、さらに多くの作業が必要です。 - さらなる研究の分野には、既存のテストのリスク評価、補完的なテストケースの開発、より多くのシステムの体系的な評価が含まれます。

featured image - AI 共感の深さをテストする: フレームワークと課題

Google Scholar で「共感 AI 」を検索すると、2023 年以降 16,000 件以上の項目が表示されます。「共感 AI のテスト」や「共感 AI の評価」などのフレーズを検索すると、このセットは約 12,000 の項目に減ります。やりたいタイトルがたくさん！もちろんすべてを読んだ、あるいはすべてのタイトルに目を通したとは言えませんが、私の考えは次のとおりです。

私たちは共感の共通の定義を持たなければなりません。
私たちは、「AI は実際に感じることができるのか?」という質問を無視することに同意しなければなりません。そして、AI が生成するものを私たちがどのように解釈するかに単純に焦点を当てます。つまり、AI が人間だった場合、人間が考えたり感じたりしていることを私たちはどのように感じたり考えるでしょうか? （わあ、それはちょっとした体操ですね）。
私たちは、感情を特定すること、共感を特定すること、共感的な反応を生み出すこと、そして共感的な方法で対話に参加することを区別する必要があります。
私たちは、AI がどのように異なるかを認識しながら、人間の感情的および共感能力に関するテストの豊富な歴史を考慮に入れて、歴史的なテストを適用し、場合によっては修正し、適切に評価できるようにする必要があります。
AIに合わせた現在の評価フレームワークを理解する必要があります。
私たちは新しいフレームワークとアプローチを開発する必要があります。

共感とは何ですか?

メリアム・ウェブスター: 「他人の感情、思考、経験を理解し、認識し、敏感になり、代理的に経験する行為」。

LLM の文脈における「経験」に関する潜在的な懸念を取り除くために、私はこれを、他人の感情、思考、経験を理解し、認識し、敏感になり、代理的に経験しているように見せる行為として言い換えます。

そしてもちろん、会話に関心がある場合は、 「そして、会話の他の当事者がそのアクションに気づくような方法でこれを明示する」と付け加えます。もちろん、ソシオパスがそのような形で現れ、現れる可能性もあるので、最終調整を加えます。

共感とは次のようなものです。

他人の感情、考え、経験を理解し、認識し、ポジティブな方法で敏感になり、代理的に経験しているように見せる行為。そして、これを明らかにすることで、会話の相手がその行動に気づくことができます。

これと元の定義を検討すると、共感の 2 つの要素、感情的要素と認知的要素が明らかになります。

感情的要素とは、共感の感情または感覚の部分を指します。それは、他の人の感情を共有したり反映したりする能力です。たとえば、友人が悲しんでいる場合、あなたの共感の感情的な部分によってあなたも悲しくなるか、少なくとも友人の悲しみを感じることができるかもしれません。
一方、認知的要素は、共感の精神的または思考的な部分を指します。これは、キューを積極的に識別して理解し、精神的に他の人の立場に身を置くことができる能力です。たとえば、同僚が取り組んでいる困難なプロジェクト (行列) について疲れた声 (行列) で話した場合、あなたは同じような状況で自分がどのように感じるかを積極的に想像して、彼らのストレスを理解しようとすることを選択するかもしれません。。人によっては、これが人為的に影響を与える可能性があります。

AIは感じることができるのか？

現時点では、ほとんどの人はAIには感情がないと言うでしょう。 AIが感情をもつ未来を予測する人もいれば、AIが感情を持たない、あるいは持つことができない未来を予測する人もいるだろうが、第三のグループは「AIは感情をもつ/感じるが、そのやり方は人間とは異なる」と言うかもしれない。

いずれにせよ、このテーマの議論に時間を費やしても、共感のための AI のテストは進歩しません。私たちは、AI の内部状態ではなく、AI が発現するものの解釈に焦点を当てなければなりません。このトピックに関しては興味深い研究がいくつかありますが、「感情が麻痺しているのか、共感しているのか?」を参照してください。 EmotionBench を使用して LLM がどのように感じているかを評価します。

このハードルを乗り越えられない場合は、この Web サイトのベンチマークを無視することをお勧めします。ただし、記事や会話は引き続きお楽しみいただけます。

識別と生成

何かを特定することと、何かを実行することの間には大きな隔たりがあります。若いアスリートや学者は、すぐに高いレベルでパフォーマンスを発揮できなくても、自分のパフォーマンスのどこが悪いのかを特定することができます。同様に、感情や共感的な会話を識別する能力があることと、感情があるように見せて、相手が共感的であると解釈するような応答を生成できることは同じではありません。実際、その間にはさらにステップがあります。若いアスリートや学者がコーチや教師の意見を取り入れて、その瞬間により良い結果を出したからといって、十分に能力を発揮できるわけではありません。 AI がテスト設計またはプロンプトの副作用として共感的な結果を生成した場合、その AI は初期の共感能力を備えている可能性がありますが、本質的に共感的ではありません。

AIの内部状態を完全に理解することは不可能かもしれませんが、感情の特定はAIが共感を示すための必須条件であると私は信じています。また、AI に共感的な応答を促すことができるということは、能力が初期段階にあることを示している、つまり、微調整 (人間の練習に相当) によってその能力が生み出される可能性があると私は考えています。

識別と生成、コーチングと組み込みの区別は、この記事の範囲を超えてテストとテストフレームワークの有効性を議論する場合に重要です。

識別

テキストコンテンツ内の感情の識別は、指標となる単語、大文字の使用、句読点、および文法構造の存在に基づいています。感情を正確に識別する機能は、現在の AI 革命よりも 20 年以上前から存在していました。 1990 年代には、単語 N グラムの交差と記号推論がすでに素晴らしい結果をもたらしていました。 2000 年代初頭にソーシャルメディアが成長するにつれて、自動モデレーションの必要性がこの分野で大きな進歩をもたらしました。しかし、今日の LLM は、一般的な感情だけでなく特定の感情を識別する能力において驚くべきものとなっています。

そうは言っても、完全に共感的な会話に必要な感情表現の識別にはいくつかの種類があり、私はそれらを次のように分類します。

明示的 — ユーザーは感情があると述べます。
会話 — 感情はトップレベルのテキスト分析から明らかであり、会話の中に存在します。
運転 — 感情が会話を推進し、ある人は怒りを表明し、別の人は同様の反応を示します。
core — 他の感情を引き起こすが、それ自体が感情によって引き起こされるわけではない感情が CORE です。それらは通常、未来についての期待（意識的または潜在意識）を引き起こす何らかの歴史的きっかけの結果として現れます。研究者によってこれらの分類は異なりますが、ダリア・ラマ法王が支持する一例は、『感情アトラス』の感情の 5 大陸 (怒り、恐怖、嫌悪、悲しみ、楽しみ) です。

注: 核となる感情は、ドライブ、会話、露骨な感情である場合もありますが、多くの場合、核となる感情は隠されています。この記事の後にテストまたはテスト結果を検討および定義する際に、これらの分類に再度注意を向けます。

テストに関する考慮事項

感情を識別するための古典的な人間によるテストは、通常、簡単なテストと検証を容易にするために 2 つのバケツに分類されます。

会話中にどのような感情が存在するのか、または存在しないのかについての多肢選択式テスト。強度スコアと関連付けられる場合もあります。
感情に関する自己実施型の内省的テスト。たとえば、 EQ-60 など、特定の状況で受験者がどのように感じるかを尋ねます。

これらは、高品質の AI テストにとって明確な課題を提示します。

多肢選択テスト— パターンマッチング言語モデルとして、今日のAIは識別する項目の選択肢を与えることで効果的に優位性を与えられます。これにより作業が容易になり、常に感情を識別する AI の能力をテストする必要はありません。潜在的により良いアプローチは、テキスト内に存在するすべての感情を識別するように AI に単純に指示し、グラウンドトゥルース (感情にそのようなものが存在するかどうかはわかりません :-) または統計分析に基づくキーのいずれかに対してバックグラウンドでスコアを付けることです。同じテストに対する人間の反応の比較。将来、提案されたテストを評価するとき、私はこれを多肢選択リスクと呼びます。ただし、人間の統計的サンプリングは追加のリスクを引き起こす可能性があります。平均的な人間よりも優れた AI を構築したいと考えているとします。これを行うには、統計サンプルが感情を識別する能力が平均よりも優れている人間に基づいていることを確認する必要があるかもしれません。そうしないと、AI が平均的な人間では識別できない感情を識別し、スコアリングでペナルティが課される可能性があります。私はこれを人間サンプリングリスクと呼んでいます。
内省的テスト— 感情に関する内省的テストは、ほとんどの AI モデルに課題をもたらします。 AI には通常、「私は AI なので感情がありません。」のような応答を要求するガードレールがあります。これらの制約をジェイルブレイクしたり、エンジニアにプロンプトを表示したりすることが可能な場合もありますが、その場合、次のような疑問が生じます。
- プロンプトは、共感に関する AI の残りの能力にプラスまたはマイナスの影響を与えますか?脱獄の副作用リスク
- 応答は、プロンプトなしで会話に参加するときに AI が持つ傾向を正確に反映していますか?脱獄の精度リスク
脱獄の副作用リスクは、すべてのモデルが同じプロンプトでテストされ、スコアが人間ではなく相互に相対的にのみ考慮されるようにすることで、ある程度軽減できます。脱獄精度リスクの影響は、実際の会話を分析して、予測される感情識別能力が、会話で示される実際の共感や会話で呼び出される感情と相関するかどうかを確認することによってのみ評価できます。

世代

いくつかのテストでは、AI が質問に対して共感的な応答を生成できることが示されています。最も印象的なものの 1 つは、公開ソーシャルメディアフォーラムに投稿された患者の質問に対する医師と人工知能のチャットボットの回答を比較するというもので、Reddit の AskDoc フォーラムから 195 の質問を受け取り、認定された医師が質問に回答し、同じ質問に ChatGPT が回答しました。次に、評価者集団が各回答を「共感できない」、「やや共感できる」、「中程度共感できる」、「共感できる」、および非常に「共感できる」と評価しました。 AI の回答では、医師よりも「共感的」または「非常に共感的」の割合が 9.8 倍高かった。

結果は印象的ですが、それが拡張された対話に引き継がれるかどうかは懐疑的です。

「あなたの仕事は、共感的な応答が得られる質問に共感をもって応答することです」というシステムプロンプトから始まり、AI の手動テストに関する私の経験では、以下のすべての条件下では、応答は機械的で感情的に冗長に感じられる傾向があります。

共感的な返答が必要な、無関係な質問を複数する
共感的な応答に値する複数の関連した質問をする
共感に値するものもあればそうでないものもある、混合された質問の対話を実施する

テストに関する考慮事項

上記の点の結果として、この研究で使用されたテストアプローチには単発共感リスクがあった、つまり、単一の質問に応じて示された共感は正確な尺度ではない可能性があると言えます。もう 1 つのリスクは、私が「共感の過小評価リスク」と呼んでいるリスクです。このリスクは、生の LLM が時間の経過とともにメモリを失うことによる副作用です。人間が理解と共感を育むには時間がかかりますが、それは AI でも同じである可能性があり、1 つの質問に対して高いレベルの回答を期待すると、一部の AI が時間の経過とともに共感を示す能力を過小評価している可能性があります。

生成テストも人間によるサンプリングのリスクの影響を受けます。人間が AI の反応の感情内容と共感性を評価する任務を負っており、AI に平均より優れた能力を持たせることを望む場合、人間のサンプルは感情と共感を識別する能力が平均的な人間よりも優れている必要があります。そうしないと、AI の能力を過小評価したり、典型的な人間では識別できない感情や共感を識別することで AI にペナルティを課すことによって、AI の学習が不十分になる危険があります。

最後に、会話における感情の階層的な性質により、人間サンプリングリスクに直接対処することに加えて、質問設計リスクにも対処する必要があります。ユーザーは評価を行う際に、明示的、会話的、運転的、中核的な感情のタイプ (またはその他の一連の分類) を考慮するように指示される必要がありますが、AI はそうではありません。あるいは、さまざまな種類の感情を識別するように AI に選択的に指示することもできます。

Reddit AskDoc に基づいて、いくつかの AI について、または強力な感情と共感の識別スキルを持つことが知られている評価者のサンプルを使用して研究を繰り返すことは興味深いでしょう。

EQと共感力を評価するための標準的な人間のアプローチ

人間の性格タイプ、感情または感情の欠如 (アレキシサイミア) を識別する能力、そして他者と共感的に関わる能力をテストする長い歴史があります。 Wikipedia のこの記事は、私が LLM を使用して妥当な時間内に作成したり生成したりできる記事よりも、はるかに完全で一貫性のあるものになることは間違いありません。ベンチマークページにアクセスすると、私たちが注力しているアプローチを確認できます。

AI EQ と共感を評価するための既存のフレームワーク

AI の EQ と共感を評価するために、いくつかのフレームワークが提案されています。それぞれが独自の分析とブログ投稿に値するため、ここではいくつかを列挙します。

新しいアプローチ

私たちは、標準的な人間によるテストと既存の AI フレームワークの使用で特定された欠陥に対処するために、いくつかのテストの定義を開始しました。 EQ-D (深さの感情指数) の作成につながった興味深い発見は、テストされた LLM が、明示的、会話的、または運転的でない場合には、核となる感情を識別しなかったということです。一方で、核となる感情だけを具体的に特定するよう求められた場合、いくつかの AI は非常に優れていました。しかし、すべての感情タイプの範囲が与えられた場合、一部の LLM は核となる感情を識別する能力を失いましたが、他の LLM は大幅にパフォーマンスが向上しました。つまり、すべてのレベルでより多くの感情の存在を識別しました。その結果、 EQ-B (感情の幅の指数) が作成されました。

テスト開発中に、プロンプトリスクを引き起こすプロンプトが必要になる場合があることが明らかになりました。つまり、出力がコア AI ではなくプロンプトに依存する可能性が高まります。このリスクは、人間との比較を無効にする場合もあれば無効にしない場合もあり、アプリケーションレベルでは正当な場合もあります。生の LLM レベルでは、テストされたすべての AI でプロンプトが使用され、特定の AI に偏っていない限り、ある AI を他の AI と比較することは重要ではないと思われます。 EQ-DとEQ-Bの現在の設計は、AI テクノロジーが全体的に未熟であるため、このリスクに悩まされています。

AI の共感テストに関してはいくつかの提案がありますが、まだ初期段階にあり、これらのアプローチには既知の問題と未知の問題の両方があります。既知の問題に対処するためにやるべき作業があります。