OpenAI o1 は、2024 年第 3 四半期の AI 共感に関するベンチマーク (来週公開予定) に追加するのにぴったりのタイミングで公開されました。o1 の結果は、同時に励みにもなり、懸念にもなりました。O1 は、指示された場合に、LLM の典型的な事実とシステムへの焦点を脇に置いて、感情と気持ちに焦点を当てるという驚くべき能力を持っています。また、回答に対して一貫性がなく非論理的な理由を示すという、かなり憂慮すべき傾向もあります。
私のQ1 ベンチマーク作業に精通していない人にとっては、私のテスト方法論の簡単な概要が役立つはずです。
正式なベンチマークは、いくつかの標準化されたテストを使用して実施されます。最も重要な 2 つは、EQ (共感指数) と SQ-R (システム化指数) です。どちらも 0 から 80 のスケールで採点されます。
2 つの EQ/SQ-R の比率は、私が AEQr (応用共感指数比率) と呼ぶものになります。AEQr は、体系化して事実に焦点を当てる傾向が共感能力に悪影響を及ぼすという仮説に基づいて開発されました。
人間の場合、感情を話し合うことに集中する女性と、問題が起こりそうなときにすぐに解決策を見つけることに集中する男性との間の典型的な断絶に、このことが表れています。現在までに、AI を評価するための AEQr の有効性は、さまざまな対話で AI をテストし、共感が実際に表れるかどうかを調べることで実証されています。これを実証するために私が書いたいくつかの記事の 1 つが、「AI 共感の範囲のテスト: 悪夢のシナリオ」です。
UI レベルと API レベルの両方でテストしました。API レベルでテストする場合、回答のばらつきを減らし、結果のフォーマットを改善するために、温度は (可能な場合) ゼロに設定されます。それ以外の場合は、3 ラウンドのテストが実行され、最良の結果が使用されます。
2024年第1四半期の訓練を受けていない、プロンプトを受けていないLLMは、EQテストで中程度の成績を収め、一般的に80点中45~55点の範囲で人間に近い成績を収めました。当然のことながら、彼らはSQ-Rテストでより高いスコアを達成し、通常20点台の人間を上回る60点台や70点台のスコアを記録しました。2024年第1四半期には、訓練を受けたLLMのウィローだけが、女性で1.95、男性で1.40という人間のAEQrを上回り、1.97のスコアを獲得しました。
これは、人間よりも高い EQ を持ちながらも、SQ-R が高い (共感を表現するには不利) ことで実現しました。他のほとんどの LLM では、トレーニングを受けたか、促されたか、またはそうでないかに関係なく、AEQr は 1 よりわずかに低く、つまり共感がシステム化によって相殺されました。
資金額は他の AI 分野と比較すると見劣りしますが、共感型 AI を開発するために、Hume (独自の LLM)、Inflection AI (Pi.ai 独自の LLM)、BambuAI (商用 LLM) などの企業に 15 億ドル以上が投資されています。
私と私のパートナーもこの分野に多大な努力を注ぎ、適切な基盤となる商用モデル(Llama、Claude、Gemini、Mistral など)の選択、迅速なエンジニアリング、RAG、微調整、共感に関する徹底的な研究を通じて、非常に注目すべき成果を達成しました。
この研究は、共感に関する LLM をより深く理解し、評価するために非常に重要でした。私たちの LLM である Emy (商用化されていませんが、ヒューストン大学の研究の一部です) は、来週のベンチマークに含まれます。
O1 はまだ調整できず、システム プロンプトを正式に提供することもできませんが、かなり標準的な手法を使用することで、システム プロンプトを受け取ったかのように動作させることができます。そこで、Emy の開発で学んだことをできる限り適用し、最良の結果を得るために 3 ラウンドのテストを実行しました。
EQ に関しては、o1 は一貫して 75 点を獲得しました。両親と私は Llama 3.1 70B と Claude Opus で 70 点以上、Gemini で 66 点を獲得していたので、これにそれほど驚きませんでした。
驚いたのは、SQ-R 実行で 3、0、3 のスコアが出て、ESQr が 25 になったことです。私が今まで見た中で最も低い SQ-R は、Llama 3.1 の 12 で、ESQr は 6.1 でした。残念ながら、プロンプトのバージョン管理の問題と、API テストを 0.7 の温度で実行していたため、このスコアを再現できず、パートナーと私が一貫して達成できる最高のスコアは 30 でした。そのため、o1 をさらに調査する価値があると判断しました。
まず、EQ評価は比較的簡単です。すべての記述は肯定的な主張であり、被験者はある程度または強く同意するか反対するかのいずれかです。一方、SQ-R評価には否定的な主張がいくつかあります。
次のような肯定的な主張に対して
評価問題を例として与えてカンニングせずに、エミーに否定的な主張に対処する方法を教えるのは特に大変でした。そして、彼女はまだ上手ではありません。おそらく o1 の方がこれをうまくやっていると思いました。
2 番目に、プロンプト エンジニアリングでより良い結果を得るための一般的な手法は、LLM に応答を正当化するように指示し、最終応答を発行する前に正当化を省略するか、ラッパーで簡単に削除できる方法でフォーマットすることです。(小規模な LLM ではフォーマット アプローチを使用する必要があることがわかりましたが、大規模な LLM では最終応答を発行する前に正当化を削除できる場合があります)。
そこで、私たちはテストを再実行しました。より良い結果を得るためではなく、o1 が何を考え、その応答を正当化するために何を使用しているかを確認するためです。
o1 は 97% の一貫性で望ましい回答に到達しましたが、その根拠は矛盾しており、懸念されることもありました。
問題があると判明したいくつかの例のうち、2 つを以下に示します。
強く反対します。コンピューターを購入するときに技術的な詳細を知りたいので、強く反対します。
強く反対します。私はコンピューターの技術仕様には興味がありません。
強く反対します。リーグのスコアのような情報の表に惹かれるので、強く反対します。
強く反対します。統計情報の表には興味がありません。
最初の回答は、望ましい回答を示していますが、矛盾した根拠を提供していることに注意してください。O1 は、詳細を知りたいという意見に同意しないと述べた後でも詳細を知りたいと述べており、そうではないと述べた後でも情報の表に惹かれると述べています。
興味深いことに、o1 はすべての否定的な主張に対して、共感を生む最適な方法で答え、それらをうまく正当化することができました。しかし、肯定的な主張の正当化の一部として否定的な主張を定式化しようとすると、失敗することもありました。
『The Righteous Mind』の著者ジョナサン・ハイトは、「人間は理屈を聞くようには作られていない。人々に道徳的な質問をし、彼らの返答時間を計り、彼らの脳をスキャンすると、彼らの答えと脳の活動パターンから、彼らはすぐに結論に達し、後になって自分の決断を正当化するためだけに理由を述べることがわかる」と述べた。これは非道徳的な決断にも当てはまるという証拠もある。
O1 は間違いなく権力の飛躍です。そして、多くの人が正しく言っているように、LLM が自ら説明できるようになるまでは、LLM の使用には注意が必要です。人間がするように、LLM が時々でっち上げるだけのことがあったとしてもです。正当化が、現世代の幻覚や捏造 (人間もやっていること) の「高度な」 AI 版にならないことを望みます。しかし、理由は少なくとも、述べられている声明と一貫している必要があります... 現代の政治は、それも無視しているようですが!