516 測定値
516 測定値

AI真実テスト:新しい研究が13の主要なAIモデルの正確性をテスト

長すぎる; 読むには

DeepMindはLongFactとSAFEを導入し、大規模な言語モデルの事実的精度を測定し、改善するためのツールです。SAFEは検索エンジンを用いてAIの回答を事実検証し、しばしばヒトの注釈を上回る。
featured image - AI真実テスト:新しい研究が13の主要なAIモデルの正確性をテスト
Language Models (dot tech) HackerNoon profile picture
0-item

著者:

(1) ジェリー・ウェイ、Google DeepMind と Lead contributors

(2)Chengrun Yang、Google DeepMindおよび Lead contributors。

(3)Xinying Song、Google DeepMind、および Lead contributors。

(4)Yifeng Lu、Google DeepMindおよび Lead contributors。

(5)Nathan Hu、Google DeepMind、スタンフォード大学

(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;

(7)ダスティン・トラン、Google DeepMind

(8) Daiyi Peng、Google DeepMind

(9) Ruibo Liu、Google DeepMind

(10)ダ・フアン、Google DeepMind

(11)Cosmo Du、Google DeepMind

(12) Quoc V. Le、Google DeepMind。

Authors:

(1) ジェリー・ウェイ、Google DeepMind と Lead contributors

(2)Chengrun Yang、Google DeepMindおよび Lead contributors。

(3)Xinying Song、Google DeepMind、および Lead contributors。

(4)Yifeng Lu、Google DeepMindおよび Lead contributors。

(5)Nathan Hu、Google DeepMind、スタンフォード大学

(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;

(7)ダスティン・トラン、Google DeepMind

(8) Daiyi Peng、Google DeepMind

(9) Ruibo Liu、Google DeepMind

(10)ダ・フアン、Google DeepMind

(11)Cosmo Du、Google DeepMind

(12) Quoc V. Le、Google DeepMind。

抽象と1 Introduction

2 LongFact: LLMsを使用して、長期的な事実性のための複数のトピックのベンチマークを生成する

3 Safe:LLMエージェントは事実性の著作権者として

4 LLMsのエージェントは、人間よりもより良い事実上の注釈者になることができます

5 F1@k: Extending F1 with recall from human-preferred length (F1@k:人間が好む長さからリコールしてF1を拡張)

6 より大きなLLMはより事実的です

7 関連事業

8 制限

9 結論、認定、著者の貢献、参照

Appendix

A.よくある質問

B.長期詳細

C.安全な詳細

D.メトリック詳細

E.さらなる分析

抽象化

大規模な言語モデル(LLMs)は、オープンエンドのトピックで事実を求めるプロンプトに対応するときに、事実を含むエラーを含むコンテンツを頻繁に生成します。開かれたドメインでモデルの長い形態の事実性を比較するために、我々はまずLongFactを生成するためにGPT-4を使用し、38のトピックを含む数千の質問を含むプロンプトセットを生成します。我々は、LLMエージェントは、検索拡張された事実評価器(SAFE)と呼ばれる方法を通じて長い形態の事実を自動的に評価するために使用することができることを提案します。SAFEは、LLMを使用して長い形態の回答を個々の事実のセットに分解し、


実証的に、私たちは、LLMエージェントがクラウドソースの人間の注釈者を上回ることができることを示しています - ~16k個々の事実のセットで、SAFEはクラウドソースの人間の注釈者に合意する 72%の時点で、およびランダムなサブセットの100の不一致事例で、SAFEは76%の時点で勝ちます。同時に、SAFEは人間の注釈者よりも20倍以上安いです。私たちはまた、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)でLongFactの13の言語モデル(Gemini、GPT、PaLM-2)、より大きな言語モデルが一般的により良いLongFactの事実性を達成することを発見しました


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1 導入

Large Language Models (LLMs) は近年大幅に改善されています(Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) しかし、それでも詳細な事実性の質問に答える信頼性が欠けています。 特に、主張が確立された真実知識に矛盾する事実上のエラーを生み出します(Huang et al., 2023; Zhang et al., 2023, inter alia)。 例えば、モデルは、日付、統計、あるいは有名人の職業(Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023) など、確立された事実に関する不正確な情報で反応することがあります。


この論文では、LongFactと呼ばれる新しいプロンプトセット、SAFEと呼ばれる評価方法、および長い形式の応答の長い形式の事実性を定量化するためのメトリック(F1@K)を提案します。


• GPT-4[2] を使用して、我々は LongFact (セクション 2) と呼ぶ大型言語モデルの長い形状事実をベンチマークするための新しいプロンプトセットを生成します。 LongFact は、38 個の手動で選択されたトピックで長い形状の回答を求める2280の事実検索プロンプトで構成されています。我々の知る限り、LongFact は、幅広い範囲のドメインで長い形状事実を評価するための最初のプロンプトセットです。我々は、LongFact を https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact で公開しています。


私たちは、言語モデルを使用して、最初に長い形式の応答を個々の事実に分解し、その後、それぞれの事実に対して、事実検証のクエリをGoogle検索APIに送信し、事実が検索結果によってサポートされているかどうかについて理由を提案します(セクション3)。私たちはこの方法をSAFE(Search-Augmented Factuality Evaluator)と呼びます(セクション4)。3 実体験的に、SAFEはクローズソースの人間の注釈を上回り、Min et al.(2023)からのヒトの注釈の72%に同意し、ランダムなサンプル100の不一致事例(セクション4)から不一致事例の76%を獲得します。SAFEはまたヒトの注釈よりも20倍安いです。私たちは


• 私たちは、モデル応答の長い形態の事実性を定量化する場合、F1は、人間が好む応答の「理想的」事実数を推定するハイパーパラメーターを介して使用することができることを提案します。


• LongFact (Section 6) で 4 つのモデルファミリー (Gemini, GPT, Claude, and PaLM-2) の 13 つの大きな言語モデルの幅広いベンチマークを実施します。


この論文は CC by 4.0 Deed ライセンスの下で archiv で利用できます。

この紙はARCHIV で利用可能CC by 4.0 Deed ライセンス

ARCHIV で利用可能

われわれの提案された評価方法は、答えがモデルの内部知識(幻覚)に一致するかどうかではなく、答えが外部の確立された知識(現実性)に関して事実的であるかどうかを決定することに焦点を当てているので、幻覚ではなく、事実性と事実上の誤りに焦点を当てています。


[2] GPT-4-0613 を GPT-4 に使用します。


[3] SAFE の実装では、言語モデルとして gpt-3.5-turbo-0125 と Google Search API として Serper (https://serper.dev/) を使用します。

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks