新しい歴史

AIの真実のテスト:新たな研究が13の主要なAIモデルの精度をテスト

長すぎる; 読むには

DeepMindはLongFactとSAFEを導入し、大規模な言語モデルの事実的精度を測定し、改善するためのツールです。SAFEは検索エンジンを用いてAIの回答を事実検証し、しばしばヒトの注釈を上回る。
featured image - AIの真実のテスト:新たな研究が13の主要なAIモデルの精度をテスト
Language Models (dot tech) HackerNoon profile picture
0-item

著者:

(1) Jerry Wei, Google DeepMind and a Lead contributors;

(2) Chengrun Yang, Google DeepMind and a Lead contributors;

(3) Xinying Song, Google DeepMind and a Lead contributors;

(4) Yifeng Lu, Google DeepMind and a Lead contributors;

(5) Nathan Hu, Google DeepMind and Stanford University;

(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;

Dustin Tran, Google DeepMind;

<(p

著者:

著者:

(1) Jerry Wei, Google DeepMind and a Lead contributors;

(2) Chengrun Yang, Google DeepMind and a Lead contributors;

(3) Xinying Song, Google DeepMind and a Lead contributors;

(4) Yifeng Lu, Google DeepMind and a Lead contributors;

(5) Nathan Hu, Google DeepMind and Stanford University;

(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;

(7) ダスティン・トラン、Google DeepMind;

(8) グーグル・ディープミンド;

(9) グーグル・ディープミンド;

(10) グーグル・ディープミンド;

(11) Google DeepMind;

(12) グーグル・ディープマインド、Quoc V. Le

Table of Links

Abstract and 1 Introduction

抽象と 1 入門

2 LongFact: Long-form factualityのためのマルチトピックベンチマークを生成するためにLLMを使用する

2 LongFact: Long-form factualityのためのマルチトピックベンチマークを生成するためにLLMを使用する

3 Safe:LLM agents as factuality autoraters

3 Safe:LLM agents as factuality autoraters

4 LLMsのエージェントは、人間よりもより良い事実上の注釈者かもしれません

4 LLMsのエージェントは、人間よりも良い事実上の注釈者かもしれません

5 F1@k:人間の好ましい長さから復帰するF1を拡張

5 F1@k:ヒトの好ましい長さからの回収でF1を延長

6 より大きなLLMはより事実上の

6 より大きなLLMはより事実的です

7 関連作品

7 関連作品

8 制限

8 制限事項

9 結論、承認、著者の貢献、および参照

9 結論、承認、著者の貢献、および参照

サプリメント

サプリメント

A. よくある質問

A. よくある質問

B. 長い事実の詳細

B. LongFactの詳細

C. SAFE 詳細

C. SAFE 詳細

D メトリックの詳細

D メトリックの詳細

E. さらに分析

E. さらに分析

ABSTRACT

Large language models (LLMs) は、オープンドメインでのモデルの長い形態の事実性を比較するために、38のトピックにわたる数千の質問を含む長い形態の答えを生成するためのコンテンツを頻繁に生成します。 次に、LLM エージェントは、検索拡大事実評価器(SAFE)と呼ばれる方法を通じて長い形態の事実性を自動的に評価するために使用することができることを提案します。 SAFE は、LLM を使用して長い形態の答えを個々の事実のセットに分解し、各事実の正確性を評価するために、Google Searchに検索クエリを送信し、検索結果によってサポートされているかどうかを決定するための複数のステップの推論プロセスを用


経験的に、私たちは、LLMエージェントがクラウドソースの人間の注釈者を上回ることができることを示しています ― ~16k個の事実のセットで、SAFEはクラウドソースの人間の注釈者に合意する 72%の時点で、およびランダムなサブセットで100の不一致事例で、SAFEは76%の時点で勝ちます。同時に、SAFEは20倍以上の人間の注釈者よりも安価です。私たちはまた、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)でLongFactの13の言語モデル(Gemini、GPT、PaLM2)を比較し、より大きな言語モデルが一般的により良いLongFactの事実性を達成


Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

Figure 1: Our automatic factuality evaluator, SAFE, uses a large language model to rate the factuality of a long-form response to a given prompt using Google Search. We empirically demonstrate that SAFE outperforms human annotators while being more than 20 times cheaper (Section 4).

1

Large Language Models (LLMs) は近年大幅に改善されています(Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) しかし、詳細な事実性の質問に答える信頼性はまだ欠けています。 特に、主張が確立された真実知識に矛盾する事実上のエラーを生み出します(Huang et al., 2023; Zhang et al., 2023, inter alia)。[1] たとえば、モデルは、日付や統計、あるいは有名人の職業(Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023)のような確立された事実に関する不正確な情報で応答することがあります。


この論文では、LongFactと呼ばれる新しいプロンプトセット、SAFEと呼ばれる評価方法、および長い形式の応答の長い形式の事実性を定量化するためのメトリック(F1@K)を提案します。


• GPT-4[2] を使用して、大規模な言語モデルで長い形態の事実性をベンチマークするための新しいプロンプトセットを生成し、LongFact (セクション 2) と呼びます。 LongFact は、38 件の手動で選択されたトピックで長い形態の回答を求める2280の事実検索プロンプトで構成されています。我々の知る限り、LongFact は、幅広い範囲のドメインで長い形態の事実性を評価するための最初のプロンプトセットです。我々は、LongFact を https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.

で公開しています。


私たちは、言語モデルを使用して、最初に長い形式の応答を個々の事実に分解し、その後、それぞれの事実に対して、事実チェッククエリを提案してGoogle検索APIに送信し、事実が検索結果によってサポートされているかどうかについて理由を示します(第3節)。私たちはこの方法をSAFE(Search-Augmented Factuality Evaluator)と呼びます。3 実体験的に、SAFEはクローズソースの人間の注釈を上回り、Min et al. et al. の72%の人間の注釈に同意し、100の不一致事例のランダムサンプルの76%を獲得します(第4節)。SAFEはまた人間の注釈よりも20×安いです。私たちはhttps://github.com/google-deepmind/longform-


• 我々は、モデル応答の長い形態の事実性を定量化するとき、F1は、人間が好む応答における事実の「理想的」数を推定するハイパーパラメータを介して利用することができることを提案する。


• LongFact (Section 6) で 4 つのモデル ファミリー (Gemini, GPT, Claude, and PaLM-2) の 13 つの大きな言語 モデルの幅広いベンチマークを実施しました。


この論文は for archiv under CC by 4.0 Deed license.

This paper is available on arxiv under CC by 4.0 Deed license.

arxivで利用できます。arxiv で利用できます「hr」

[1]我々は幻覚ではなく、事実性と事実上の誤りに焦点を当て、我々の提案された評価方法は、答えがモデルの内部の知識(幻覚)と一致するかどうかではなく、外部の確立された知識(事実性)に関して事実的であるかどうかを決定することに焦点を当てている。


[2] GPT-4-0613 を GPT-4 用に使用します。


[3] SAFE の実装では、言語モデルとして gpt-3.5-turbo-0125 と Google Search API として Serper (https://serper.dev/) を使用します。

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks