著者:
(1) Jerry Wei, Google DeepMind and a Lead contributors;
(2) Chengrun Yang, Google DeepMind and a Lead contributors;
(3) Xinying Song, Google DeepMind and a Lead contributors;
(4) Yifeng Lu, Google DeepMind and a Lead contributors;
(5) Nathan Hu, Google DeepMind and Stanford University;
(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;
Dustin Tran, Google DeepMind;
<(p著者:
著者:(1) Jerry Wei, Google DeepMind and a Lead contributors;
(2) Chengrun Yang, Google DeepMind and a Lead contributors;
(3) Xinying Song, Google DeepMind and a Lead contributors;
(4) Yifeng Lu, Google DeepMind and a Lead contributors;
(5) Nathan Hu, Google DeepMind and Stanford University;
(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;
(7) ダスティン・トラン、Google DeepMind;
(8) グーグル・ディープミンド;
(9) グーグル・ディープミンド;
(10) グーグル・ディープミンド;
(11) Google DeepMind;
(12) グーグル・ディープマインド、Quoc V. Le
Table of Links
抽象と 1 入門2 LongFact: Long-form factualityのためのマルチトピックベンチマークを生成するためにLLMを使用する
2 LongFact: Long-form factualityのためのマルチトピックベンチマークを生成するためにLLMを使用する3 Safe:LLM agents as factuality autoraters
3 Safe:LLM agents as factuality autoraters4 LLMsのエージェントは、人間よりもより良い事実上の注釈者かもしれません
4 LLMsのエージェントは、人間よりも良い事実上の注釈者かもしれません5 F1@k:ヒトの好ましい長さからの回収でF1を延長6 より大きなLLMはより事実的です7 関連作品8 制限事項9 結論、承認、著者の貢献、および参照サプリメント
サプリメントA. よくある質問B. LongFactの詳細C. SAFE 詳細D メトリックの詳細E. さらに分析ABSTRACT
Large language models (LLMs) は、オープンドメインでのモデルの長い形態の事実性を比較するために、38のトピックにわたる数千の質問を含む長い形態の答えを生成するためのコンテンツを頻繁に生成します。 次に、LLM エージェントは、検索拡大事実評価器(SAFE)と呼ばれる方法を通じて長い形態の事実性を自動的に評価するために使用することができることを提案します。 SAFE は、LLM を使用して長い形態の答えを個々の事実のセットに分解し、各事実の正確性を評価するために、Google Searchに検索クエリを送信し、検索結果によってサポートされているかどうかを決定するための複数のステップの推論プロセスを用
経験的に、私たちは、LLMエージェントがクラウドソースの人間の注釈者を上回ることができることを示しています ― ~16k個の事実のセットで、SAFEはクラウドソースの人間の注釈者に合意する 72%の時点で、およびランダムなサブセットで100の不一致事例で、SAFEは76%の時点で勝ちます。同時に、SAFEは20倍以上の人間の注釈者よりも安価です。私たちはまた、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)でLongFactの13の言語モデル(Gemini、GPT、PaLM2)を比較し、より大きな言語モデルが一般的により良いLongFactの事実性を達成
1
Large Language Models (LLMs) は近年大幅に改善されています(Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) しかし、詳細な事実性の質問に答える信頼性はまだ欠けています。 特に、主張が確立された真実知識に矛盾する事実上のエラーを生み出します(Huang et al., 2023; Zhang et al., 2023, inter alia)。[1] たとえば、モデルは、日付や統計、あるいは有名人の職業(Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023)のような確立された事実に関する不正確な情報で応答することがあります。
この論文では、LongFactと呼ばれる新しいプロンプトセット、SAFEと呼ばれる評価方法、および長い形式の応答の長い形式の事実性を定量化するためのメトリック(F1@K)を提案します。
• GPT-4[2] を使用して、大規模な言語モデルで長い形態の事実性をベンチマークするための新しいプロンプトセットを生成し、LongFact (セクション 2) と呼びます。 LongFact は、38 件の手動で選択されたトピックで長い形態の回答を求める2280の事実検索プロンプトで構成されています。我々の知る限り、LongFact は、幅広い範囲のドメインで長い形態の事実性を評価するための最初のプロンプトセットです。我々は、LongFact を https://github.com/google-demindep/ long-form-factuality/tree/main/longfact.
で公開しています。
• 我々は、モデル応答の長い形態の事実性を定量化するとき、F1は、人間が好む応答における事実の「理想的」数を推定するハイパーパラメータを介して利用することができることを提案する。
• LongFact (Section 6) で 4 つのモデル ファミリー (Gemini, GPT, Claude, and PaLM-2) の 13 つの大きな言語 モデルの幅広いベンチマークを実施しました。
この論文は
This paper is
[1]我々は幻覚ではなく、事実性と事実上の誤りに焦点を当て、我々の提案された評価方法は、答えがモデルの内部の知識(幻覚)と一致するかどうかではなく、外部の確立された知識(事実性)に関して事実的であるかどうかを決定することに焦点を当てている。
[2] GPT-4-0613 を GPT-4 用に使用します。
[3] SAFE の実装では、言語モデルとして gpt-3.5-turbo-0125 と Google Search API として Serper (https://serper.dev/) を使用します。