著者:
♪(1) ジェリー・ウェイ、Google DeepMind と Lead contributors
♪(2)Chengrun Yang、Google DeepMindおよび Lead contributors。
♪(3)Xinying Song、Google DeepMind、および Lead contributors。
♪(4)Yifeng Lu、Google DeepMindおよび Lead contributors。
♪(5)Nathan Hu、Google DeepMind、スタンフォード大学
♪(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;
♪(7)ダスティン・トラン、Google DeepMind
♪(8) Daiyi Peng、Google DeepMind
♪(9) Ruibo Liu、Google DeepMind
♪(10)ダ・フアン、Google DeepMind
♪(11)Cosmo Du、Google DeepMind
♪(12) Quoc V. Le、Google DeepMind。
♪Authors:
(1) ジェリー・ウェイ、Google DeepMind と Lead contributors
(2)Chengrun Yang、Google DeepMindおよび Lead contributors。
(3)Xinying Song、Google DeepMind、および Lead contributors。
(4)Yifeng Lu、Google DeepMindおよび Lead contributors。
(5)Nathan Hu、Google DeepMind、スタンフォード大学
(6) Jie Huang, Google DeepMind and University of Illinois at Urbana-Champaign;
(7)ダスティン・トラン、Google DeepMind
(8) Daiyi Peng、Google DeepMind
(9) Ruibo Liu、Google DeepMind
(10)ダ・フアン、Google DeepMind
(11)Cosmo Du、Google DeepMind
(12) Quoc V. Le、Google DeepMind。
左のテーブル
2 LongFact: LLMsを使用して、長期的な事実性のための複数のトピックのベンチマークを生成する
4 LLMsのエージェントは、人間よりもより良い事実上の注釈者になることができます
5 F1@k: Extending F1 with recall from human-preferred length (F1@k:人間が好む長さからリコールしてF1を拡張)
Appendix
抽象化
大規模な言語モデル(LLMs)は、オープンエンドのトピックで事実を求めるプロンプトに対応するときに、事実を含むエラーを含むコンテンツを頻繁に生成します。開かれたドメインでモデルの長い形態の事実性を比較するために、我々はまずLongFactを生成するためにGPT-4を使用し、38のトピックを含む数千の質問を含むプロンプトセットを生成します。我々は、LLMエージェントは、検索拡張された事実評価器(SAFE)と呼ばれる方法を通じて長い形態の事実を自動的に評価するために使用することができることを提案します。SAFEは、LLMを使用して長い形態の回答を個々の事実のセットに分解し、
実証的に、私たちは、LLMエージェントがクラウドソースの人間の注釈者を上回ることができることを示しています - ~16k個々の事実のセットで、SAFEはクラウドソースの人間の注釈者に合意する 72%の時点で、およびランダムなサブセットの100の不一致事例で、SAFEは76%の時点で勝ちます。同時に、SAFEは人間の注釈者よりも20倍以上安いです。私たちはまた、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)でLongFactの13の言語モデル(Gemini、GPT、PaLM-2)、より大きな言語モデルが一般的により良いLongFactの事実性を達成することを発見しました
1 導入
Large Language Models (LLMs) は近年大幅に改善されています(Brown et al., 2020; Chowdhery et al., 2022; Google, 2023; OpenAI, 2023; Gemini Team, 2023, inter alia) しかし、それでも詳細な事実性の質問に答える信頼性が欠けています。 特に、主張が確立された真実知識に矛盾する事実上のエラーを生み出します(Huang et al., 2023; Zhang et al., 2023, inter alia)。 例えば、モデルは、日付、統計、あるいは有名人の職業(Li et al., 2023; Min et al., 2023; Muhlgay et al., 2023) など、確立された事実に関する不正確な情報で反応することがあります。
この論文では、LongFactと呼ばれる新しいプロンプトセット、SAFEと呼ばれる評価方法、および長い形式の応答の長い形式の事実性を定量化するためのメトリック(F1@K)を提案します。
• GPT-4[2] を使用して、我々は LongFact (セクション 2) と呼ぶ大型言語モデルの長い形状事実をベンチマークするための新しいプロンプトセットを生成します。 LongFact は、38 個の手動で選択されたトピックで長い形状の回答を求める2280の事実検索プロンプトで構成されています。我々の知る限り、LongFact は、幅広い範囲のドメインで長い形状事実を評価するための最初のプロンプトセットです。我々は、LongFact を https://github.com/google-deepmind/ long-form-factuality/tree/main/longfact で公開しています。
私たちは、言語モデルを使用して、最初に長い形式の応答を個々の事実に分解し、その後、それぞれの事実に対して、事実検証のクエリをGoogle検索APIに送信し、事実が検索結果によってサポートされているかどうかについて理由を提案します(セクション3)。私たちはこの方法をSAFE(Search-Augmented Factuality Evaluator)と呼びます(セクション4)。3 実体験的に、SAFEはクローズソースの人間の注釈を上回り、Min et al.(2023)からのヒトの注釈の72%に同意し、ランダムなサンプル100の不一致事例(セクション4)から不一致事例の76%を獲得します。SAFEはまたヒトの注釈よりも20倍安いです。私たちは
• 私たちは、モデル応答の長い形態の事実性を定量化する場合、F1は、人間が好む応答の「理想的」事実数を推定するハイパーパラメーターを介して使用することができることを提案します。
• LongFact (Section 6) で 4 つのモデルファミリー (Gemini, GPT, Claude, and PaLM-2) の 13 つの大きな言語モデルの幅広いベンチマークを実施します。
この論文は CC by 4.0 Deed ライセンスの下で archiv で利用できます。
♪この紙は
われわれの提案された評価方法は、答えがモデルの内部知識(幻覚)に一致するかどうかではなく、答えが外部の確立された知識(現実性)に関して事実的であるかどうかを決定することに焦点を当てているので、幻覚ではなく、事実性と事実上の誤りに焦点を当てています。
[2] GPT-4-0613 を GPT-4 に使用します。
[3] SAFE の実装では、言語モデルとして gpt-3.5-turbo-0125 と Google Search API として Serper (https://serper.dev/) を使用します。