著者:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
著者:
著者:(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) アリンダム・ミトラ、Microsoft Research;
(4)マイケル・サンタクロース、Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Table of Links
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Appendix
AppendixA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details抽象
これらのアルプシウムは、アルプシウムの効果的な研究を含む、この論文は、トレーニング後の大規模な言語モデル(LLMs)を使用して、強力なオラクルから好みのフィードバックを助けるために、効果的なアプローチを提供します。 AI トレーニング後の LLMsの典型的なアプローチは、人間のフィードバックからの強化学習またはサイクリックな好みの関係から強化学習(RLHF)を含むが、伝統的に報酬学習とその後の政策の最適化を分離しています。しかし、このような報酬最大化アプローチは、自分自身のための「ポイント方向」のコミュニティ賞の性質によって制限されています(ブラッドリー・テリーモデルの
1 Introduction
人工知能の分野は、理解し、推論し、複雑な指示に従って、人類の価値観と好みと調和しながら、細かいコンテンツを作成することができる高度なモデルに向かって進化しています。 大きい言語モデル(LLMs)(例えば、Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023)は、人間の反応からの強化学習(HRLF)を使用して、これらの課題に対処するために(Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 2022)LLMsは、人間の価値観と調和することによってLLMsをより有用にするための強力な可能性を示しています。
The single RLHF framework has long been studied in the context of preference-based reinforcement learning (RL) or RL from human preferences (e.g., Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). RLHFのための従来の方法は、通常、優先度は、いくつかのモデルを通じてスカラールな報酬機能によって決定されていると仮定します(例えば、よく使用されるブラッドリー・テリー(BT)モデル(Bradley and Terry, 1952).[1] RLHFは、その後、優先度に向かって2ステップの手順で最適化します:報酬学習、政策の最適化(RLを通じて)学んだ報酬を最大
The reward maximization framing poses a major limitation. Reward functions, defined to output a scalar score r(x, y) for a single response y to input x, cannot express general preferences y y ′ x between a pair of outputs in all cases, e.g., intransitive or cyclic preferences (Elo, 1978). Therefore, LLMs trained under reward maximization cannot always align with human preference. Furthermore, recent works show that even in settings where preferences can be perfectly expressed under the reward-based BT models, optimizing towards rewards yields problematic behaviors; we refer the reader to Bertrand et al. (2023); Azar et al. (2023); Munos et al. (2023) for more details. 最後に、
我々は、報酬ベースのRLHFの限られた表現力と、一般的な好みに関して最適化を拡大する方法についての明確性の欠如の2つの別々の課題を克服するために動機づけられている。
We propose a provenable and scalable RLHF algorithm – Direct Nash Optimization (DNO) (アルゴリズム1) that achieves the best of both worlds, combining the scalability of contrastive objectives with the theoretical soundness of general preference optimization. DNO is designed as a batched on-policy algorithm with a regression-based learning objective; this design choice makes DNO stable and scalable, striking a balance between deployment efficiency and adaptability. DNO は、一般的な優先順位の最適化の理論的なスケーラビリティを組み合わせ、両方の世界の最適性を達成します。Direct Nash OptimizationDirect Nash Optimization
We summarize at a high level the key ingredients and insights of DNO below.
to address the problem that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of should be expressed as expected win-rates with regard to a general preference function.[2]
to address the problem found in previous work that optimizing this more general objective with online algorithms is sample-inefficient or unstable, we align the "internal reward function" of the policy to a sequence of "batched on-policy" iterations, in which each step instead optimizes a simple regression objective.
報酬関数が一般的な好みを表すことができないという問題に対処するために、我々は報酬の概念が一般的な好み関数に関して期待される勝利率として表現されるべきであるという最近の洞察を活用する。
報酬関数が一般的な好みを表すことができないという問題に対処するために、我々は報酬の概念が一般的な好み関数に関連して期待される勝利率として表現されるべきであるという最近の洞察を活用する。
オンラインアルゴリズムでこのより一般的な目標を最適化することはサンプル非効率的または不安定であるという以前の研究で発見された問題を解決するために、私たちは学習手順を「パッチオンポリシー」イテレーションの連続に分解し、それぞれのステップが代わりに単純な回帰目標を最適化します。
オンラインアルゴリズムでこのより一般的な目標を最適化することはサンプル非効率的または不安定であるという以前の研究で発見された問題に対処するために、私たちは学習手順を「パッチオンポリシー」イテレーションの連続に分解し、それぞれのステップが代わりに単純な回帰目標を最適化します。
回帰目標(我々はバイナリークロスエントロピーを選ぶ)は、政策の「内部報酬機能」を自己(アルゴリズム1の3行で定義されている)に比べて予想される勝率に調和させる。
回帰目標(我々はバイナリークロスエントロピーを選択する)は、政策の「内部報酬機能」を自己(アルゴリズム1の3行で定義されている)に比べて予想される勝率に調和させます。
当社のフレームワークは、政策外のサンプルをトレーニングに認めるのに十分に一般的であり、重要なのは、より強力な教師からのサンプルである(アルゴリズム1の μ1と μ2の選択を参照)。
Our framework is general enough to admit off-policy samples into training, importantly, those from a more powerful teacher (See choice of µ1 and µ2 in Algorithm 1).
さらに、安定性と計算効率を確保するために、我々は、報酬回帰が十分に大きなマージンを持つ優遇ペアにのみ実行されるように、フィルタリングシステムを提案する(理論的説明については、第4項を参照し、実践では、第5.2項を参照)。
さらに、安定性と計算効率を確保するために、我々は、報酬回帰が十分に大きなマージンを持つ優先度のペアにのみ実行されるように、フィルタリングシステムを提案する(理論的説明については、第4項を参照し、実践では、第5.2項を参照してください)。
DNO repeats this procedure for multiple iterations to let the policy optimize toward the general preference. Since each step involves a regression problem it can be easily implemented at scale.
DNO repeats this procedure for multiple iterations to let the policy optimize toward the general preference. Since each step involves a regression problem it can be easily implemented at scale.
Theoretically, we prove DNO converges to the intended Nash equilibrium on average, and that it can improve monotonously across iterations (see Section 3.1). Furthermore, our finite-sample analysis shows that approximation error at any iteration between the learned policy and the target is tightly bounded (Theorem 1).
On the practical side, we provide a scalable implementation of DNO (Algorithm 2): an iterative self-improving algorithm with contrastive updates, which approximates Algorithm 1 under several critical design choices. Those choices include: sampling multiple online outputs from the policy being trained, using GPT-4 as the preference oracle, comparing onpolicy samples to GPT-4’s own (teacher) outputs, and training only on pairs with “large margin” (for theoretical explanation, see Section 4; in practice, see Section 5.2).
The primary distinction of our work over related works of Nash-MD (Munos et al., 2023) and SPO (Swamy et al., 2024) is that they both exhibit sample efficiency issues (two timescale updates or sample-inefficient RL steps), and both use purely on-policy samples. We resolve the efficiency issue with a sample-efficient objective that works in practice, and DNO is more flexible to incorporate off-policy samples from e.g., a powerful teacher.
Most importantly, DNO works in practice – we provide comprehensive empirical evaluations, resulting in state-of-the-art performance:
• 結果の7BパラメータOrca-2.5モデルは、DNO(アルゴリズム2)の実用的な実装を使用して調節され、AlpacaEval 2.0でGPT-4-Turboに比べて33%を超え、アルパカエヴァル 2.0で、長さを制御した後でさえ、すべての7Bモデルの最先端の勝利率を達成します。これは、初期化モデルと比べて26%以上の絶対的な利益(7%→33%)です。
• セクション 5.2 で私たちの徹底的な除去研究は、損失機能の選択(監督されたフィンタントニングまたは対照)、トレーニングパラダイム(ポリシー上のサンプルが含まれているか無し)、好みの注釈品質(大きなマージンまたは無し)およびトレーニングカップル構築(自己プレイ、教師対学生など)をめぐる重要な設計のタッチポイントを調べています。
• 我々は、より良い色合いの問題と推測的な質問(表5)に対処し、より良い組織性と明確性、間違った発言を控えながら(表6)、およびより高い情報密度の答え(表7)などの質的改善を示す回復のいくつかの例を示します。
我々は、ここで提示された結果が、トレーニング後のLLMのためのAIフィードバックの使用に関するコミュニティに明確性を提供することを希望する。
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv[1] われわれは「報酬モデル」を用いて、好みを報酬に変換するフレームワークを指す一方で、「報酬関数」は報酬スカラルを生成する(学習可能な)関数である。