著者:
♪(1) Corby Rosset, Microsoft Research and Correspondence at [email protected]
♪(2)Ching-An Cheng、マイクロソフト研究
♪(3) Arindam Mitra、Microsoft Research
♪(4)マイケル・サンタクロース(Microsoft Research)
♪(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected]
♪(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
♪Authors:
(1) Corby Rosset, Microsoft Research and Correspondence at [email protected]
(2)Ching-An Cheng、マイクロソフト研究
(3) Arindam Mitra、Microsoft Research
(4)マイケル・サンタクロース(Microsoft Research)
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected]
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
左のテーブル
2.2 RLHF with General Preferences
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
4 実践的なアルゴリズム - Iterative Contrastive Self-Improvement
Appendix
A Extension to Regularized Preferences(規制された優先順位への拡張)
4 実践的なアルゴリズム - Iterative Contrastive Self-Improvement
このセクションでは、DNOの実質的にスケーラブルなバージョンのアルゴリズム設計に焦点を当て、最後のセクションで議論された原則に従って、概念アルゴリズムDNO(アルゴリズム1)の実装に遭遇した主な課題は、現在のポリシー πtの下で優先機能Pに対する期待を計算する必要性から生じています。
私たちはアルゴリズム2(DNO-Prct)におけるDNOの実践的な実装を紹介します。これは、対照的な学習を通じて自らを改善するためのバッチオンポリシーアルゴリズムです。私たちのアルゴリズム設計における重要な考慮事項の一つは、私たちが暗示的に報酬機能rtを使用する必要があるということです。これは、特に設計されたポリシーサンプリング、データフィルタリング、およびペア構築から来ています。これらの特定の設計選択は、DNO-Prctが単にDPOをイテラティブに実行するのと似ているように見えますが、以下で議論するように、これらの設計決定には重要な理由があります。
Relationship betweenDNO-PRCTandDPO. 読者はDNO-Prct(アルゴリズム2) - DNOの実践的実施 - は、DPOアルゴリズムのイテラティブバージョンとして記述することができることを認識することができます. この類似性は、DPOのシンプルさと効率性を活用することを目指すデザインによって、DPO(Rafailov et al., 2023)と、最近の仕事から実証的な進歩に基づいて、DPOをイテラティブに適用する(例えば、Yuan et al., 2024; Tran et al., 2024) 。 私たちの実験は、一般的な好みを満たすのに役立ついくついくつかのデザイン選択の重要性を指摘します。「A meticulously designed iterative」DPO「アルゴリズム」は、任意の一般的な好みのナッシュ均衡に近づくことができます。
「A meticulously designed iterative」「アルゴリズム」は、任意の一般的な好みのナッシュ均衡に近づくことができます。
私たちの一般的なアルゴリズムフレームワークDNO(アルゴリズム1)は、イテラティブDPOとはより広く、根本的に異なります。例えば、DNOフレームワークはまた、規則化された優先事項ケース(附属書Aで議論されたように)に直接拡張されるか、または他の高度なサンプルテクニック(例えば、Liu et al., 2024b, RSO)を装備することもできます。 Theorem1がサンプル効率を推奨するように。
オンライン学習、鏡の下り(Nemirovskij and Yudin, 1983)を通じて後悔しない学習(Kalai and Vempala, 2005; Cesa-Bianchi and Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016)から生まれる。 DPOとPPOのためのKL規制は、政策の単調な改善を確保するための総変動罰則の近似である(Kakade and Langford, 2002; Schulman et al., 2015)。
この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。
♪この紙はARCHIV で利用可能CC BY 4.0 DEED ライセンス