Autori:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Autori:
Cuvânt cheie:(1) Corby Rosset, Microsoft Research și corespondență la [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];
(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].
Tabelul de legături
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Anexă
AnexăA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă
În această secțiune, ne îndreptăm atenția spre proiectarea algoritmică a versiunii practic scalabile a DNO, urmând principiile discutate în ultima secțiune.O provocare primară întâlnită în implementarea algoritmului conceptual DNO (Algorithm 1) rezultă din necesitatea de a calcula așteptarea în ceea ce privește funcția de preferință P în cadrul politicii actuale πt.
Ne prezentăm implementarea practică a DNO în Algorithm 2 (DNO-Prct), care este un algoritm batch-on-policy care efectuează auto-îmbunătățire iterativ prin învățare contrastantă. Una dintre considerentele cheie în designul nostru algoritmic este că trebuie doar să folosim implicit funcția de recompensă rt. Acest lucru provine din eșantionarea specifică pe politică, filtrarea datelor și construcția de perechi.În timp ce aceste alegeri specifice de proiectare fac ca DNO-Prct să pară similar cu pur și simplu efectuarea DPO iterativ, există motive semnificative pentru aceste decizii de proiectare, așa cum vom discuta mai jos.
Relația dintre DNO-Prct și DPO. Cititorul poate discerne că DNO-Prct (Algorithm 2) – implementarea practică a DNO – poate fi descrisă ca o versiune iterativă a algoritmului DPO. Această asemănare este prin design, destinată să valorifice simplitatea și eficacitatea DPO (Rafailov et al., 2023) și să se bazeze pe progresele empirice din lucrările recente care aplică DPO iterativ (de exemplu, Yuan et al., 2024; Tran et al., 2024). Experimentele noastre indică importanța mai multor alegeri de design care ajută la adaptarea preferințelor generale, cum ar fi clasamentele derivate din ratele câștigătoare în pereche. Mai interesant, concluziile noastreRelația dintre și“o iterativă meticulos concepută“o iterativă proiectată meticulosalgoritmul” ar putea aborda echilibrul Nash al oricărei preferințe generale date.algoritmul" ar putea aborda echilibrul Nash al oricărei preferințe generale date. Cadrul nostru algorithmic general – DNO (Algorithm 1) – este mai larg și fundamental diferit de DPO iterativ. De exemplu, cadrul DNO ar putea fi, de asemenea, extins direct la cazul de preferință regularizat (așa cum este discutat în apendicele A) sau echipat cu alte tehnici avansate de eșantionare (de exemplu, Liu et al., 2024b, RSO) așa cum sugerează Teorema 1 pentru eficiența eșantionării. Pe de altă parte, deși iterarea soft policy (sau optimizarea recompenselor KL-regularizate) este utilizată atât în DNO, cât și în DPO, ele apar din motive fundamental diferite. are originea din învățarea online, învățarea fără regret prin intermediul descendenței în oglindă (Nemirovskij și Yudin, 1983) sau urmarea-regularizată-lider (FTRL) (Kalai și Vempala, 2005; Cesa-Bianchi și Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Pentru DPO și PPO, KL-regularizarea este o aproximație a penalității totale de variație pentru a asigura îmbunătățirea monotonă a politicii (Kakade și Langford, 2002; Schulman et al., 2015). Mai târziu, această abordare a fost simplificată de Schulman et al. (2017, PPO), și utilizată recent pentru LLM-urile post-formare (Ouyang et al., 2022 This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.