Auteurs:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Auteurs:
(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];
(2) Ching-An Cheng, Microsoft Navorsing;
(3) Arindam Mitra, Microsoft Navorsing;
(4) Michael Santacroce, Microsoft Navorsing;
(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];
(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].
Tabel van Links
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Behandeling
A Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Praktiese algoritme – iteratiewe kontrastiewe selfverbetering
In hierdie afdeling verskuif ons ons fokus na die algoritmiese ontwerp van die feitlik skaalbare weergawe van DNO, volgens die beginsels wat in die laaste afdeling bespreek is. 'n Primêre uitdaging wat in die implementering van die konseptuele algoritme DNO (Algorithm 1) ontmoet, kom van die behoefte om die verwagting te bereken ten opsigte van die voorkeurfunksie P onder die huidige beleid πt.
Ons bied ons die praktiese implementering van DNO in Algoritme 2 (DNO-Prct), wat 'n batch-on-policy-algoritme is wat selfverbetering iteratief deur middel van kontrastiewe leer verrig. Een sleutel oorweging in ons algoritmiese ontwerp is dat ons slegs die beloningsfunksie rt implisiet moet gebruik. Dit kom van die spesiaal ontwerp op beleid samestelling, data filtering en paarbestelling. Terwyl hierdie spesifieke ontwerpkeuses DNO-Prct soortgelyk maak aan eenvoudig DPO iteratief uit te voer, is daar aansienlike redes vir hierdie ontwerpbesluite, soos ons hieronder sal bespreek.
Verhouding tussen DNO-Prct en DPO. Die leser kan onderskei dat DNO-Prct (Algorithm 2)—die praktiese implementering van DNO—kan beskryf word as 'n iteratiewe weergawe van die DPO-algoritme. Hierdie ooreenkoms is deur ontwerp, bedoel om die eenvoud en doeltreffendheid van DPO te benut (Rafailov et al., 2023) en bou op empiriese vorderings uit onlangse werk wat DPO iteratief toepas (bv. Yuan et al., 2024; Tran et al., 2024). Ons eksperimente dui op die belangrikheid van verskeie ontwerpkeure wat help om die algemene voorkeure aan te pas, soos rangordeel afkomstig van paartjie-winsVerhouding tussen Ons algemene algoritmiese raamwerk—DNO (algoritme 1)—is breër en fundamenteel anders as iteratiewe DPO. Byvoorbeeld, die DNO raamwerk kan ook direk uitgebrei word na die geregulariseerde voorkeur geval (soos bespreek in Aanhangsel A) of toegerus met ander gevorderde steekproef tegnieke (bv, Liu et al., 2024b, RSO) soos voorgestel deur Theorem 1 vir steekproef doeltreffendheid. Aan die ander kant, hoewel die sagte beleid iterasie (of die KL-regularized beloning optimalisering) gebruik word in beide DNO en DPO, ontstaan hulle uit fundamenteel verskillende redes. gebaseer op aanlynleren, geen spyt leer deur spieël afkoms (Nemirovskij en Yudin, 1983) of volg-regularized-leader (FTRL) (Kalai en Vempala, 2005; Cesa-Bianchi en Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Vir DPO en PPO, die KL-regularization is 'n benadering vir die totale variasie boete om monotone verbetering van die beleid te verseker (Kakade en Langford, 2002; Schulman et al., 2015). Later, hierdie benadering is vereenvoudig deur Schulman et al. (2017, PPO), en onlangs gebruik vir post-opleiding LLMs (Ouyang et al., 2022). This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.