Authors:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Els autors:
Títol de l'obra:(1) Corby Rosset, Microsoft Research and Correspondence a [email protected];
(2) Ching-An Cheng, Recerca de Microsoft;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, director de Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research i Correspondència a [email protected];
(6) Tengyang Xie, Microsoft Research i correspondència a [email protected].
Tabella d'enllaços
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Anàlisi
A Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Algoritme pràctic - Iterativa de l'auto-millora contrastada
En aquesta secció, ens centrem en el disseny algorítmic de la versió pràcticament escalable de DNO, seguint els principis tractats en l'última secció.Un dels principals reptes que ens trobem en la implementació de l'algorisme conceptual DNO (algorisme 1) prové de la necessitat de calcular l'expectativa respecte a la funció de preferència P sota la política actual πt. Potser sorprenentment, com mostrarem, tot el que necessitem és un algoritme d'aprenentatge iteratiu com DPO correctament implementat.
Presentem la nostra implementació pràctica de DNO en l'Algoritme 2 (DNO-Prct), que és un algorisme en batxillerat que realitza l'auto-millora iterativament a través de l'aprenentatge contrastant. Una consideració clau en el nostre disseny algorítmic és que només hem d'utilitzar implícitament la funció de recompensa rt. Això prové del mostreig específicament dissenyat en la política, la filtració de dades i la construcció de parells. Encara que aquestes opcions de disseny específiques fan que DNO-Prct sembli similar a simplement executar DPO iterativament, hi ha raons significatives per a aquestes decisions de disseny, com discutirem a continuació.
Relació entre DNO-Prct i DPO. El lector pot discernir que DNO-Prct (Algoritme 2) —la implementació pràctica de DNO— es pot descriure com una versió iterativa de l'algorisme DPO. Aquesta similitud és per disseny, destinat a aprofitar la simplicitat i l'eficàcia de DPO (Rafailov et al., 2023) i basar-se en els avenços empírics del treball recent que aplica DPO iterativament (per exemple, Yuan et al., 2024; Tran et al., 2024). Els nostres experiments apunten a la importància de diverses opcions de disseny que ajuden a adaptar les preferències generals, com ara els rànquings derivats de les taxes de victòria en parRelació entre«Fort» i «Fort»“una iterativa meticulosament dissenyada“una iterativa meticulosament dissenyadaalgoritme" podria apropar-se a l'equilibri de Nash de qualsevol dada preferència general.algoritme" podria apropar-se a l'equilibri de Nash de qualsevol dada preferència general. El nostre marc algorítmic general —DNO (Algorisme 1)— és més ampli i fonamentalment diferent del DPO iteratiu. Per exemple, el marc DNO també es podria estendre directament al cas de preferència regularitzada (com es discuteix en l'Anex A) o equipat amb altres tècniques de mostreig avançades (per exemple, Liu et al., 2024b, RSO) com suggereix el Teorema 1 per a l'eficiència de la mostra. D'altra banda, tot i que la iteració de la política suau (o l'optimització de la recompensa KL-regularitzada) s'utilitza tant en DNO com en DPO, sorgeixen per raons fonamentalment diferents. origen de l'aprenentatge en línia, l'aprenentatge sense remordiments a través de la descendència en mirall (Nemirovskij i Yudin, 1983) o el seguiment del líder regularitzat (FTRL) (Kalai i Vempala, 2005; Cesa-Bianchi i Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Per a DPO i PPO, la KL-regularització és una aproximació de la penalització de variació total per assegurar una millora monòtona de la política (Kakade i Langford, 2002; Schulman et al., 2015). Més tard, aquest enfocament va ser simplificat per Schulman et al. (2017, PPO), i recentment utilitzat per a LLMs post-entrenament (Ouyang et This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.