Els autors:
El(1) Corby Rosset, Microsoft Research i Correspondència a [email protected];
El(2) Ching-An Cheng, de Microsoft Research;
ElArindam Mitra, de Microsoft Research
ElMichael Santacroce, director de Microsoft Research
El(5) Ahmed Awadallah, Microsoft Research i Correspondència a [email protected];
El(6) Tengyang Xie, Microsoft Research i Correspondència a [email protected].
Authors:
(1) Corby Rosset, Microsoft Research i Correspondència a [email protected];
(2) Ching-An Cheng, de Microsoft Research;
Arindam Mitra, de Microsoft Research
Michael Santacroce, director de Microsoft Research
(5) Ahmed Awadallah, Microsoft Research i Correspondència a [email protected];
(6) Tengyang Xie, Microsoft Research i Correspondència a [email protected].
Taula de l'esquerra
2.1 RLHF basat en models de recompensa
2.2 RLHF amb preferències generals
3 Optimització directa de Nash i 3.1 Derivació d'algoritme 1
4 Algoritme pràctic - Iterativa de l'auto-millora contrastant
5 Experiments i 5.1 Configuració experimental
Appendix
Una extensió a les preferències regularitzades
C Detalls experimentals addicionals
4 Algoritme pràctic - Iterativa de l'auto-millora contrastant
En aquesta secció, ens centrem en el disseny algorítmic de la versió pràcticament escalable de DNO, seguint els principis tractats en l'última secció.Un dels principals reptes que ens trobem en la implementació de l'algorisme conceptual DNO (algorisme 1) prové de la necessitat de calcular l'expectativa respecte a la funció de preferència P sota la política actual πt. Potser sorprenentment, com mostrarem, tot el que necessitem és un algoritme d'aprenentatge iteratiu com DPO correctament implementat.
Presentem la nostra implementació pràctica de DNO en l'Algoritme 2 (DNO-Prct), que és un algoritme en batxillerat que realitza l'auto-millora iterativament a través de l'aprenentatge contrastant. Una consideració clau en el nostre disseny algorítmic és que només necessitem utilitzar implícitament la funció de recompensa rt. Això prové de la mostreig específicament dissenyada en la política, la filtració de dades i la construcció de parells. Mentre que aquestes opcions de disseny específiques fan que DNO-Prct sembli similar a simplement executar DPO iterativament, hi ha raons significatives per a aquestes decisions de disseny, com discutirem a continuació.
Relationship betweenPràcticaandDPO. El lector pot discernir que DNO-Prct (Algoritme 2) —la implementació pràctica de DNO— es pot descriure com una versió iterativa de l'algorisme DPO. Aquesta similitud és per disseny, destinat a aprofitar la simplicitat i l'eficàcia de DPO (Rafailov et al., 2023) i basar-se en els avenços empírics del treball recent que aplica DPO iterativament (per exemple, Yuan et al., 2024; Tran et al., 2024). Els nostres experiments apunten a la importància de diverses opcions de disseny que ajuden a satisfer les preferències generals, com ara els rànquings derivats de les taxes de guany en parella. Més interessant, els nostres resultats apunten a una connexió sorprenentUna meticulosament dissenyada iterativaDPOL'algoritme pot apropar-se a l'equilibri de Nash de qualsevol preferència general donada.
Una meticulosament dissenyada iterativaL'algoritme pot apropar-se a l'equilibri de Nash de qualsevol preferència general donada.
El nostre marc algorítmic general -DNO (Algoritme 1)- és més ampli i fonamentalment diferent del DPO iteratiu. Per exemple, el marc DNO també es podria estendre directament al cas de preferència regularitzada (com es discuteix en l'Anex A) o equipat amb altres tècniques de mostreig avançades (per exemple, Liu et al., 2024b, RSO) com suggereix el Teorema 1 per a l'eficiència de la mostra. D'altra banda, tot i que la iteració de la política suau (o l'optimització de la recompensa KL-regularitzada) s'utilitza tant en DNO com en DPO, sorgeixen per raons fonamentalment diferents.
s'origina de l'aprenentatge en línia, l'aprenentatge sense remordiments a través de la descendència mirall (Nemirovskij i Yudin, 1983) o seguint-regularized-líder (FTRL) (Kalai i Vempala, 2005; Cesa-Bianchi i Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Per a DPO i PPO, la KL-regularització és una aproximació de la penalització de variació total per assegurar la millora monòtona de la política (Kakade i Langford, 2002; Schulman et al., 2015). Més tard, aquest enfocament va ser simplificat per Schulman et al. (2017, PPO), i recentment utilitzat per LLMs post-entrenament (Ouyang et al.,
Aquest document està disponible en arxiu sota la llicència CC BY 4.0 DEED.
ElAquest paper ésDisponible a l'Arxiusota la llicència CC BY 4.0 DEED.