Autores:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Los autores:
Los autores:(1) Corby Rosset, Microsoft Research y Correspondencia a [email protected];
(2) Ching-An Cheng, Investigación de Microsoft;
(3) Arindam Mitra, Investigación de Microsoft;
(4) Michael Santacroce, investigador de Microsoft;
(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];
(6) Tengyang Xie, Microsoft Research y Correspondencia a [email protected].
Tabla de enlaces
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Apéndice
ApéndiceA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Algoritmo práctico – auto-mejora iterativa contrastada
En esta sección, nos enfocamos en el diseño algorítmico de la versión prácticamente escalable de DNO, siguiendo los principios discutidos en la última sección.Un desafío primario encontrado en la implementación del algoritmo conceptual DNO (Algoritmo 1) proviene de la necesidad de calcular la expectativa con respecto a la función de preferencia P bajo la política actual πt.
Presentamos la implementación práctica de DNO en el Algoritmo 2 (DNO-Prct), que es un algoritmo en serie que realiza la auto mejora iterativamente a través del aprendizaje contrastante. Una consideración clave en nuestro diseño algorítmico es que sólo necesitamos usar implícitamente la función de recompensa rt. Esto proviene de la muestra específicamente diseñada en la política, la filtración de datos y la construcción en pareja. Si bien estas opciones de diseño específicas hacen que DNO-Prct parezca similar a simplemente realizar DPO iterativamente, hay razones significativas para estas decisiones de diseño, como discutiremos a continuación.
Relación entre DNO-Prct y DPO. El lector puede discernir que DNO-Prct (Algoritmo 2) —la implementación práctica de DNO— puede describirse como una versión iterativa del algoritmo DPO. Tal similitud es por diseño, destinado a aprovechar la simplicidad y eficacia de DPO (Rafailov et al., 2023) y basarse en avances empíricos de un trabajo reciente que aplica DPO iterativamente (por ejemplo, Yuan et al., 2024; Tran et al., 2024). Nuestros experimentos señalan la importancia de varias opciones de diseño que ayudan a acomodar las preferencias generales, como las clasificaciones derivadas de las tasas de ganancia en pareja. Más interesante, nuestros hallazgos apuntan a una conexión sorprendente —queRelación entre y “una meticulosamente diseñada iterativa“una meticulosamente diseñada iterativaalgoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada.algoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada. Nuestro marco algorítmico general —DNO (Algoritmo 1)— es más amplio y fundamentalmente diferente del DPO iterativo. Por ejemplo, el marco DNO también podría extenderse directamente al caso de preferencia regularizada (como se discute en el Apéndice A) o equipado con otras técnicas de muestreo avanzadas (por ejemplo, Liu et al., 2024b, RSO) como se sugiere por el Teorema 1 para la eficiencia de muestreo. Por otro lado, aunque la iteración de la política suave (o la optimización de la recompensa KL-regularizada) se utiliza tanto en DNO como en DPO, surgen por razones fundamentalmente diferentes. origen de aprendizaje en línea, aprendizaje sin arrepentirse a través de descenso en espejo (Nemirovskij y Yudin, 1983) o seguido del líder regularizado (FTRL) (Kalai y Vempala, 2005; Cesa-Bianchi y Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO y PPO, la KL-regularización es una aproximación de la sanción de variación total para garantizar la mejora monótona de la política (Kakade y Langford, 2002; Schulman et al., 2015). Más tarde, este enfoque fue simplificado por Schulman et al. (2017, PPO), y recientemente utilizado para LLMs post-entrenamiento (Ouyang et al., 2022). This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.