Autores:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Os autores:
Páxinas que ligan con:(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];
(6) Tengyang Xie, Microsoft Research e correspondencia a [email protected].
Táboa de ligazóns
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Anexo
AnexoA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Algoritmo práctico – auto-enriquecemento de contraste iterativo
Neste apartado, trasladamos o noso foco ao deseño algorítmico da versión practicamente escalable de DNO, seguindo os principios discutidos na última sección.Un dos principais retos que se atopan na implementación do algoritmo conceptual DNO (algoritmo 1) provén da necesidade de calcular a expectativa con respecto á función preferente P baixo a política actual πt.
Presentamos a nosa implementación práctica de DNO no algoritmo 2 (DNO-Prct), que é un algoritmo en serie que realiza a auto-mellora iterativamente a través do aprendizaxe contrastante. Unha consideración clave no noso deseño algorítmico é que só necesitamos usar implicitamente a función de recompensa rt. Isto vén da mostraxe específica en política, a filtración de datos e a construción en par. Mentres estas opcións de deseño específicas fan que DNO-Prct pareza semellante a simplemente realizar DPO iterativamente, hai razóns significativas para estas decisións de deseño, como discutiremos a continuación.
Relación entre DNO-Prct e DPO. O lector pode discernir que DNO-Prct (Algoritmo 2) - a aplicación práctica de DNO- pode ser descrita como unha versión iterativa do algoritmo DPO. Tal similitude é por deseño, destinado a aproveitar a simplicidade e eficacia de DPO (Rafailov et al., 2023) e basearse nos avances empíricos do traballo recente que aplica DPO iterativamente (por exemplo, Yuan et al., 2024; Tran et al., 2024). Os nosos experimentos sinalan a importancia de varias opcións de deseño que axudan a acomodar as preferencias xerais, como as clasificacións derivadas de taxas de vitoria en par. Máis interesante, os nosos resultados apuntan a unha conexión sorprendente - que <>Relacións entre O noso marco algorítmico xeral -DNO (algoritmo 1)- é máis amplo e fundamentalmente diferente do DPO iterativo. Por exemplo, o marco DNO tamén podería estenderse directamente ao caso de preferencia regularizada (como se discute no Apéndice A) ou equipado con outras técnicas de mostraxe avanzadas (por exemplo, Liu et al., 2024b, RSO) como se suxire polo Teorema 1 para a eficiencia da mostra. oríxena da aprendizaxe en liña, a aprendizaxe sen arrepentimento a través da descendencia espello (Nemirovskij e Yudin, 1983) ou seguindoa regularización-líder (FTRL) (Kalai e Vempala, 2005; Cesa-Bianchi e Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO e PPO, a KL-regularización é unha aproximación para a sanción de variación total para garantir a mellora monótona da política (Kakade e Langford, 2002; Schulman et al., 2015). Máis tarde, este enfoque foi simplificado por Schulman et al. (2017, PPO), e recentemente utilizado para os LLMs post-adestramento (Ouyang et al., 2022). This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.