Os autores:
que(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];
que(2) Ching-An Cheng, Microsoft Research
queArindam Mitra, Microsoft Research
queMichael Santacroce, investigador de Microsoft
que(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];
que(6) Tengyang Xie, Microsoft Research e Correspondencia a [email protected].
queAuthors:
(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];
(2) Ching-An Cheng, Microsoft Research;
Arindam Mitra, Microsoft Research
Michael Santacroce, investigador de Microsoft
(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];
(6) Tengyang Xie, Microsoft Research e Correspondencia a [email protected].
Mesa da esquerda
2.1 RLHF baseado en modelos de recompensa
2.2 RLHF con preferencias xerais
3 Optimización directa de Nash e 3.1 Derivación do algoritmo 1
4 Algoritmo práctico - auto-enriquecemento iterativo contrastante
5 Experimentos e 5.1 Configuración experimental
Appendix
Unha extensión ás preferencias regularizadas
C Detalles experimentais adicionais
4 Algoritmo práctico - auto-enriquecemento iterativo contrastante
Neste apartado, trasladamos o noso foco ao deseño algorítmico da versión practicamente escalable de DNO, seguindo os principios discutidos na última sección.Un dos principais retos que se atopan na implementación do algoritmo conceptual DNO (algoritmo 1) deriva da necesidade de calcular a expectativa con respecto á función preferente P baixo a política actual πt. Quizais sorprendentemente, como imos amosar, todo o que necesitamos é un algoritmo de aprendizaxe iterativo DPO-like correctamente implementado.
Presentamos a nosa implementación práctica de DNO no algoritmo 2 (DNO-Prct), que é un algoritmo en serie que realiza a auto-mellora iterativamente a través do aprendizaxe contrastante. Unha consideración clave no noso deseño algorítmico é que só necesitamos usar implicitamente a función de recompensa rt. Isto vén da mostraxe específica en política, a filtración de datos e a construción en par. Mentres estas opcións de deseño específicas fan que DNO-Prct pareza semellante a simplemente realizar DPO iterativamente, hai razóns significativas para estas decisións de deseño, como discutiremos a continuación.
Relationship betweenADN PrácticaandDPO. O lector pode discernir que DNO-Prct (algoritmo 2) - a implementación práctica de DNO- pode ser descrita como unha versión iterativa do algoritmo DPO. Tal similitude é por deseño, destinado a aproveitar a simplicidade e eficacia de DPO (Rafailov et al., 2023) e basearse nos avances empíricos do traballo recente que aplica DPO iterativamente (por exemplo, Yuan et al., 2024; Tran et al., 2024). Os nosos experimentos sinalan a importancia de varias opcións de deseño que axudan a acomodar as preferencias xerais, como as clasificacións derivadas de taxas de vitoria en par. Máis interesante, os nosos achados apuntan a unha conexión sorprendente - queUnha meticulosamente deseñada iterativaDPOAlgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.
Unha meticulosamente deseñada iterativaAlgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.
O noso marco algorítmico xeral -DNO (algoritmo 1)- é máis amplo e fundamentalmente diferente do DPO iterativo. Por exemplo, o marco DNO tamén podería estenderse directamente ao caso de preferencia regularizada (como se discute no Apéndice A) ou equipado con outras técnicas de mostraxe avanzadas (por exemplo, Liu et al., 2024b, RSO) como se suxire polo Teorema 1 para a eficiencia da mostra. Por outra banda, aínda que a iteración da política suave (ou a optimización da recompensa KL-regularizada) se usa tanto en DNO como en DPO, xorden por razóns fundamentalmente diferentes.
orixínase a partir de aprendizaxe en liña, aprendizaxe sen arrepentimento a través do espello descendente (Nemirovskij e Yudin, 1983) ou seguindo-regularized-líder (FTRL) (Kalai e Vempala, 2005; Cesa-Bianchi e Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO e PPO, a KL-regularización é unha aproximación para a penalización de variación total para garantir a mellora monótona da política (Kakade e Langford, 2002; Schulman et al., 2015). Máis tarde, este enfoque foi simplificado por Schulman et al. (2017, PPO), e recentemente usado para post-treinamento LLMs (Ouyang et al., 2022).
Este artigo está dispoñible en arquivo baixo a licenza CC BY 4.0 DEED.
queEste artigo está dispoñible en arquivo baixo a licenza CC BY 4.0 DEED.