Cómo el aprendizaje contrastante ayuda a la IA a mejorarse

Autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Los autores:

(1) Corby Rosset, Microsoft Research y Correspondencia a [email protected];

(2) Ching-An Cheng, Investigación de Microsoft;

(3) Arindam Mitra, Investigación de Microsoft;

(4) Michael Santacroce, investigador de Microsoft;

(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research y Correspondencia a [email protected].

Tabla de enlaces

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Apéndice

Apéndice A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
4 Algoritmo práctico – auto-mejora iterativa contrastada
En esta sección, nos enfocamos en el diseño algorítmico de la versión prácticamente escalable de DNO, siguiendo los principios discutidos en la última sección.Un desafío primario encontrado en la implementación del algoritmo conceptual DNO (Algoritmo 1) proviene de la necesidad de calcular la expectativa con respecto a la función de preferencia P bajo la política actual πt.

Presentamos la implementación práctica de DNO en el Algoritmo 2 (DNO-Prct), que es un algoritmo en serie que realiza la auto mejora iterativamente a través del aprendizaje contrastante. Una consideración clave en nuestro diseño algorítmico es que sólo necesitamos usar implícitamente la función de recompensa rt. Esto proviene de la muestra específicamente diseñada en la política, la filtración de datos y la construcción en pareja. Si bien estas opciones de diseño específicas hacen que DNO-Prct parezca similar a simplemente realizar DPO iterativamente, hay razones significativas para estas decisiones de diseño, como discutiremos a continuación.

Relación entre DNO-Prct y DPO. El lector puede discernir que DNO-Prct (Algoritmo 2) —la implementación práctica de DNO— puede describirse como una versión iterativa del algoritmo DPO. Tal similitud es por diseño, destinado a aprovechar la simplicidad y eficacia de DPO (Rafailov et al., 2023) y basarse en avances empíricos de un trabajo reciente que aplica DPO iterativamente (por ejemplo, Yuan et al., 2024; Tran et al., 2024). Nuestros experimentos señalan la importancia de varias opciones de diseño que ayudan a acomodar las preferencias generales, como las clasificaciones derivadas de las tasas de ganancia en pareja. Más interesante, nuestros hallazgos apuntan a una conexión sorprendente —queRelación entre y “una meticulosamente diseñada iterativa“una meticulosamente diseñada iterativaalgoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada.algoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada.

Nuestro marco algorítmico general —DNO (Algoritmo 1)— es más amplio y fundamentalmente diferente del DPO iterativo. Por ejemplo, el marco DNO también podría extenderse directamente al caso de preferencia regularizada (como se discute en el Apéndice A) o equipado con otras técnicas de muestreo avanzadas (por ejemplo, Liu et al., 2024b, RSO) como se sugiere por el Teorema 1 para la eficiencia de muestreo. Por otro lado, aunque la iteración de la política suave (o la optimización de la recompensa KL-regularizada) se utiliza tanto en DNO como en DPO, surgen por razones fundamentalmente diferentes.

origen de aprendizaje en línea, aprendizaje sin arrepentirse a través de descenso en espejo (Nemirovskij y Yudin, 1983) o seguido del líder regularizado (FTRL) (Kalai y Vempala, 2005; Cesa-Bianchi y Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO y PPO, la KL-regularización es una aproximación de la sanción de variación total para garantizar la mejora monótona de la política (Kakade y Langford, 2002; Schulman et al., 2015). Más tarde, este enfoque fue simplificado por Schulman et al. (2017, PPO), y recientemente utilizado para LLMs post-entrenamiento (Ouyang et al., 2022).

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv

Cómo el aprendizaje contrastante ayuda a la IA a mejorarse

Demasiado Largo; Para Leer

Tabla de enlaces

4 Algoritmo práctico – auto-mejora iterativa contrastada

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

Cómo el aprendizaje contrastante ayuda a la IA a mejorarse

Demasiado Largo; Para Leer

Tabla de enlaces

4 Algoritmo práctico – auto-mejora iterativa contrastada

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics