Nueva Historia

Cómo el aprendizaje contrastante ayuda a la IA a mejorarse

Demasiado Largo; Para Leer

Esta sección presenta DNO-Prct, una implementación práctica y escalable de Direct Nash Optimization. Aprovecha el aprendizaje iterativo contrastante —similar al DPO— pero está diseñado para el entrenamiento en serie con preferencias generales. Al usar implícitamente señales de recompensa y estructurar comparaciones en pareja, DNO-Prct permite una mejora eficiente de sí mismo y aborda el equilibrio de Nash en modelos de preferencia de IA complejos.
featured image - Cómo el aprendizaje contrastante ayuda a la IA a mejorarse
Language Models (dot tech) HackerNoon profile picture
0-item

Autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Los autores:

Los autores:

(1) Corby Rosset, Microsoft Research y Correspondencia a [email protected];

(2) Ching-An Cheng, Investigación de Microsoft;

(3) Arindam Mitra, Investigación de Microsoft;

(4) Michael Santacroce, investigador de Microsoft;

(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research y Correspondencia a [email protected].

Tabla de enlaces

Abstract and 1 Introduction

Abstract and 1 Introduction

2 Preliminaries

2 Preliminaries

2.1 RLHF Based on Reward Models

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

5.2 Results and Analysis

6 Related Work

6 Related Work

7 Conclusion and References

7 Conclusion and References


Apéndice

Apéndice

A Extension to Regularized Preferences

A Extension to Regularized Preferences

B Detailed Proofs

B Detailed Proofs

C Additional Experimental Details

C Additional Experimental Details

4 Algoritmo práctico – auto-mejora iterativa contrastada

En esta sección, nos enfocamos en el diseño algorítmico de la versión prácticamente escalable de DNO, siguiendo los principios discutidos en la última sección.Un desafío primario encontrado en la implementación del algoritmo conceptual DNO (Algoritmo 1) proviene de la necesidad de calcular la expectativa con respecto a la función de preferencia P bajo la política actual πt.


Presentamos la implementación práctica de DNO en el Algoritmo 2 (DNO-Prct), que es un algoritmo en serie que realiza la auto mejora iterativamente a través del aprendizaje contrastante. Una consideración clave en nuestro diseño algorítmico es que sólo necesitamos usar implícitamente la función de recompensa rt. Esto proviene de la muestra específicamente diseñada en la política, la filtración de datos y la construcción en pareja. Si bien estas opciones de diseño específicas hacen que DNO-Prct parezca similar a simplemente realizar DPO iterativamente, hay razones significativas para estas decisiones de diseño, como discutiremos a continuación.





Relación entre DNO-Prct y DPO. El lector puede discernir que DNO-Prct (Algoritmo 2) —la implementación práctica de DNO— puede describirse como una versión iterativa del algoritmo DPO. Tal similitud es por diseño, destinado a aprovechar la simplicidad y eficacia de DPO (Rafailov et al., 2023) y basarse en avances empíricos de un trabajo reciente que aplica DPO iterativamente (por ejemplo, Yuan et al., 2024; Tran et al., 2024). Nuestros experimentos señalan la importancia de varias opciones de diseño que ayudan a acomodar las preferencias generales, como las clasificaciones derivadas de las tasas de ganancia en pareja. Más interesante, nuestros hallazgos apuntan a una conexión sorprendente —queRelación entre y “una meticulosamente diseñada iterativa“una meticulosamente diseñada iterativaalgoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada.algoritmo" podría acercarse al equilibrio de Nash de cualquier preferencia general dada.


Nuestro marco algorítmico general —DNO (Algoritmo 1)— es más amplio y fundamentalmente diferente del DPO iterativo. Por ejemplo, el marco DNO también podría extenderse directamente al caso de preferencia regularizada (como se discute en el Apéndice A) o equipado con otras técnicas de muestreo avanzadas (por ejemplo, Liu et al., 2024b, RSO) como se sugiere por el Teorema 1 para la eficiencia de muestreo. Por otro lado, aunque la iteración de la política suave (o la optimización de la recompensa KL-regularizada) se utiliza tanto en DNO como en DPO, surgen por razones fundamentalmente diferentes.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.

Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


origen de aprendizaje en línea, aprendizaje sin arrepentirse a través de descenso en espejo (Nemirovskij y Yudin, 1983) o seguido del líder regularizado (FTRL) (Kalai y Vempala, 2005; Cesa-Bianchi y Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO y PPO, la KL-regularización es una aproximación de la sanción de variación total para garantizar la mejora monótona de la política (Kakade y Langford, 2002; Schulman et al., 2015). Más tarde, este enfoque fue simplificado por Schulman et al. (2017, PPO), y recientemente utilizado para LLMs post-entrenamiento (Ouyang et al., 2022).


This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks