Nova historia

Como o aprendizaxe contrastante axuda a AI a mellorarse

Demasiado longo; Ler

Esta sección introduce DNO-Prct, unha implementación práctica e escalable de Direct Nash Optimization. Aproveita o aprendizaxe contrastante iterativo - semellante ao DPO - pero está deseñado para o adestramento en serie con preferencias xerais. Ao usar implícitamente sinais de recompensa e estruturar comparacións en pares, DNO-Prct permite unha auto-enriquecemento eficiente e aborda o equilibrio de Nash en modelos de preferencia de IA complexos.
featured image - Como o aprendizaxe contrastante axuda a AI a mellorarse
Language Models (dot tech) HackerNoon profile picture
0-item

Autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Os autores:

Páxinas que ligan con:

(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research e correspondencia a [email protected].

Táboa de ligazóns

Abstract and 1 Introduction

Abstract and 1 Introduction

2 Preliminaries

2 Preliminaries

2.1 RLHF Based on Reward Models

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

5.2 Results and Analysis

6 Related Work

6 Related Work

7 Conclusion and References

7 Conclusion and References


Anexo

Anexo

A Extension to Regularized Preferences

A Extension to Regularized Preferences

B Detailed Proofs

B Detailed Proofs

C Additional Experimental Details

C Additional Experimental Details

4 Algoritmo práctico – auto-enriquecemento de contraste iterativo

Neste apartado, trasladamos o noso foco ao deseño algorítmico da versión practicamente escalable de DNO, seguindo os principios discutidos na última sección.Un dos principais retos que se atopan na implementación do algoritmo conceptual DNO (algoritmo 1) provén da necesidade de calcular a expectativa con respecto á función preferente P baixo a política actual πt.


Presentamos a nosa implementación práctica de DNO no algoritmo 2 (DNO-Prct), que é un algoritmo en serie que realiza a auto-mellora iterativamente a través do aprendizaxe contrastante. Unha consideración clave no noso deseño algorítmico é que só necesitamos usar implicitamente a función de recompensa rt. Isto vén da mostraxe específica en política, a filtración de datos e a construción en par. Mentres estas opcións de deseño específicas fan que DNO-Prct pareza semellante a simplemente realizar DPO iterativamente, hai razóns significativas para estas decisións de deseño, como discutiremos a continuación.





Relación entre DNO-Prct e DPO. O lector pode discernir que DNO-Prct (Algoritmo 2) - a aplicación práctica de DNO- pode ser descrita como unha versión iterativa do algoritmo DPO. Tal similitude é por deseño, destinado a aproveitar a simplicidade e eficacia de DPO (Rafailov et al., 2023) e basearse nos avances empíricos do traballo recente que aplica DPO iterativamente (por exemplo, Yuan et al., 2024; Tran et al., 2024). Os nosos experimentos sinalan a importancia de varias opcións de deseño que axudan a acomodar as preferencias xerais, como as clasificacións derivadas de taxas de vitoria en par. Máis interesante, os nosos resultados apuntan a unha conexión sorprendente - que <>Relacións entre e“unha meticulosamente deseñada iterativa“unha meticulosamente deseñada iterativaalgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.O algoritmo podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.


O noso marco algorítmico xeral -DNO (algoritmo 1)- é máis amplo e fundamentalmente diferente do DPO iterativo. Por exemplo, o marco DNO tamén podería estenderse directamente ao caso de preferencia regularizada (como se discute no Apéndice A) ou equipado con outras técnicas de mostraxe avanzadas (por exemplo, Liu et al., 2024b, RSO) como se suxire polo Teorema 1 para a eficiencia da mostra.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.

Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


oríxena da aprendizaxe en liña, a aprendizaxe sen arrepentimento a través da descendencia espello (Nemirovskij e Yudin, 1983) ou seguindoa regularización-líder (FTRL) (Kalai e Vempala, 2005; Cesa-Bianchi e Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO e PPO, a KL-regularización é unha aproximación para a sanción de variación total para garantir a mellora monótona da política (Kakade e Langford, 2002; Schulman et al., 2015). Máis tarde, este enfoque foi simplificado por Schulman et al. (2017, PPO), e recentemente utilizado para os LLMs post-adestramento (Ouyang et al., 2022).


This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks