Como o aprendizaxe contrastante axuda a AI a mellorarse

Autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Os autores:

Páxinas que ligan con:

(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research e correspondencia a [email protected].

Táboa de ligazóns

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Anexo

Anexo A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
4 Algoritmo práctico – auto-enriquecemento de contraste iterativo
Neste apartado, trasladamos o noso foco ao deseño algorítmico da versión practicamente escalable de DNO, seguindo os principios discutidos na última sección.Un dos principais retos que se atopan na implementación do algoritmo conceptual DNO (algoritmo 1) provén da necesidade de calcular a expectativa con respecto á función preferente P baixo a política actual πt.

Presentamos a nosa implementación práctica de DNO no algoritmo 2 (DNO-Prct), que é un algoritmo en serie que realiza a auto-mellora iterativamente a través do aprendizaxe contrastante. Unha consideración clave no noso deseño algorítmico é que só necesitamos usar implicitamente a función de recompensa rt. Isto vén da mostraxe específica en política, a filtración de datos e a construción en par. Mentres estas opcións de deseño específicas fan que DNO-Prct pareza semellante a simplemente realizar DPO iterativamente, hai razóns significativas para estas decisións de deseño, como discutiremos a continuación.

Relación entre DNO-Prct e DPO. O lector pode discernir que DNO-Prct (Algoritmo 2) - a aplicación práctica de DNO- pode ser descrita como unha versión iterativa do algoritmo DPO. Tal similitude é por deseño, destinado a aproveitar a simplicidade e eficacia de DPO (Rafailov et al., 2023) e basearse nos avances empíricos do traballo recente que aplica DPO iterativamente (por exemplo, Yuan et al., 2024; Tran et al., 2024). Os nosos experimentos sinalan a importancia de varias opcións de deseño que axudan a acomodar as preferencias xerais, como as clasificacións derivadas de taxas de vitoria en par. Máis interesante, os nosos resultados apuntan a unha conexión sorprendente - que <>Relacións entre e“unha meticulosamente deseñada iterativa“unha meticulosamente deseñada iterativaalgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.O algoritmo podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.

O noso marco algorítmico xeral -DNO (algoritmo 1)- é máis amplo e fundamentalmente diferente do DPO iterativo. Por exemplo, o marco DNO tamén podería estenderse directamente ao caso de preferencia regularizada (como se discute no Apéndice A) ou equipado con outras técnicas de mostraxe avanzadas (por exemplo, Liu et al., 2024b, RSO) como se suxire polo Teorema 1 para a eficiencia da mostra.

oríxena da aprendizaxe en liña, a aprendizaxe sen arrepentimento a través da descendencia espello (Nemirovskij e Yudin, 1983) ou seguindoa regularización-líder (FTRL) (Kalai e Vempala, 2005; Cesa-Bianchi e Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO e PPO, a KL-regularización é unha aproximación para a sanción de variación total para garantir a mellora monótona da política (Kakade e Langford, 2002; Schulman et al., 2015). Máis tarde, este enfoque foi simplificado por Schulman et al. (2017, PPO), e recentemente utilizado para os LLMs post-adestramento (Ouyang et al., 2022).

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv

Como o aprendizaxe contrastante axuda a AI a mellorarse

Demasiado longo; Ler

Táboa de ligazóns

4 Algoritmo práctico – auto-enriquecemento de contraste iterativo

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

Como o aprendizaxe contrastante axuda a AI a mellorarse

Demasiado longo; Ler

Táboa de ligazóns

4 Algoritmo práctico – auto-enriquecemento de contraste iterativo

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics