Como o aprendizaxe contrastante axuda a AI a mellorarse

que

Os autores:

que

(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];

que

(2) Ching-An Cheng, Microsoft Research

que

Arindam Mitra, Microsoft Research

que

Michael Santacroce, investigador de Microsoft

que

(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];

que

(6) Tengyang Xie, Microsoft Research e Correspondencia a [email protected].

que

Authors:

(1) Corby Rosset, Microsoft Research e Correspondencia a [email protected];

(2) Ching-An Cheng, Microsoft Research;

Arindam Mitra, Microsoft Research

Michael Santacroce, investigador de Microsoft

(5) Ahmed Awadallah, Microsoft Research e Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research e Correspondencia a [email protected].

Mesa da esquerda

Abstracto e 1 introdución

2 Preliminares

2.1 RLHF baseado en modelos de recompensa

2.2 RLHF con preferencias xerais

3 Optimización directa de Nash e 3.1 Derivación do algoritmo 1

3.2 Análise teórica

4 Algoritmo práctico - auto-enriquecemento iterativo contrastante

5 Experimentos e 5.1 Configuración experimental

5.2 Resultados e análise

6 Traballos relacionados

7 Conclusións e referencias

Appendix

Unha extensión ás preferencias regularizadas

b) Probas detalladas

C Detalles experimentais adicionais

4 Algoritmo práctico - auto-enriquecemento iterativo contrastante

Neste apartado, trasladamos o noso foco ao deseño algorítmico da versión practicamente escalable de DNO, seguindo os principios discutidos na última sección.Un dos principais retos que se atopan na implementación do algoritmo conceptual DNO (algoritmo 1) deriva da necesidade de calcular a expectativa con respecto á función preferente P baixo a política actual πt. Quizais sorprendentemente, como imos amosar, todo o que necesitamos é un algoritmo de aprendizaxe iterativo DPO-like correctamente implementado.

Presentamos a nosa implementación práctica de DNO no algoritmo 2 (DNO-Prct), que é un algoritmo en serie que realiza a auto-mellora iterativamente a través do aprendizaxe contrastante. Unha consideración clave no noso deseño algorítmico é que só necesitamos usar implicitamente a función de recompensa rt. Isto vén da mostraxe específica en política, a filtración de datos e a construción en par. Mentres estas opcións de deseño específicas fan que DNO-Prct pareza semellante a simplemente realizar DPO iterativamente, hai razóns significativas para estas decisións de deseño, como discutiremos a continuación.

Relationship betweenADN PrácticaandDPO. O lector pode discernir que DNO-Prct (algoritmo 2) - a implementación práctica de DNO- pode ser descrita como unha versión iterativa do algoritmo DPO. Tal similitude é por deseño, destinado a aproveitar a simplicidade e eficacia de DPO (Rafailov et al., 2023) e basearse nos avances empíricos do traballo recente que aplica DPO iterativamente (por exemplo, Yuan et al., 2024; Tran et al., 2024). Os nosos experimentos sinalan a importancia de varias opcións de deseño que axudan a acomodar as preferencias xerais, como as clasificacións derivadas de taxas de vitoria en par. Máis interesante, os nosos achados apuntan a unha conexión sorprendente - queUnha meticulosamente deseñada iterativaDPOAlgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.

Unha meticulosamente deseñada iterativaAlgoritmo" podería achegarse ao equilibrio de Nash de calquera preferencia xeral dada.

O noso marco algorítmico xeral -DNO (algoritmo 1)- é máis amplo e fundamentalmente diferente do DPO iterativo. Por exemplo, o marco DNO tamén podería estenderse directamente ao caso de preferencia regularizada (como se discute no Apéndice A) ou equipado con outras técnicas de mostraxe avanzadas (por exemplo, Liu et al., 2024b, RSO) como se suxire polo Teorema 1 para a eficiencia da mostra. Por outra banda, aínda que a iteración da política suave (ou a optimización da recompensa KL-regularizada) se usa tanto en DNO como en DPO, xorden por razóns fundamentalmente diferentes.

orixínase a partir de aprendizaxe en liña, aprendizaxe sen arrepentimento a través do espello descendente (Nemirovskij e Yudin, 1983) ou seguindo-regularized-líder (FTRL) (Kalai e Vempala, 2005; Cesa-Bianchi e Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO e PPO, a KL-regularización é unha aproximación para a penalización de variación total para garantir a mellora monótona da política (Kakade e Langford, 2002; Schulman et al., 2015). Máis tarde, este enfoque foi simplificado por Schulman et al. (2017, PPO), e recentemente usado para post-treinamento LLMs (Ouyang et al., 2022).

que

Este artigo está dispoñible en arquivo baixo a licenza CC BY 4.0 DEED.

que

Este artigo está dispoñible en arquivo baixo a licenza CC BY 4.0 DEED.

Como o aprendizaxe contrastante axuda a AI a mellorarse

Demasiado longo; Ler

Mesa da esquerda

4 Algoritmo práctico - auto-enriquecemento iterativo contrastante

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

Como o aprendizaxe contrastante axuda a AI a mellorarse

Demasiado longo; Ler

Mesa da esquerda

4 Algoritmo práctico - auto-enriquecemento iterativo contrastante

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics