Los autores:
y(1) Corby Rosset, Microsoft Research y Correspondencia a [email protected];
y(2) Ching-An Cheng, de Microsoft Research;
yArindam Mitra, investigador de Microsoft;
yMichael Santacroce, investigador de Microsoft.
y(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];
y(6) Tengyang Xie, Microsoft Research y Correspondencia a [email protected].
yAuthors:
(1) Corby Rosset, Microsoft Research y Correspondencia a [email protected];
(2) Ching-An Cheng, de Microsoft Research;
Arindam Mitra, investigador de Microsoft;
Michael Santacroce, investigador de Microsoft.
(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Mesa de la izquierda
2.1 RLHF basado en modelos de recompensa
2.2 RLHF con preferencias generales
3 Optimización directa de Nash y 3.1 Derivación del algoritmo 1
4 Algoritmo práctico – auto-mejora iterativa de contraste
5 Experimentos y 5.1 Configuración experimental
Appendix
Una extensión a las preferencias regularizadas
C Additional Experimental Details
Abstracción
Este trabajo de investigación de AlpReward está ayudando a los estudios de investigación de gran alcance que ofrecen los modelos de lenguaje grande (LLMs) después de la formación, utilizando el feedback preferencial de un poderoso oráculo para ayudar a un modelo a mejorar iterativamente sobre sí mismo. El enfoque típico para los LLMs de post-entrenamiento involucra el aprendizaje reforzado a partir de parámetros intransitivos o de preferencia cíclicos (RLHF), que tradicionalmente separan el aprendizaje de recompensas de RLHF y la optimización de políticas subsiguientes. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "punto a punto" (como el modelo de Bradley-Terry), que no expresa los parámetros complejos de aprendizaje
1 Introducción
El campo de la inteligencia artificial está evolucionando hacia modelos avanzados que pueden comprender, razonar, seguir instrucciones complejas y crear contenido nuancado, al mismo tiempo alineándose con los valores y preferencias humanas. Grandes modelos de idiomas (LLMs) (por ejemplo, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) han demostrado capacidades notables en la generación de texto humano, la respuesta a preguntas y la codificación, sin embargo, todavía se enfrentan a desafíos en tareas que requieren un alto grado de fiabilidad, seguridad y alineamiento ético. Para abordar estos desafíos, los LLMs de ajuste perfecto utilizando Reinforcement Learning from Human Feedback (HRLF) (Christiano et al., 2017; Bai et al., 2022a;
El marco único RLHF ha sido estudiado durante mucho tiempo en el contexto del aprendizaje de reforzamiento basado en preferencias (RL) o RL de preferencias humanas (por ejemplo, Knox y Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Los métodos convencionales para RLHF suelen asumir que la preferencia se determina por una función de recompensa escalar a través de algún modelo, como el modelo de Bradley-Terry (BT) frecuentemente utilizado (Bradley y Terry, 1952).[1] RLHF luego optimiza hacia la preferencia en un procedimiento de dos pasos: aprendizaje de recompensas, optimización de políticas (a través de RL) para maximizar la recompensa aprendida. En ciertas condiciones, el procedimiento de dos
Las funciones de recompensa, definidas para emitir una puntuación escalar r(x, y) para una única respuesta y a la entrada x, no pueden expresar preferencias generales y y ′ x entre un par de salidas en todos los casos, por ejemplo, preferencias intransitivas o cíclicas (Elo, 1978). Por lo tanto, los LLM entrenados bajo la maximización de recompensa no siempre pueden alinearse con la preferencia humana. Además, los trabajos recientes muestran que incluso en entornos donde las preferencias pueden expresarse perfectamente bajo los modelos BT basados en recompensa, la optimización hacia las recompensas produce comportamientos problemáticos; leemos al referente a Bertrand et al. (2023); Azar et al. (2023); Munos et al. (2023) para obtener más detalles. Por último,
Estamos motivados para superar dos desafíos separados: la limitada expresividad de la RLHF basada en recompensas y la falta de claridad sobre cómo escalar la optimización con respecto a las preferencias generales.Los recientes avances en la optimización basada en recompensas, por ejemplo, DPO, ya tienen implementaciones eficientes y escalables – buscamos una solución igualmente eficiente en el marco de las preferencias generales.
Proponemos un algoritmo RLHF probable y escalable -Optimización Nash(DNO) (Algoritmo 1) que logra lo mejor de ambos mundos, combinando la escalabilidad de objetivos contrastantes con la solidez teórica de la optimización de preferencias generales. DNO está diseñado como un algoritmo en serie con un objetivo de aprendizaje basado en regresión; esta elección de diseño hace que DNO sea estable y escalable, alcanzando un equilibrio entre la eficiencia de implementación y la adaptabilidad.
Optimización Nash
Resumimos a un alto nivel los principales ingredientes e insights de DNO a continuación.
- y
- Para abordar el problema de que las funciones de recompensa no pueden expresar preferencias generales, aprovechamos las ideas recientes de que la noción de recompensa debe expresarse como las tasas de ganancia esperadas con respecto a una función de preferencia general.[2] y
- Para abordar el problema encontrado en el trabajo anterior que optimizar este objetivo más general con algoritmos en línea es muestra ineficiente o inestable, descomponemos el procedimiento de aprendizaje en una secuencia de iteraciones "batch-on-policy", donde cada paso optimiza en su lugar un objetivo de regresión simple. y
- El objetivo de regresión (seleccionamos la cruz-entropía binaria) alinea la “función de recompensa interna” de la política con la tasa de ganancia esperada en comparación con ella misma (como se define en la línea 3 del algoritmo 1). y
- Nuestro marco es lo suficientemente general como para admitir muestras fuera de la política en la formación, lo que es importante, las de un maestro más poderoso (ver elección de μ1 y μ2 en el algoritmo 1). y
- Además, para garantizar la estabilidad y la eficiencia computacional, proponemos un esquema de filtración de tal forma que la regresión de la recompensa se realice sólo en pares de preferencias con una margen suficientemente grande (para una explicación teórica, véase Sección 4; en la práctica, véase Sección 5.2). y
- DNO repite este procedimiento para múltiples iteraciones para permitir que la política se optimice hacia la preferencia general. y
Teóricamente, demostramos que DNO converge con el equilibrio de Nash previsto en promedio, y que puede mejorar monotónicamente a lo largo de las iteraciones (ver Sección 3.1).
En el aspecto práctico, proporcionamos una implementación escalable de DNO (Algoritmo 2): un algoritmo de auto-mejora iterativo con actualizaciones contrastantes, que se aproxima al Algoritmo 1 bajo varias opciones de diseño crítico. Estas opciones incluyen: muestreo de múltiples salidas en línea de la política siendo entrenado, utilizando GPT-4 como el oráculo de preferencia, comparando muestras en política con las salidas propias (profesor) de GPT-4, y la formación sólo en pares con "margen grande" (para una explicación teórica, vea Sección 4; en la práctica, vea Sección 5.2).
La principal distinción de nuestro trabajo sobre los trabajos relacionados de Nash-MD (Munos et al., 2023) y SPO (Swamy et al., 2024) es que ambos exhiben problemas de eficiencia de muestras (dos actualizaciones de escala de tiempo o pasos de RL de muestras ineficientes), y ambos utilizan muestras puramente en política.
Lo más importante es que DNO funciona en la práctica: proporcionamos evaluaciones empíricas completas, lo que resulta en un rendimiento de última generación:
• El modelo de parámetro 7B Orca-2.5 resultante, alineado utilizando la implementación práctica de DNO (Algoritmo 2), logra la tasa de ganancia de última generación de cualquier modelo 7B, superando el 33% frente al GPT-4-Turbo más allá en el AlpacaEval 2.0, incluso después de controlar la longitud. Esto es un aumento absoluto de más del 26% (7%→33%) en comparación con el modelo inicializado. Se supera a varios modelos avanzados de código cerrado recientes, incluyendo Mistral Large y GPT-4-0613, así como a los modelos de código abierto con parámetros mucho más (10×), como el LM de auto-recompensación (Yuan et al., 2024) que tiene parámetros 70B.
• Nuestros estudios detallados de ablación en la Sección 5.2 examinan los puntos de contacto críticos del diseño en torno a la elección de la función de pérdida (finetuning supervisado o contrastivo), el paradigma de entrenamiento (con o sin muestras en política), la calidad del anotador de preferencia (margen grande o no), y la construcción de pares de entrenamiento (auto-juego, maestro-contra-estudiante, etc.).
• We show some examples of outputs across iterations which demonstrate qualitative improvements such as better addressing nuanced issues and presumptious questions (Table 5), better organization and clarity while refraining from making misleading statements (Table 6), and higher information density in answers (Table 7).
Esperamos que los resultados presentados aquí proporcionen claridad a la comunidad en cuanto al uso de la retroalimentación de IA para los LLM post-training.
Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.
yEste documento esDisponible en Archivobajo la licencia CC BY 4.0 DEED.
[1] Utilizamos el “modelo de recompensa” para denotar un marco que traduce preferencias en recompensas, por ejemplo, Bradley-Terry, mientras que la “función de recompensa” es una función (posiblemente aprendida) que emite escalares de recompensa.