El arte de discutir contigo mismo y por qué está haciendo que la IA sea más inteligente

Authors:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Los autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Investigación de Microsoft;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research y Correspondencia a [email protected];

(6) Tengyang Xie, Microsoft Research y Correspondencia a [email protected].

Tabla de enlaces

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Apéndice

Apéndice A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
Abstract
Este trabajo, que incluye el análisis de la eficiencia de la LLM, ayuda a analizar los modelos de gran lenguaje post-training (LLMs) utilizando el feedback de preferencia de un oráculo poderoso para ayudar a un modelo a mejorar de forma iterativa sobre sí mismo. El enfoque típico para los LLMs post-training, incluido el LLM, involucra el aprendizaje reforzado de los parámetros intransitivos o de preferencia cíclicos. Mientras que los avances en el aprendizaje de recompensas de la RLHF y la optimización de políticas posteriores se separan tradicionalmente. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "punto a punto" (como el modelo Bradley-Terry al.P.T.), que
1 Introducción
The field of artificial intelligence is evolving towards advanced models that can understand, reason, follow complex instructions, and create nuanced content, while aligning with human values and preferences. Large Language Models (LLMs) (e.g., Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) have demonstrated remarkable capabilities in generating human-like text, answering questions, and coding, yet they still face challenges in tasks that require a high degree of reliability, safety, and ethical alignment. To address these challenges, fine-tuning LLMs using Reinforcement Learning from Human Feedback (RLHF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 2022) has demonstrates strong potential for making LLMs more helpful by aligning them with human values.

El marco RLHF único ha sido estudiado durante mucho tiempo en el contexto de aprendizaje de reforzamiento basado en preferencias (RL) o RL de preferencias humanas (por ejemplo, Knox y Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Los métodos convencionales para RLHF basados en preferencias suelen asumir que la preferencia se determina por una función de recompensa escalar a través de algunos modelos, como el modelo Bradley-Terry (BT) frecuentemente utilizado (Bradley y Terry, 1952).[1] RLHF luego optimiza hacia la preferencia en un procedimiento de dos pasos: aprendizaje de recompensa, optimización de políticas (a través de RL) para maximizar la recompensa aprendida. En ciertas condiciones

Las funciones de recompensa, definidas para producir una puntuación escalar r(x, y) para una única respuesta y a la entrada x, no pueden expresar preferencias generales y y ′, x entre un par de sorpresas en todos los casos, por ejemplo, preferencias intransitivas o cíclicas (Elo, 1978). Por lo tanto, los LLM entrenados bajo la maximización de recompensa no siempre pueden alinearse con la preferencia humana. Además, los trabajos recientes muestran que incluso en entornos donde las preferencias pueden expresarse perfectamente bajo los modelos BT basados en recompensa, la optimización hacia las recompensas produce comportamientos problemáticos; referimos al lector a Bertrand et al. (2023); Azar et al. (2023); Munos et al. (2023) para obtener más detalles. Por último, las

Estamos motivados para superar dos desafíos separados: la limitada expresividad de la RLHF basada en recompensas y la falta de claridad sobre cómo escalar la optimización con respecto a las preferencias generales.Los recientes avances en la optimización basada en recompensas, por ejemplo, DPO, ya tienen implementaciones eficientes y escalables – buscamos una solución similarmente eficiente en el marco de las preferencias generales.

Proponemos un algoritmo RLHF probable y escalable – Direct Nash Optimization (DNO) (Algoritmo 1) que logra lo mejor de ambos mundos, combinando la escalabilidad de objetivos contrastantes con la solidez teórica de la optimización de preferencias generales.Optimización directa de NashOptimización directa de Nash

We summarize at a high level the key ingredients and insights of DNO below.

To address the issue that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of ought to be expressed as expected win-rates with regard to a general preference function.[2]

To address the issue found in previous work that optimizing this more general objective with online algorithms is sample-inefficient or unstable, we decompose the learning procedure into a sequence of “batched on-policy” iterations, wherein each step instead optimizes a simple regression objective.

The regression objective (we choose binary cross-entropy) aligns the “internal reward function” of the policy to the expected win-rate compared with itself (as defined in Line 3 of Algorithm 1). By sampling outputs from the current policy to use for training (i.e., “self-play”), this procedure incentivizes self-improving behavior.

Our framework is general enough to admit off-policy samples into training, importantly, those from a more powerful teacher (See choice of µ1 and µ2 in Algorithm 1).

Furthermore, to ensure stability and computational efficiency, we propose a filtering scheme such that the reward regression is only performed on preference pairs with a sufficiently large margin (for theoretical explanation, see Section 4; in practice, see Section 5.2).

DNO repeats this procedure for multiple iterations to let the policy optimize toward the general preference. Since each step involves a regression problem it can be easily implemented at scale.

To address the issue that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of ought to be expressed as expected win-rates with regard to a general preference function.[2]

To address the issue that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of ought to be expressed as expected win-rates with regard to a general preference function.[2]

Para abordar el problema encontrado en el trabajo anterior que la optimización de este objetivo más general con algoritmos en línea es muestra ineficiente o inestable, descomponemos el procedimiento de aprendizaje en una secuencia de iteraciones "batch-on-policy", donde cada paso optimiza un objetivo de regresión simple.

Para abordar el problema encontrado en el trabajo anterior que la optimización de este objetivo más general con algoritmos en línea es muestra ineficiente o inestable, descomponemos el procedimiento de aprendizaje en una secuencia de iteraciones "batch-on-policy", donde cada paso optimiza en su lugar un objetivo de regresión simple.

The regression objective (we choose binary cross-entropy) aligns the “internal reward function” of the policy to the expected win-rate compared with itself (as defined in Line 3 of Algorithm 1). By sampling outputs from the current policy to use for training (i.e., “self-play”), this procedure incentivizes self-improving behavior.

El objetivo de regresión (seleccionamos la cross-entropía binaria) alinea la “función de recompensa interna” de la política con la tasa de ganancia esperada en comparación con ella misma (como se define en la línea 3 del algoritmo 1).

Nuestro marco es lo suficientemente general como para admitir muestras fuera de la política en la formación, lo que es importante, las de un maestro más poderoso (ver elección de μ1 y μ2 en el algoritmo 1).

Nuestro marco es lo suficientemente general como para admitir muestras fuera de la política en la formación, lo que es importante, las de un maestro más poderoso (ver elección de μ1 y μ2 en el algoritmo 1).

Furthermore, to ensure stability and computational efficiency, we propose a filtering scheme such that the reward regression is only performed on preference pairs with a sufficiently large margin (for theoretical explanation, see Section 4; in practice, see Section 5.2).

Furthermore, to ensure stability and computational efficiency, we propose a filtering scheme such that the reward regression is only performed on preference pairs with a sufficiently large margin (for theoretical explanation, see Section 4; in practice, see Section 5.2).

DNO repite este procedimiento para múltiples iteraciones para permitir que la política se optimice hacia la preferencia general.
DNO repite este procedimiento para múltiples iteraciones para permitir que la política se optimice hacia la preferencia general.

Teóricamente, demostramos que el DNO converge con el equilibrio de Nash previsto en promedio, y que puede mejorar monotónicamente a lo largo de las iteraciones (ver Sección 3.1).

On the practical side, we provide a scalable implementation of DNO (Algorithm 2): an iterative self-improving algorithm with contrastive updates, which approximates Algorithm 1 under several critical design choices. Those choices include: sampling multiple online outputs from the policy being trained, using GPT-4 as the preference oracle, comparing onpolicy samples to GPT-4’s own (teacher) outputs, and training only on pairs with “large margin” (for theoretical explanation, see Section 4; in practice, see Section 5.2).

La principal distinción de nuestro trabajo sobre los trabajos relacionados de Nash-MD (Munos et al., 2023) y SPO (Swamy et al., 2024) es que ambos exhiben problemas de eficiencia de muestras (dos actualizaciones de escala de tiempo o pasos de RL de muestras ineficientes), y ambos utilizan muestras puramente en política.

Lo más importante, DNO trabaja en la práctica – proporcionamos evaluaciones empíricas completas, lo que resulta en un rendimiento de última generación:

• The resulting 7B parameter Orca-2.5 model, aligned using the practical implementation of DNO (Algorithm 2), achieves the state-of-the-art win-rate of any 7B model, exceeding 33% against GPT-4-Turbo beyond on the AlpacaEval 2.0, even after controlling for length. This is an over 26% absolute gain (7%→33%) compared to the initialized model. It outperforms several recent advanced closed-source models, including Mistral Large and GPT-4-0613, as well as open-source models with far more (10×) parameters, such as Self-Rewarding LM (Yuan et al., 2024) which has 70B parameters.

• Nuestros estudios de ablación detallados en la Sección 5.2 examinan los puntos de contacto críticos del diseño en torno a la elección de la función de pérdida (finetuning supervisado o contrastivo), el paradigma de entrenamiento (con o sin muestras en política), la calidad del anotador de preferencia (margen grande o no), y la construcción de pares de entrenamiento (auto-juego, maestro-contra-estudiante, etc.) Nuestros hallazgos destacan que los métodos cuidadosamente elaborados codificados en el algoritmo 2 conducen a ganancias sustanciales.

• Mostramos algunos ejemplos de resultados a través de iteraciones que demuestran mejoras cualitativas, tales como una mejor resolución de problemas nuancados y preguntas presuntivas (Tabla 5), una mejor organización y claridad mientras se abstenen de hacer declaraciones engañosas (Tabla 6), y una mayor densidad de información en las respuestas (Tabla 7).

Esperamos que los resultados presentados aquí proporcionen claridad a la comunidad en cuanto al uso de la retroalimentación de la IA para los LLM post-treinamiento.

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv
[1] We use “reward model” to denote a framework that translates preferences into rewards, e.g., Bradley-Terry, while “reward function” is a (possibly learned) function that outputs reward scalars.

El arte de discutir contigo mismo y por qué está haciendo que la IA sea más inteligente

Demasiado Largo; Para Leer

Tabla de enlaces

Abstract

1 Introducción

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

El arte de discutir contigo mismo y por qué está haciendo que la IA sea más inteligente

Demasiado Largo; Para Leer

Tabla de enlaces

Abstract

1 Introducción

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics