Autores:
(1) Rafael Rafailo, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(2) Archit Sharma, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(3) Eric Mitchel, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Universidad de Stanford;
(6) Chelsea Finn, Universidad de Stanford.
4 Optimización de preferencias directas
7 Discusión, agradecimientos y referencias
Derivaciones matemáticas
A.1 Derivación del óptimo del objetivo de maximización de recompensa restringido por KL
A.2 Derivación del objetivo de la OPD según el modelo Bradley-Terry
A.3 Derivación del objetivo de la OPD según el modelo de Plackett-Luce
A.4 Derivación del gradiente del objetivo DPO y A.5 Prueba del lema 1 y 2
A.6 Demostración del teorema 1
Detalles de implementación y hiperparámetros de B DPO
C.2 Indicaciones de GPT-4 para calcular las tasas de éxito de los diálogos y los resúmenes
C.3 Línea base de improbabilidad
D Resultados empíricos adicionales
D.1 Rendimiento de la línea base Best of N para varias N y D.2 Respuestas de muestra y juicios GPT-4
D.3 Detalles del estudio en humanos
Si bien los modelos de lenguaje no supervisados a gran escala (LM) aprenden un amplio conocimiento del mundo y algunas habilidades de razonamiento, lograr un control preciso de su comportamiento es difícil debido a la naturaleza completamente no supervisada de su entrenamiento. Los métodos existentes para obtener dicha capacidad de control recopilan etiquetas humanas de la calidad relativa de las generaciones de modelos y ajustan el LM no supervisado para alinearlo con estas preferencias, a menudo con aprendizaje de refuerzo a partir de retroalimentación humana (RLHF). Sin embargo, RLHF es un procedimiento complejo y a menudo inestable, que primero ajusta un modelo de recompensa que refleja las preferencias humanas y luego ajusta el LM no supervisado grande utilizando aprendizaje de refuerzo para maximizar esta recompensa estimada sin alejarse demasiado del modelo original. En este artículo presentamos una nueva parametrización del modelo de recompensa en RLHF que permite la extracción de la política óptima correspondiente en forma cerrada, lo que nos permite resolver el problema estándar de RLHF con solo una pérdida de clasificación simple. El algoritmo resultante, al que llamamos Optimización de preferencias directas (DPO), es estable, eficiente y computacionalmente liviano, lo que elimina la necesidad de tomar muestras del LM durante el ajuste fino o la realización de un ajuste significativo de hiperparámetros. Nuestros experimentos muestran que DPO puede ajustar los LM para que se alineen con las preferencias humanas tan bien o mejor que los métodos existentes. En particular, el ajuste fino con DPO supera al RLHF basado en PPO en la capacidad de controlar el sentimiento de las generaciones, y coincide o mejora la calidad de la respuesta en el resumen y el diálogo de un solo turno, al tiempo que es sustancialmente más simple de implementar y entrenar.
Los modelos de lenguaje no supervisados de gran tamaño (LM) entrenados en conjuntos de datos muy grandes adquieren capacidades sorprendentes [11, 7, 40, 8]. Sin embargo, estos modelos se entrenan con datos generados por humanos con una amplia variedad de objetivos, prioridades y conjuntos de habilidades. Es posible que algunos de estos objetivos y conjuntos de habilidades no sean deseables de imitar; por ejemplo, si bien podemos querer que nuestro asistente de codificación de IA comprenda errores de programación comunes para corregirlos, no obstante, al generar código, nos gustaría sesgar nuestro modelo hacia la capacidad de codificación de alta calidad (potencialmente rara) presente en sus datos de entrenamiento. De manera similar, es posible que queramos que nuestro modelo de lenguaje sea consciente de un concepto erróneo común en el que cree el 50% de las personas, ¡pero ciertamente no queremos que el modelo afirme que este concepto erróneo es cierto en el 50% de las consultas al respecto! En otras palabras, seleccionar las respuestas y el comportamiento deseados del modelo a partir de su amplio conocimiento y habilidades es crucial para construir sistemas de IA que sean seguros, eficientes y controlables [26]. Si bien los métodos existentes generalmente orientan los LM para que coincidan con las preferencias humanas mediante el aprendizaje de refuerzo (RL),
Demostraremos que el objetivo basado en RL utilizado por los métodos existentes se puede optimizar exactamente con un objetivo binario de entropía cruzada, simplificando enormemente el proceso de aprendizaje de preferencias.
En un nivel alto, los métodos existentes inculcan los comportamientos deseados en un modelo de lenguaje utilizando conjuntos seleccionados de preferencias humanas que representan los tipos de comportamientos que los humanos encuentran seguros y útiles. Esta etapa de aprendizaje de preferencias ocurre después de una etapa inicial de preentrenamiento no supervisado a gran escala en un gran conjunto de datos de texto. Si bien el enfoque más sencillo para el aprendizaje de preferencias es el ajuste fino supervisado en demostraciones humanas de respuestas de alta calidad, la clase de métodos más exitosa es el aprendizaje de refuerzo a partir de la retroalimentación humana (o IA) (RLHF/RLAIF; [12, 2]). Los métodos RLHF ajustan un modelo de recompensa a un conjunto de datos de preferencias humanas y luego usan RL para optimizar una política de modelo de lenguaje para producir respuestas a las que se les asigna una alta recompensa sin alejarse excesivamente del modelo original. Si bien RLHF produce modelos con impresionantes capacidades conversacionales y de codificación, el proceso de RLHF es considerablemente más complejo que el aprendizaje supervisado, ya que implica el entrenamiento de múltiples LM y el muestreo de la política de LM en el ciclo de entrenamiento, lo que genera costos computacionales significativos.
En este artículo, mostramos cómo optimizar directamente un modelo de lenguaje para que se adhiera a las preferencias humanas, sin modelado explícito de recompensas o aprendizaje de refuerzo. Proponemos la Optimización Directa de Preferencias (DPO), un algoritmo que optimiza implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de recompensas con una restricción de divergencia KL), pero es simple de implementar y fácil de entrenar. Intuitivamente, la actualización de DPO aumenta la probabilidad logarítmica relativa de las respuestas preferidas a las despreferidas, pero incorpora un peso de importancia dinámico por ejemplo que evita la degeneración del modelo que encontramos que ocurre con un objetivo de razón de probabilidad ingenuo. Al igual que los algoritmos existentes, DPO se basa en un modelo de preferencia teórico (como el modelo Bradley-Terry; [5]) que mide qué tan bien se alinea una función de recompensa dada con los datos de preferencia empíricos. Sin embargo, mientras que los métodos existentes utilizan el modelo de preferencia para definir una pérdida de preferencia para entrenar un modelo de recompensa y luego entrenar una política que optimice el modelo de recompensa aprendido, DPO utiliza un cambio de variables para definir la pérdida de preferencia como una función de la política directamente. Dado un conjunto de datos de preferencias humanas sobre respuestas del modelo, DPO puede optimizar una política utilizando un objetivo de entropía cruzada binaria simple, produciendo la política óptima para una función de recompensa implícita ajustada a los datos de preferencia.
Nuestra principal contribución es la Optimización Directa de Preferencias (DPO), un algoritmo simple sin RL para entrenar modelos de lenguaje a partir de preferencias. Nuestros experimentos muestran que la DPO es al menos tan eficaz como los métodos existentes, incluido el RLHF basado en PPO, para aprender de las preferencias en tareas como la modulación de sentimientos, el resumen y el diálogo, utilizando modelos de lenguaje con hasta 6 mil millones de parámetros.
Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 DEED.