385 lectures
385 lectures

Com l'aprenentatge contrastant ajuda a la IA a millorar-se

Massa Llarg; Per llegir

Aquesta secció introdueix DNO-Prct, una implementació pràctica i escalable de Direct Nash Optimization. Aprofita l'aprenentatge contràstic iteratiu -similar al DPO- però està dissenyat per a la formació en batxillerat sobre polítiques amb preferències generals. Mitjançant l'ús implícit de senyals de recompensa i l'estructuració de comparacions en parell, DNO-Prct permet una millora eficient de si mateix i apropa l'equilibri de Nash en models de preferència d'IA complexos.
featured image - Com l'aprenentatge contrastant ajuda a la IA a millorar-se
Language Models (dot tech) HackerNoon profile picture
0-item
El

Els autors:

El

(1) Corby Rosset, Microsoft Research i Correspondència a [email protected];

El

(2) Ching-An Cheng, de Microsoft Research;

El

Arindam Mitra, de Microsoft Research

El

Michael Santacroce, director de Microsoft Research

El

(5) Ahmed Awadallah, Microsoft Research i Correspondència a [email protected];

El

(6) Tengyang Xie, Microsoft Research i Correspondència a [email protected].

Authors:

(1) Corby Rosset, Microsoft Research i Correspondència a [email protected];

(2) Ching-An Cheng, de Microsoft Research;

Arindam Mitra, de Microsoft Research

Michael Santacroce, director de Microsoft Research

(5) Ahmed Awadallah, Microsoft Research i Correspondència a [email protected];

(6) Tengyang Xie, Microsoft Research i Correspondència a [email protected].

Abstract i 1 Introducció

2 Preliminars

2.1 RLHF basat en models de recompensa

2.2 RLHF amb preferències generals

3 Optimització directa de Nash i 3.1 Derivació d'algoritme 1

3.2 Anàlisi teòrica

4 Algoritme pràctic - Iterativa de l'auto-millora contrastant

5 Experiments i 5.1 Configuració experimental

5.2 Results and Analysis

6 Treballs relacionats

7 Conclusió i referències


Appendix

Una extensió a les preferències regularitzades

B Proves detallades

C Detalls experimentals addicionals

4 Algoritme pràctic - Iterativa de l'auto-millora contrastant

En aquesta secció, ens centrem en el disseny algorítmic de la versió pràcticament escalable de DNO, seguint els principis tractats en l'última secció.Un dels principals reptes que ens trobem en la implementació de l'algorisme conceptual DNO (algorisme 1) prové de la necessitat de calcular l'expectativa respecte a la funció de preferència P sota la política actual πt. Potser sorprenentment, com mostrarem, tot el que necessitem és un algoritme d'aprenentatge iteratiu com DPO correctament implementat.


Presentem la nostra implementació pràctica de DNO en l'Algoritme 2 (DNO-Prct), que és un algoritme en batxillerat que realitza l'auto-millora iterativament a través de l'aprenentatge contrastant. Una consideració clau en el nostre disseny algorítmic és que només necessitem utilitzar implícitament la funció de recompensa rt. Això prové de la mostreig específicament dissenyada en la política, la filtració de dades i la construcció de parells. Mentre que aquestes opcions de disseny específiques fan que DNO-Prct sembli similar a simplement executar DPO iterativament, hi ha raons significatives per a aquestes decisions de disseny, com discutirem a continuació.





Relationship betweenPràcticaandDPO. El lector pot discernir que DNO-Prct (Algoritme 2) —la implementació pràctica de DNO— es pot descriure com una versió iterativa de l'algorisme DPO. Aquesta similitud és per disseny, destinat a aprofitar la simplicitat i l'eficàcia de DPO (Rafailov et al., 2023) i basar-se en els avenços empírics del treball recent que aplica DPO iterativament (per exemple, Yuan et al., 2024; Tran et al., 2024). Els nostres experiments apunten a la importància de diverses opcions de disseny que ajuden a satisfer les preferències generals, com ara els rànquings derivats de les taxes de guany en parella. Més interessant, els nostres resultats apunten a una connexió sorprenentUna meticulosament dissenyada iterativaDPOL'algoritme pot apropar-se a l'equilibri de Nash de qualsevol preferència general donada.

Una meticulosament dissenyada iterativaL'algoritme pot apropar-se a l'equilibri de Nash de qualsevol preferència general donada.


El nostre marc algorítmic general -DNO (Algoritme 1)- és més ampli i fonamentalment diferent del DPO iteratiu. Per exemple, el marc DNO també es podria estendre directament al cas de preferència regularitzada (com es discuteix en l'Anex A) o equipat amb altres tècniques de mostreig avançades (per exemple, Liu et al., 2024b, RSO) com suggereix el Teorema 1 per a l'eficiència de la mostra. D'altra banda, tot i que la iteració de la política suau (o l'optimització de la recompensa KL-regularitzada) s'utilitza tant en DNO com en DPO, sorgeixen per raons fonamentalment diferents.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


s'origina de l'aprenentatge en línia, l'aprenentatge sense remordiments a través de la descendència mirall (Nemirovskij i Yudin, 1983) o seguint-regularized-líder (FTRL) (Kalai i Vempala, 2005; Cesa-Bianchi i Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Per a DPO i PPO, la KL-regularització és una aproximació de la penalització de variació total per assegurar la millora monòtona de la política (Kakade i Langford, 2002; Schulman et al., 2015). Més tard, aquest enfocament va ser simplificat per Schulman et al. (2017, PPO), i recentment utilitzat per LLMs post-entrenament (Ouyang et al.,


El

Aquest document està disponible en arxiu sota la llicència CC BY 4.0 DEED.

El

Aquest paper ésDisponible a l'Arxiusota la llicència CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks