385 lecturi
385 lecturi

Cum învățarea contrastantă ajută AI să se îmbunătățească

Prea lung; A citi

Această secțiune introduce DNO-Prct, o implementare practică și scalabilă a Direct Nash Optimization. Acesta utilizează învățarea contrastantă iterativă - similară cu DPO - dar este conceput pentru formarea în lot cu preferințe generale. Prin utilizarea implicită a semnalelor de recompensă și prin structurarea comparațiilor în perechi, DNO-Prct permite îmbunătățirea eficientă a sinelui și abordează echilibrul Nash în modelele complexe de preferințe AI.
featured image - Cum învățarea contrastantă ajută AI să se îmbunătățească
Language Models (dot tech) HackerNoon profile picture
0-item

Autorii :

(1) Corby Rosset, Microsoft Research și corespondență la [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];

(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].

Authors:

(1) Corby Rosset, Microsoft Research și corespondență la [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];

(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].

Abstract și 1 introducere

2 Preliminari

2.1 RLHF bazat pe modele de recompensă

2.2 RLHF cu preferințe generale

3 Optimizarea directă Nash și 3.1 Derivarea algoritmului 1

3.2 Analiza teoretică

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

5 Experimente și 5.1 Setare experimentală

5.2 Rezultatele și analiza

6 Related Work

7 Concluzii și referințe


Appendix

O extindere la preferințele reglementate

b. dovezi detaliate

C. Detalii experimentale suplimentare

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

În această secțiune, ne îndreptăm atenția spre proiectarea algoritmică a versiunii practic scalabile a DNO, urmând principiile discutate în ultima secțiune.O provocare primară întâlnită în implementarea algoritmului conceptual DNO (Algorithm 1) rezultă din necesitatea de a calcula așteptarea cu privire la funcția de preferință P în cadrul politicii actuale πt. Poate surprinzător, după cum vom arăta, tot ce avem nevoie este un algoritm de învățare iterativă, asemănător cu DPO, implementat corespunzător.


Prezentăm implementarea noastră practică a DNO în Algorithm 2 (DNO-Prct), care este un algoritm batch-on-policy care efectuează auto-îmbunătățire iterativ prin învățare contrastantă. Una dintre considerentele cheie în designul nostru algoritmic este că trebuie doar să folosim implicit funcția de recompensă rt. Acest lucru provine din eșantionarea specifică pe politică, filtrarea datelor și construcția de perechi. În timp ce aceste alegeri de proiectare specifice fac ca DNO-Prct să pară similar cu pur și simplu efectuarea DPO iterativ, există motive semnificative pentru aceste decizii de proiectare, așa cum vom discuta mai jos.





Relationship betweenADN-ulandDPO. Cititorul poate discerne că DNO-Prct (Algorithm 2) – implementarea practică a DNO – poate fi descrisă ca o versiune iterativă a algoritmului DPO. Această asemănare este prin design, destinată să valorifice simplitatea și eficacitatea DPO (Rafailov et al., 2023) și se bazează pe progresele empirice din lucrările recente care aplică DPO iterativ (de exemplu, Yuan et al., 2024; Tran et al., 2024). Experimentele noastre subliniază importanța mai multor alegeri de design care ajută la îndeplinirea preferințelor generale, cum ar fi clasamentele derivate din ratele de câștig în pereche. Mai interesant, constatările noastre indică o legătură surprinzătoare – că„O iterativă meticulos proiectatăDPOAlgoritmul se poate apropia de echilibrul Nash al oricărei preferinţe generale date.

„O iterativă meticulos proiectatăAlgoritmul se poate apropia de echilibrul Nash al oricărei preferinţe generale date.


Cadrul nostru algorithmic general – DNO (Algorithm 1) – este mai larg și fundamental diferit de DPO iterativ. De exemplu, cadrul DNO ar putea fi, de asemenea, extins direct la cazul de preferință reglementat (după cum este discutat în apendicele A) sau echipat cu alte tehnici avansate de eșantionare (de exemplu, Liu et al., 2024b, RSO) așa cum sugerează Teorema 1 pentru eficiența eșantionării. Pe de altă parte, deși iterarea soft policy (sau optimizarea recompenselor reglementate KL) este utilizată atât în DNO, cât și în DPO, ele apar din motive fundamentale diferite.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


are originea în învățarea online, învățarea fără regret prin intermediul descendentului oglindă (Nemirovskij și Yudin, 1983) sau urmarea-regularizat-lider (FTRL) (Kalai și Vempala, 2005; Cesa-Bianchi și Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Pentru DPO și PPO, KL-regularizarea este o aproximație a penalității totale de variație pentru a asigura îmbunătățirea monotonă a politicii (Kakade și Langford, 2002; Schulman et al., 2015). Mai târziu, această abordare a fost simplificată de Schulman et al. (2017, PPO), și a fost utilizată recent pentru post-formare LLM (Ouyang et al., 2022).


Acest document este disponibil în arhivă sub licența CC BY 4.0 DEED.

Acest document esteDisponibil în arhivăsub licența CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks