Cum învățarea contrastantă ajută AI să se îmbunătățească

să

Autorii :

să

(1) Corby Rosset, Microsoft Research și corespondență la [email protected];

să

(2) Ching-An Cheng, Microsoft Research;

să

(3) Arindam Mitra, Microsoft Research;

să

(4) Michael Santacroce, Microsoft Research;

să

(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];

să

(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].

să

Authors:

(1) Corby Rosset, Microsoft Research și corespondență la [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];

(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].

Tabelul din stânga

Abstract și 1 introducere

2 Preliminari

2.1 RLHF bazat pe modele de recompensă

2.2 RLHF cu preferințe generale

3 Optimizarea directă Nash și 3.1 Derivarea algoritmului 1

3.2 Analiza teoretică

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

5 Experimente și 5.1 Setare experimentală

5.2 Rezultatele și analiza

6 Related Work

7 Concluzii și referințe

Appendix

O extindere la preferințele reglementate

b. dovezi detaliate

C. Detalii experimentale suplimentare

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

În această secțiune, ne îndreptăm atenția spre proiectarea algoritmică a versiunii practic scalabile a DNO, urmând principiile discutate în ultima secțiune.O provocare primară întâlnită în implementarea algoritmului conceptual DNO (Algorithm 1) rezultă din necesitatea de a calcula așteptarea cu privire la funcția de preferință P în cadrul politicii actuale πt. Poate surprinzător, după cum vom arăta, tot ce avem nevoie este un algoritm de învățare iterativă, asemănător cu DPO, implementat corespunzător.

Prezentăm implementarea noastră practică a DNO în Algorithm 2 (DNO-Prct), care este un algoritm batch-on-policy care efectuează auto-îmbunătățire iterativ prin învățare contrastantă. Una dintre considerentele cheie în designul nostru algoritmic este că trebuie doar să folosim implicit funcția de recompensă rt. Acest lucru provine din eșantionarea specifică pe politică, filtrarea datelor și construcția de perechi. În timp ce aceste alegeri de proiectare specifice fac ca DNO-Prct să pară similar cu pur și simplu efectuarea DPO iterativ, există motive semnificative pentru aceste decizii de proiectare, așa cum vom discuta mai jos.

Relationship betweenADN-ulandDPO. Cititorul poate discerne că DNO-Prct (Algorithm 2) – implementarea practică a DNO – poate fi descrisă ca o versiune iterativă a algoritmului DPO. Această asemănare este prin design, destinată să valorifice simplitatea și eficacitatea DPO (Rafailov et al., 2023) și se bazează pe progresele empirice din lucrările recente care aplică DPO iterativ (de exemplu, Yuan et al., 2024; Tran et al., 2024). Experimentele noastre subliniază importanța mai multor alegeri de design care ajută la îndeplinirea preferințelor generale, cum ar fi clasamentele derivate din ratele de câștig în pereche. Mai interesant, constatările noastre indică o legătură surprinzătoare – că„O iterativă meticulos proiectatăDPOAlgoritmul se poate apropia de echilibrul Nash al oricărei preferinţe generale date.

„O iterativă meticulos proiectatăAlgoritmul se poate apropia de echilibrul Nash al oricărei preferinţe generale date.

Cadrul nostru algorithmic general – DNO (Algorithm 1) – este mai larg și fundamental diferit de DPO iterativ. De exemplu, cadrul DNO ar putea fi, de asemenea, extins direct la cazul de preferință reglementat (după cum este discutat în apendicele A) sau echipat cu alte tehnici avansate de eșantionare (de exemplu, Liu et al., 2024b, RSO) așa cum sugerează Teorema 1 pentru eficiența eșantionării. Pe de altă parte, deși iterarea soft policy (sau optimizarea recompenselor reglementate KL) este utilizată atât în DNO, cât și în DPO, ele apar din motive fundamentale diferite.

are originea în învățarea online, învățarea fără regret prin intermediul descendentului oglindă (Nemirovskij și Yudin, 1983) sau urmarea-regularizat-lider (FTRL) (Kalai și Vempala, 2005; Cesa-Bianchi și Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Pentru DPO și PPO, KL-regularizarea este o aproximație a penalității totale de variație pentru a asigura îmbunătățirea monotonă a politicii (Kakade și Langford, 2002; Schulman et al., 2015). Mai târziu, această abordare a fost simplificată de Schulman et al. (2017, PPO), și a fost utilizată recent pentru post-formare LLM (Ouyang et al., 2022).

să

Acest document este disponibil în arhivă sub licența CC BY 4.0 DEED.

să

Acest document esteDisponibil în arhivăsub licența CC BY 4.0 DEED.

Cum învățarea contrastantă ajută AI să se îmbunătățească

Prea lung; A citi

Tabelul din stânga

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

Categories

Trending Topics

Cum învățarea contrastantă ajută AI să se îmbunătățească

Prea lung; A citi

Tabelul din stânga

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

POVEȘTI LEGATE

Categories

Trending Topics