Cum învățarea contrastantă ajută AI să se îmbunătățească

Autori:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Autori:

Cuvânt cheie: (1) Corby Rosset, Microsoft Research și corespondență la [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research și corespondență la [email protected];
(6) Tengyang Xie, Microsoft Research și corespondență la [email protected].
Tabelul de legături
Abstract and 1 Introduction
Abstract and 1 Introduction
2 Preliminaries
2 Preliminaries
2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models
2.2 RLHF with General Preferences
2.2 RLHF with General Preferences
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3.2 Theoretical Analysis
3.2 Theoretical Analysis
4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement
5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup
5.2 Results and Analysis
5.2 Results and Analysis
6 Related Work
6 Related Work
7 Conclusion and References
7 Conclusion and References

Anexă
Anexă
A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă
În această secțiune, ne îndreptăm atenția spre proiectarea algoritmică a versiunii practic scalabile a DNO, urmând principiile discutate în ultima secțiune.O provocare primară întâlnită în implementarea algoritmului conceptual DNO (Algorithm 1) rezultă din necesitatea de a calcula așteptarea în ceea ce privește funcția de preferință P în cadrul politicii actuale πt.

Ne prezentăm implementarea practică a DNO în Algorithm 2 (DNO-Prct), care este un algoritm batch-on-policy care efectuează auto-îmbunătățire iterativ prin învățare contrastantă. Una dintre considerentele cheie în designul nostru algoritmic este că trebuie doar să folosim implicit funcția de recompensă rt. Acest lucru provine din eșantionarea specifică pe politică, filtrarea datelor și construcția de perechi.În timp ce aceste alegeri specifice de proiectare fac ca DNO-Prct să pară similar cu pur și simplu efectuarea DPO iterativ, există motive semnificative pentru aceste decizii de proiectare, așa cum vom discuta mai jos.

Relația dintre DNO-Prct și DPO. Cititorul poate discerne că DNO-Prct (Algorithm 2) – implementarea practică a DNO – poate fi descrisă ca o versiune iterativă a algoritmului DPO. Această asemănare este prin design, destinată să valorifice simplitatea și eficacitatea DPO (Rafailov et al., 2023) și să se bazeze pe progresele empirice din lucrările recente care aplică DPO iterativ (de exemplu, Yuan et al., 2024; Tran et al., 2024). Experimentele noastre indică importanța mai multor alegeri de design care ajută la adaptarea preferințelor generale, cum ar fi clasamentele derivate din ratele câștigătoare în pereche. Mai interesant, concluziile noastreRelația dintre și“o iterativă meticulos concepută“o iterativă proiectată meticulosalgoritmul” ar putea aborda echilibrul Nash al oricărei preferințe generale date.algoritmul" ar putea aborda echilibrul Nash al oricărei preferințe generale date.

Cadrul nostru algorithmic general – DNO (Algorithm 1) – este mai larg și fundamental diferit de DPO iterativ. De exemplu, cadrul DNO ar putea fi, de asemenea, extins direct la cazul de preferință regularizat (așa cum este discutat în apendicele A) sau echipat cu alte tehnici avansate de eșantionare (de exemplu, Liu et al., 2024b, RSO) așa cum sugerează Teorema 1 pentru eficiența eșantionării. Pe de altă parte, deși iterarea soft policy (sau optimizarea recompenselor KL-regularizate) este utilizată atât în DNO, cât și în DPO, ele apar din motive fundamental diferite.

are originea din învățarea online, învățarea fără regret prin intermediul descendenței în oglindă (Nemirovskij și Yudin, 1983) sau urmarea-regularizată-lider (FTRL) (Kalai și Vempala, 2005; Cesa-Bianchi și Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Pentru DPO și PPO, KL-regularizarea este o aproximație a penalității totale de variație pentru a asigura îmbunătățirea monotonă a politicii (Kakade și Langford, 2002; Schulman et al., 2015). Mai târziu, această abordare a fost simplificată de Schulman et al. (2017, PPO), și utilizată recent pentru LLM-urile post-formare (Ouyang et al., 2022

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv

Cum învățarea contrastantă ajută AI să se îmbunătățească

Prea lung; A citi

Tabelul de legături

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

Categories

Trending Topics

Cum învățarea contrastantă ajută AI să se îmbunătățească

Prea lung; A citi

Tabelul de legături

4 Algoritmul practic – Îmbunătățirea de sine iterativă contrastantă

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

POVEȘTI LEGATE

Categories

Trending Topics