Hoe kontrastiewe leer help AI selfverbeter

die

Die skrywers:

die

(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];

die

(2) Ching-An Cheng, Microsoft Navorsing;

die

(3) Arindam Mitra, Microsoft Navorsing;

die

(4) Michael Santacroce, Microsoft Navorsing;

die

(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];

die

(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].

die

Authors:

(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];

(2) Ching-An Cheng, Microsoft Navorsing;

(3) Arindam Mitra, Microsoft Navorsing;

(4) Michael Santacroce, Microsoft Navorsing;

(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];

(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].

Tabel van links

Abstract en 1 Inleiding

2 Voorlopige

2.1 RLHF gebaseer op beloningsmodelle

2.2 RLHF met algemene voorkeure

3 Direkte Nash-optimalisering en 3.1 afgeleide algoritme 1

3.2 Teoriese analise

4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering

5 Eksperimente en 5.1 Eksperimentele instelling

5.2 Resultate en analise

6 Gerelateerde werk

7 Konklusie en verwysings

Appendix

'N Uitbreiding tot gereguleerde voorkeure

B Gedetailleerde bewyse

C Aanvullende eksperimentele besonderhede

4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering

In hierdie afdeling verskuif ons ons fokus na die algoritmiese ontwerp van die feitlik skaalbare weergawe van DNO, volgens die beginsels wat in die laaste afdeling bespreek word. 'N Primêre uitdaging wat in die implementering van die konseptuele algoritme DNO (Algorithm 1) ontmoet word, kom van die behoefte om die verwagting te bereken ten opsigte van die voorkeurfunksie P onder die huidige beleid πt.

Ons bied ons die praktiese implementering van DNO in Algoritme 2 (DNO-Prct), wat 'n batch-on-policy-algoritme is wat selfverbetering iteratief deur middel van kontrastiewe leer verrig. Een sleutel oorweging in ons algoritmiese ontwerp is dat ons slegs die beloningsfunksie rt implisiet moet gebruik. Dit kom van die spesiaal ontwerp op beleid samestelling, data filtering en paar konstruksie. Terwyl hierdie spesifieke ontwerpkeuses DNO-Prct soortgelyk maak aan eenvoudig DPO iteratief uit te voer, is daar aansienlike redes vir hierdie ontwerpbesluite, soos ons hieronder sal bespreek.

Relationship betweenDie PRTandDPO. Die leser kan onderskei dat DNO-Prct (Algorithm 2)—die praktiese implementering van DNO—kan beskryf word as 'n iteratiewe weergawe van die DPO-algoritme. Sulke ooreenkoms is deur ontwerp, bedoel om die eenvoud en doeltreffendheid van DPO te benut (Rafailov et al., 2023) en bou op empiriese vorderings uit onlangse werk wat DPO iteratief toepas (bv, Yuan et al., 2024; Tran et al., 2024). Ons eksperimente dui op die belangrikheid van verskeie ontwerpkeuses wat help om die algemene voorkeure aan te pas, soos ranglys wat afkomstig is van paar-winspryse. Meer interessant, ons bevindings dui op 'n verrassende verband—dat'n Meticulously ontwerp iteratiefDie DPODie algoritme kan die Nash-balans van enige gegewe algemene voorkeure benader.

'n Meticulously ontwerp iteratiefDie algoritme kan die Nash-balans van enige gegewe algemene voorkeure benader.

Ons algemene algoritmiese raamwerk—DNO (algoritme 1)—is breër en fundamenteel anders as iteratiewe DPO. Byvoorbeeld, die DNO raamwerk kan ook direk uitgebrei word na die geregulariseerde voorkeur geval (soos bespreek in Aanhangsel A) of toegerus met ander gevorderde monster tegnieke (bv, Liu et al., 2024b, RSO) soos voorgestel deur Theorem 1 vir monster doeltreffendheid. Aan die ander kant, alhoewel die sagte beleid iterasie (of die KL-regularized beloning optimalisering) gebruik word in beide DNO en DPO, ontstaan hulle uit fundamenteel verskillende redes.

ontstaan uit aanlynleren, geen spyt leer deur spieël afkoms (Nemirovskij en Yudin, 1983) of volg-regularized-leider (FTRL) (Kalai en Vempala, 2005; Cesa-Bianchi en Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Vir DPO en PPO, die KL-regularization is 'n benadering vir die totale variasie boete om 'n monotone verbetering van die beleid te verseker (Kakade en Langford, 2002; Schulman et al., 2015). Later, hierdie benadering is vereenvoudig deur Schulman et al. (2017, PPO), en onlangs gebruik vir post-opleiding LLMs (Ouyang et al., 2022).

die

Hierdie artikel is beskikbaar op archiv onder CC BY 4.0 DEED lisensie.

die

Hierdie artikel is beskikbaar op archiv onder CC BY 4.0 DEED lisensie.

Hoe kontrastiewe leer help AI selfverbeter

Te lank; Om te lees

Tabel van links

4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering

About Author

HANG TAGS

HIERDIE ARTIKEL IS AANGEBIED IN...

Categories

Trending Topics

Hoe kontrastiewe leer help AI selfverbeter

Te lank; Om te lees

Tabel van links

4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering

About Author

HANG TAGS

HIERDIE ARTIKEL IS AANGEBIED IN...

VERWANTE STORIES

Categories

Trending Topics