Die skrywers:
die(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];
die(2) Ching-An Cheng, Microsoft Navorsing;
die(3) Arindam Mitra, Microsoft Navorsing;
die(4) Michael Santacroce, Microsoft Navorsing;
die(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];
die(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].
dieAuthors:
(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];
(2) Ching-An Cheng, Microsoft Navorsing;
(3) Arindam Mitra, Microsoft Navorsing;
(4) Michael Santacroce, Microsoft Navorsing;
(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];
(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].
Tabel van links
2.1 RLHF gebaseer op beloningsmodelle
2.2 RLHF met algemene voorkeure
3 Direkte Nash-optimalisering en 3.1 afgeleide algoritme 1
4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering
5 Eksperimente en 5.1 Eksperimentele instelling
Appendix
'N Uitbreiding tot gereguleerde voorkeure
C Aanvullende eksperimentele besonderhede
4 Praktiese algoritme - iteratiewe kontrastiewe selfverbetering
In hierdie afdeling verskuif ons ons fokus na die algoritmiese ontwerp van die feitlik skaalbare weergawe van DNO, volgens die beginsels wat in die laaste afdeling bespreek word. 'N Primêre uitdaging wat in die implementering van die konseptuele algoritme DNO (Algorithm 1) ontmoet word, kom van die behoefte om die verwagting te bereken ten opsigte van die voorkeurfunksie P onder die huidige beleid πt.
Ons bied ons die praktiese implementering van DNO in Algoritme 2 (DNO-Prct), wat 'n batch-on-policy-algoritme is wat selfverbetering iteratief deur middel van kontrastiewe leer verrig. Een sleutel oorweging in ons algoritmiese ontwerp is dat ons slegs die beloningsfunksie rt implisiet moet gebruik. Dit kom van die spesiaal ontwerp op beleid samestelling, data filtering en paar konstruksie. Terwyl hierdie spesifieke ontwerpkeuses DNO-Prct soortgelyk maak aan eenvoudig DPO iteratief uit te voer, is daar aansienlike redes vir hierdie ontwerpbesluite, soos ons hieronder sal bespreek.
Relationship betweenDie PRTandDPO. Die leser kan onderskei dat DNO-Prct (Algorithm 2)—die praktiese implementering van DNO—kan beskryf word as 'n iteratiewe weergawe van die DPO-algoritme. Sulke ooreenkoms is deur ontwerp, bedoel om die eenvoud en doeltreffendheid van DPO te benut (Rafailov et al., 2023) en bou op empiriese vorderings uit onlangse werk wat DPO iteratief toepas (bv, Yuan et al., 2024; Tran et al., 2024). Ons eksperimente dui op die belangrikheid van verskeie ontwerpkeuses wat help om die algemene voorkeure aan te pas, soos ranglys wat afkomstig is van paar-winspryse. Meer interessant, ons bevindings dui op 'n verrassende verband—dat'n Meticulously ontwerp iteratiefDie DPODie algoritme kan die Nash-balans van enige gegewe algemene voorkeure benader.
'n Meticulously ontwerp iteratiefDie algoritme kan die Nash-balans van enige gegewe algemene voorkeure benader.
Ons algemene algoritmiese raamwerk—DNO (algoritme 1)—is breër en fundamenteel anders as iteratiewe DPO. Byvoorbeeld, die DNO raamwerk kan ook direk uitgebrei word na die geregulariseerde voorkeur geval (soos bespreek in Aanhangsel A) of toegerus met ander gevorderde monster tegnieke (bv, Liu et al., 2024b, RSO) soos voorgestel deur Theorem 1 vir monster doeltreffendheid. Aan die ander kant, alhoewel die sagte beleid iterasie (of die KL-regularized beloning optimalisering) gebruik word in beide DNO en DPO, ontstaan hulle uit fundamenteel verskillende redes.
ontstaan uit aanlynleren, geen spyt leer deur spieël afkoms (Nemirovskij en Yudin, 1983) of volg-regularized-leider (FTRL) (Kalai en Vempala, 2005; Cesa-Bianchi en Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Vir DPO en PPO, die KL-regularization is 'n benadering vir die totale variasie boete om 'n monotone verbetering van die beleid te verseker (Kakade en Langford, 2002; Schulman et al., 2015). Later, hierdie benadering is vereenvoudig deur Schulman et al. (2017, PPO), en onlangs gebruik vir post-opleiding LLMs (Ouyang et al., 2022).
Hierdie artikel is beskikbaar op archiv onder CC BY 4.0 DEED lisensie.
dieHierdie artikel is beskikbaar op archiv onder CC BY 4.0 DEED lisensie.