Forfattere:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Forfattere:
Forfattere:(1) Corby Rosset, Microsoft Research og korrespondance til [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research og korrespondance til [email protected];
(6) Tengyang Xie, Microsoft Research og korrespondance til [email protected].
Tabel over links
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Tilføjelse
TilføjelseA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Detailsabstrakt Den typiske tilgang til efteruddannede LLM'er, herunder LLHF, involverer styrkelse af læring fra komplekse intransitive eller cykliske præferenceforhold, mens fremskridt på RLHF traditionelt adskiller belønningsindlæring og efterfølgende politikoptimering. Men en sådan belønningsoptimeringsmetode er begrænset af karakteren af "point-wise" belønningsrammer (såsom Bradley-Terry-modellen), som ikke udtrykker komplekse intransitive eller cykliske præferenceparametre. Mens fremskridt på RLHF viser belønningsindlæring og efterfølgende politikoptimering kan fusioneres i en enkelt kontrast-optimeringsmetode for stabilitet, forbliver de stadig tæt knyttet til belønningsoptimeringsrammen.1 Introduktion
1 Introduktion
Feltet med kunstig intelligens udvikler sig mod avancerede modeller, der kan forstå, begrunde, følge komplekse instruktioner og skabe nuanceret indhold, samtidig med at de tilpasser sig menneskelige værdier og præferencer. Store sprogmodeller (LLM'er) (f.eks. Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) har vist bemærkelsesværdige evner i at generere menneskelig tekst, besvare spørgsmål og kodning, men de står stadig over for udfordringer i opgaver, der kræver en høj grad af pålidelighed, sikkerhed og etisk tilpasning. For at imødegå disse udfordringer har finjusterede LLM'er ved hjælp af Forstærket læring fra menneskelig feedback (HRLF) (Christiano
Den enkelt RLHF ramme er længe blevet studeret i forbindelse med præference-baseret forstærkning læring (RL) eller RL fra menneskelige præferencer (f.eks. Knox og Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). De konventionelle metoder for RLHF typisk antager, at præferencen bestemmes af en skalær belønning funktion gennem nogle model, såsom den hyppigt anvendte Bradley-Terry (BT) model (Bradley og Terry, 1952).[1] RLHF derefter optimerer mod præference i en to-trins procedure: belønning læring, og politik optimering (via RL) for at maksimere den lærte belønning. Under visse
Den belønning maximization framing udgør en stor begrænsning. Belønningsfunktioner, defineret til at udstede en skalar score r(x, y) for en enkelt respons y til input x, kan ikke udtrykke generelle præferencer y y ′, x mellem et par outputs i alle tilfælde, f.eks. intransitive eller cykliske præferencer (Elo, 1978). Derfor kan LLMs uddannet under belønning maximization ikke altid matche med menneskelige præferencer. Desuden viser nyere arbejde, at selv i indstillinger, hvor præferencer kan udtrykkes perfekt under de belønning-baserede BT-modeller, optimering mod belønninger giver problematisk adfærd; vi refererer læseren til Bertrand et al. (2023); Azar et al. (2023)
Vi er motiveret til at overvinde to separate udfordringer: den begrænsede udtryksfuldhed af belønningsbaseret RLHF og manglen på klarhed om, hvordan man skalerer optimering i forhold til generelle præferencer.
Vi foreslår en testbar og skalerbar RLHF-algoritme – Direct Nash Optimization (DNO) (Algorithm 1) som opnår det bedste af begge verdener, der kombinerer skalerbarheden af kontrastmål med den teoretiske soliditet af generel præferenceoptimering.Direkt Nash OptimizationDirect Nash Optimization Direkte Nash Optimization
Vi opsummerer på et højt niveau de vigtigste ingredienser og indsigter fra DNO nedenfor.
For at løse spørgsmålet om, at belønningsfunktioner ikke kan udtrykke generelle præferencer, udnytter vi nylige indsigter om, at begrebet belønning bør udtrykkes som forventede gevinstrater i forhold til en generel præferencefunktion.[2]
For at løse spørgsmålet om, at belønningsfunktioner ikke kan udtrykke generelle præferencer, udnytter vi nylige indsigter om, at begrebet belønning bør udtrykkes som forventede gevinstrater i forhold til en generel præferencefunktion.[2]
For at løse problemet fundet i tidligere arbejde, at optimering af dette mere generelle mål med online-algoritmer er stikprøve-ineffektiv eller ustabil, vi nedbryde læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression mål.
For at løse problemet fundet i tidligere arbejde, at optimering af dette mere generelle mål med online algoritmer er stikprøve-ineffektiv eller ustabil, vi nedbryde læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression mål.
Regressionsobjektivet (vi vælger binær cross-entropy) tilpasser den "interne belønningsfunktion" af politikken til den forventede win-rate i forhold til sig selv (som defineret i linje 3 i algoritme 1).
Vores rammer er generelle nok til at tillade off-policy-prøver i træning, vigtigst af alt, dem fra en mere kraftfuld lærer (Se valg af μ1 og μ2 i Algoritme 1).
Vores rammer er generelle nok til at tillade off-policy prøver i træning, vigtigst af alt, dem fra en mere kraftfuld lærer (Se valg af μ1 og μ2 i Algoritme 1).
DNO gentager denne procedure for flere iterationer for at lade politikken optimeres mod den generelle præference.
DNO gentager denne procedure for flere iterationer for at lade politikken optimere mod den generelle præference.
Da hvert trin involverer et regressionsproblem, kan det nemt implementeres på skalaen.
Teoretisk viser vi, at DNO konvergerer til den tilsigtede Nash-balance i gennemsnit, og at den kan forbedre monotont over iterationer (se afsnit 3.1).
Den primære forskel i vores arbejde over relaterede værker af Nash-MD (Munos et al., 2023) og SPO (Swamy et al., 2024) er, at de begge viser prøveeffektivitetsproblemer (to tidsskalaopdateringer eller prøve-ineffektive RL-trin), og begge bruger rent på-politikprøver.
Det vigtigste er, at DNO fungerer i praksis – vi leverer omfattende empiriske evalueringer, som resulterer i state-of-the-art ydeevne:
• Den resulterende 7B-parameter Orca-2.5 model, justeret ved hjælp af den praktiske implementering af DNO (Algorithm 2), opnår den state-of-the-art win-rate af enhver 7B model, overstiger 33% mod GPT-4-Turbo ud over på AlpacaEval 2.0, selv efter kontrol for længde. Dette er en over 26% absolut gevinst (7%→33%) sammenlignet med den initialiserede model. Det overgår flere nyere avancerede lukkede-source modeller, herunder Mistral Large og GPT-4-0613, samt open-source modeller med langt flere (10×) parametre, såsom Self-Rewarding LM (Yuan et al., 2024) som har 70B parametre.
• Vores grundige ablation undersøgelser i afsnit 5.2 undersøge kritiske design touchpoints omkring valg af tab funktion (overvåget finetuning eller kontrast), træning paradigme (med eller uden on-policy prøver), præference annotator kvalitet (stor margin eller ikke), og træning par konstruktion (selv-spil, lærer-versus-studerende, etc.) Vores resultater fremhæve, at omhyggeligt udformede metoder kodet i algoritme 2 fører til betydelige gevinster.
• Vi viser nogle eksempler på outputs på tværs af iterationer, der demonstrerer kvalitative forbedringer såsom bedre håndtering af nuancerede problemer og formodede spørgsmål (tabel 5), bedre organisation og klarhed, mens man afholder sig fra at lave vildledende udsagn (tabel 6), og højere informationstæthed i svar (tabel 7).
Vi håber, at de resultater, der præsenteres her, vil give klarhed til samfundet om brugen af AI-feedback til post-training LLMs.
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv»hr«[1] Vi bruger "belønningsmodel" til at betegne en ramme, der oversætter præferencer til belønninger, f.eks. Bradley-Terry, mens "belønningsfunktion" er en (muligvis lært) funktion, der udleder belønningsskalaer.