Forfattere af:
af(1) Corby Rosset, Microsoft Research og korrespondance til [email protected]
af(2) Ching-An Cheng, Microsoft Research
af3) Arindam Mitra, Microsoft Research
afMichael Santacroce, direktør for Microsoft Research
af(5) Ahmed Awadallah, Microsoft Research og korrespondance til [email protected];
af(6) Tengyang Xie, Microsoft Research og korrespondance til [email protected].
afAuthors:
(1) Corby Rosset, Microsoft Research og korrespondance til [email protected]
(2) Ching-An Cheng, Microsoft Research
3) Arindam Mitra, Microsoft Research
Michael Santacroce, direktør for Microsoft Research
(5) Ahmed Awadallah, Microsoft Research og korrespondance til [email protected];
(6) Tengyang Xie, Microsoft Research og korrespondance til [email protected].
Bord til venstre
2.1 RLHF baseret på belønningsmodeller
2.2 RLHF med generelle præferencer
3 Direct Nash Optimization og 3.1 Derivation af algoritme 1
4 Praktisk algoritme – iterativ kontrastiv selvforbedring
5 Eksperimenter og 5.1 Eksperimentel opsætning
Appendix
En udvidelse til regulerede præferencer
C Yderligere eksperimentelle detaljer
Abstrakte
Denne langvarige forskning omfatter også de indledende store sprogmodeller (LLM'er) ved hjælp af præferencefeedback fra et stærkt orakel for at hjælpe en model med iterativt at forbedre over sig selv. Den typiske tilgang til post-training LLM'er involverer selvstyrende læring fra menneskelig feedback (RLHF), som traditionelt adskiller belønningsindlæring fra efterfølgende politikoptimering. Men en sådan belønningsoptimeringsmetode er begrænset af karakteren af "point-wise" belønninger (som for eksempel Bradley-Terry-modellen), som ikke udtrykker komplekse intransitive eller cykliske præferenceparametrarelationer. Mens fremskridt på RLHF viser belønningsindlæring og efterfølgende politikoptimering kan fusion
1 Introduktion
Feltet med kunstig intelligens udvikler sig mod avancerede modeller, der kan forstå, begrunde, følge komplekse instruktioner og skabe nuanceret indhold, samtidig med at de tilpasser sig menneskelige værdier og præferencer. Store sprogmodeller (LLM'er) (f.eks. Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) har vist bemærkelsesværdige evner i at generere menneskelig tekst, besvare spørgsmål og kodning, men de står stadig over for udfordringer i opgaver, der kræver en høj grad af pålidelighed, sikkerhed og etisk tilpasning. For at imødegå disse udfordringer har finjusterede LLM'er ved hjælp af forstærket læring fra menneskelig feedback (HRLF) (Christiano et al.,
RLHF single framework har længe været studeret i sammenhæng med præference-baseret forstærkning læring (RL) eller RL fra menneskelige præferencer (f.eks. Knox og Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). De konventionelle metoder til RLHF typisk antager, at præferencen bestemmes af en skalær belønningsfunktion gennem nogle model, såsom den hyppigt anvendte Bradley-Terry (BT) model (Bradley og Terry, 1952).[1] RLHF optimerer derefter mod præference i en to-trins procedure: belønning læring, politik optimering (gennem RL) for at maksimere den lærte belønning. Under visse betingelser
Reward maximization framing udgør en stor begrænsning. Reward-funktioner, der er defineret til at udstede en skalar score r(x, y) for et enkelt svar y til input x, kan ikke udtrykke generelle præferencer y y ′ḳ x mellem et par outputs i alle tilfælde, f.eks. intransitive eller cykliske præferencer (Elo, 1978). Derfor kan LLM'er uddannet under reward maximization ikke altid matche med menneskelige præferencer. Desuden viser nyere arbejde, at selv i indstillinger, hvor præferencer kan udtrykkes perfekt under de reward-baserede BT-modeller, optimering mod belønninger giver problematisk adfærd; vi læser referenten til Bertrand et al. (2023); Azar et al. (2023); Munos et
Vi er motiveret til at overvinde to separate udfordringer: den begrænsede udtryksfuldhed af belønningsbaseret RLHF og manglen på klarhed om, hvordan man skalerer optimering i forhold til generelle præferencer.
Vi foreslår en beviselig og skalerbar RLHF algoritme -Direkte Nash optimering(DNO) (Algorithm 1) som opnår det bedste af begge verdener, der kombinerer skalerbarheden af kontrastmål med den teoretiske soliditet af generel præferenceoptimering.DNO er designet som en batch-on-policy algoritme med et regression-baseret læringsmål; dette designvalg gør DNO stabil og skalerbar, der skaber en balance mellem implementeringseffektivitet og tilpasningsevne.
Direkte Nash optimering
Vi opsummerer på et højt niveau de vigtigste ingredienser og indsigter fra DNO nedenfor.
- af
- For at løse spørgsmålet om, at belønningsfunktioner ikke kan udtrykke generelle præferencer, udnytter vi nylige indsigter om, at begrebet belønning bør udtrykkes som forventede gevinstrater i forhold til en generel præferencefunktion.[2] af
- For at løse problemet fundet i tidligere arbejde, at optimering af dette mere generelle mål med online algoritmer er stikprøve ineffektiv eller ustabil, vi nedbryde læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression mål. af
- Regressionsmålet (vi vælger binær cross-entropy) tilpasser den "interne belønningsfunktion" af politikken til den forventede win-rate i forhold til sig selv (som defineret i linje 3 af algoritme 1). af
- Vores ramme er generel nok til at tillade off-policy prøver i uddannelse, vigtigst, dem fra en mere kraftfuld lærer (Se valg af μ1 og μ2 i Algoritme 1). af
- Endvidere for at sikre stabilitet og beregningseffektivitet foreslår vi en filtreringsordning, således at belønningsregressionen kun udføres på præferencepar med en tilstrækkeligt stor margin (for teoretisk forklaring se afsnit 4; i praksis se afsnit 5.2). af
- DNO gentager denne procedure for flere iterationer for at lade politikken optimere mod den generelle præference. af
Teoretisk viser vi, at DNO konvergerer til den tilsigtede Nash-balance i gennemsnit, og at den kan forbedre monotont over iterationer (se afsnit 3.1).
På den praktiske side giver vi en skalerbar implementering af DNO (Algorithm 2): en iterativ selvforbedrende algoritme med kontrastopdateringer, der tilnærmer algoritme 1 under flere kritiske designvalg. Disse valg omfatter: prøveudtagning af flere online outputs fra den politik, der trænes, ved hjælp af GPT-4 som foretrukne oraklet, sammenligning af onpolicy-prøver med GPT-4's egne (lærer) outputs, og træning kun på par med "stor margin" (for teoretisk forklaring se afsnit 4; i praksis se afsnit 5.2).
Den primære forskel på vores arbejde over relaterede værker af Nash-MD (Munos et al., 2023) og SPO (Swamy et al., 2024) er, at de begge udstiller prøveeffektivitetsproblemer (to tidsskalaopdateringer eller prøve-ineffektive RL-trin), og begge bruger rent på-politikprøver.
Vigtigst af alt arbejder DNO i praksis – vi leverer omfattende empiriske evalueringer, som resulterer i state-of-the-art ydeevne:
• Den resulterende 7B-parameter Orca-2.5 model, justeret ved hjælp af den praktiske implementering af DNO (Algorithm 2), opnår den state-of-the-art win-rate af enhver 7B model, overstiger 33% mod GPT-4-Turbo ud over på AlpacaEval 2.0, selv efter kontrol for længde. Dette er en over 26% absolut gevinst (7%→33%) sammenlignet med den initialiserede model. Det overgår flere nyere avancerede lukkede-source modeller, herunder Mistral Large og GPT-4-0613, samt open-source modeller med langt flere (10×) parametre, såsom Self-Rewarding LM (Yuan et al., 2024) som har 70B parametre.
• Vores grundige ablation undersøgelser i afsnit 5.2 undersøge kritiske design touchpoints omkring valg af tab funktion (overvåget finetuning eller kontrastive), træning paradigme (med eller uden on-policy prøver), præference annotator kvalitet (stor margin eller ikke), og træning par konstruktion (selv-spil, lærer-versus-studerende, etc.) Vores resultater fremhæve, at omhyggeligt udformede metoder kodet i algoritme 2 føre til betydelige gevinster.
• Vi viser nogle eksempler på outputs på tværs af iterationer, der demonstrerer kvalitative forbedringer såsom bedre håndtering af nuancerede problemer og formodede spørgsmål (tabel 5), bedre organisation og klarhed, mens man afholder sig fra at lave vildledende udsagn (tabel 6), og højere informationstæthed i svar (tabel 7).
Vi håber, at de resultater, der præsenteres her, vil give klarhed til samfundet om brugen af AI-feedback til post-training LLMs.
Denne artikel er tilgængelig på arkiv under CC BY 4.0 DEED licens.
afDenne artikel er tilgængelig på arkiv under CC BY 4.0 DEED licens.
[1] Vi bruger "belønningsmodel" til at betegne en ramme, der oversætter præferencer til belønninger, f.eks. Bradley-Terry, mens "belønningsfunktion" er en (muligvis lært) funktion, der udleder belønningsskalaer.