Kunsten at argumentere med dig selv - og hvorfor det gør AI smartere

Forfattere:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Forfattere:

Forfattere:(1) Corby Rosset, Microsoft Research og korrespondance til [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research og korrespondance til [email protected];

(6) Tengyang Xie, Microsoft Research og korrespondance til [email protected].

Tabel over links

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Tilføjelse

A Extension to Regularized Preferences

B Detailed Proofs

C Additional Experimental Details

abstrakt

Den typiske tilgang til efteruddannede LLM'er, herunder LLHF, involverer styrkelse af læring fra komplekse intransitive eller cykliske præferenceforhold, mens fremskridt på RLHF traditionelt adskiller belønningsindlæring og efterfølgende politikoptimering. Men en sådan belønningsoptimeringsmetode er begrænset af karakteren af "point-wise" belønningsrammer (såsom Bradley-Terry-modellen), som ikke udtrykker komplekse intransitive eller cykliske præferenceparametre. Mens fremskridt på RLHF viser belønningsindlæring og efterfølgende politikoptimering kan fusioneres i en enkelt kontrast-optimeringsmetode for stabilitet, forbliver de stadig tæt knyttet til belønningsoptimeringsrammen.

1 Introduktion

Feltet med kunstig intelligens udvikler sig mod avancerede modeller, der kan forstå, begrunde, følge komplekse instruktioner og skabe nuanceret indhold, samtidig med at de tilpasser sig menneskelige værdier og præferencer. Store sprogmodeller (LLM'er) (f.eks. Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) har vist bemærkelsesværdige evner i at generere menneskelig tekst, besvare spørgsmål og kodning, men de står stadig over for udfordringer i opgaver, der kræver en høj grad af pålidelighed, sikkerhed og etisk tilpasning. For at imødegå disse udfordringer har finjusterede LLM'er ved hjælp af Forstærket læring fra menneskelig feedback (HRLF) (Christiano

Den enkelt RLHF ramme er længe blevet studeret i forbindelse med præference-baseret forstærkning læring (RL) eller RL fra menneskelige præferencer (f.eks. Knox og Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). De konventionelle metoder for RLHF typisk antager, at præferencen bestemmes af en skalær belønning funktion gennem nogle model, såsom den hyppigt anvendte Bradley-Terry (BT) model (Bradley og Terry, 1952).[1] RLHF derefter optimerer mod præference i en to-trins procedure: belønning læring, og politik optimering (via RL) for at maksimere den lærte belønning. Under visse

Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.

Den belønning maximization framing udgør en stor begrænsning. Belønningsfunktioner, defineret til at udstede en skalar score r(x, y) for en enkelt respons y til input x, kan ikke udtrykke generelle præferencer y y ′, x mellem et par outputs i alle tilfælde, f.eks. intransitive eller cykliske præferencer (Elo, 1978). Derfor kan LLMs uddannet under belønning maximization ikke altid matche med menneskelige præferencer. Desuden viser nyere arbejde, at selv i indstillinger, hvor præferencer kan udtrykkes perfekt under de belønning-baserede BT-modeller, optimering mod belønninger giver problematisk adfærd; vi refererer læseren til Bertrand et al. (2023); Azar et al. (2023)

Vi er motiveret til at overvinde to separate udfordringer: den begrænsede udtryksfuldhed af belønningsbaseret RLHF og manglen på klarhed om, hvordan man skalerer optimering i forhold til generelle præferencer.

Vi foreslår en testbar og skalerbar RLHF-algoritme – Direct Nash Optimization (DNO) (Algorithm 1) som opnår det bedste af begge verdener, der kombinerer skalerbarheden af kontrastmål med den teoretiske soliditet af generel præferenceoptimering.Direkt Nash OptimizationDirect Nash Optimization Direkte Nash Optimization

Vi opsummerer på et højt niveau de vigtigste ingredienser og indsigter fra DNO nedenfor.

For at løse problemet, at belønningsfunktioner ikke kan udtrykke generelle præferencer, udnytter vi de seneste indsigter om, at begrebet belønning bør udtrykkes som forventet win-rate i forhold til en generel præferencefunktion.[2]

For at løse problemet fundet i tidligere arbejde, der optimerer dette mere generelle mål med online-algoritmer, er sekvens-ineffektiv eller ustabil, vi nedbryder læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression-objektiv.

For at løse problemet, der findes på dette mere generelle mål med online-algoritmer, kan

For at løse spørgsmålet om, at belønningsfunktioner ikke kan udtrykke generelle præferencer, udnytter vi nylige indsigter om, at begrebet belønning bør udtrykkes som forventede gevinstrater i forhold til en generel præferencefunktion.[2]

For at løse problemet fundet i tidligere arbejde, at optimering af dette mere generelle mål med online-algoritmer er stikprøve-ineffektiv eller ustabil, vi nedbryde læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression mål.

For at løse problemet fundet i tidligere arbejde, at optimering af dette mere generelle mål med online algoritmer er stikprøve-ineffektiv eller ustabil, vi nedbryde læringsproceduren i en sekvens af "batched on-policy" iterationer, hvor hvert trin i stedet optimerer et simpelt regression mål.

Regressionsmålet (vi vælger binær cross-entropy) tilpasser den interne belønningsfunktion i politikken til den forventede win-rate i forhold til sig selv (som defineret i linje 3 i algoritme 1).

Regressionsobjektivet (vi vælger binær cross-entropy) tilpasser den "interne belønningsfunktion" af politikken til den forventede win-rate i forhold til sig selv (som defineret i linje 3 i algoritme 1).

Vores rammer er generelle nok til at tillade off-policy-prøver i træning, vigtigst af alt, dem fra en mere kraftfuld lærer (Se valg af μ1 og μ2 i Algoritme 1).

Vores rammer er generelle nok til at tillade off-policy prøver i træning, vigtigst af alt, dem fra en mere kraftfuld lærer (Se valg af μ1 og μ2 i Algoritme 1).

For at sikre stabilitet og beregningseffektivitet foreslår vi desuden en filtreringsordning, således at belønningsregressionen kun udføres på præferencepar med en tilstrækkelig stor margin (for teoretisk forklaring se afsnit 4; i praksis se afsnit 5.2).

For at sikre stabilitet og beregningseffektivitet foreslår vi desuden en filtreringsordning, således at belønningsregressionen kun udføres på præferencepar med en tilstrækkeligt stor margin (for teoretisk forklaring se afsnit 4; i praksis se afsnit 5.2).

DNO gentager denne procedure for flere iterationer for at lade politikken optimeres mod den generelle præference.

DNO gentager denne procedure for flere iterationer for at lade politikken optimere mod den generelle præference.

Da hvert trin involverer et regressionsproblem, kan det nemt implementeres på skalaen.

Teoretisk viser vi, at DNO konvergerer til den tilsigtede Nash-balance i gennemsnit, og at den kan forbedre monotont over iterationer (se afsnit 3.1).

På den praktiske side giver vi en skalerbar implementering af DNO (Algorithm 2): en iterativ selvforbedrende algoritme med kontrastopdateringer, som tilnærmer algoritme 1 under flere kritiske designvalg. Disse valg omfatter: prøveudtagning af flere online outputs fra den politik, der trænes, ved hjælp af GPT-4 som præference oraklet, sammenligning af onpolicy-prøver med GPT-4's egne (lærer) outputs, og træning kun på par med "stor margin" (for teoretisk forklaring se afsnit 4; i praksis se afsnit 5.2).

Den primære forskel i vores arbejde over relaterede værker af Nash-MD (Munos et al., 2023) og SPO (Swamy et al., 2024) er, at de begge viser prøveeffektivitetsproblemer (to tidsskalaopdateringer eller prøve-ineffektive RL-trin), og begge bruger rent på-politikprøver.

Det vigtigste er, at DNO fungerer i praksis – vi leverer omfattende empiriske evalueringer, som resulterer i state-of-the-art ydeevne:

• Den resulterende 7B-parameter Orca-2.5 model, justeret ved hjælp af den praktiske implementering af DNO (Algorithm 2), opnår den state-of-the-art win-rate af enhver 7B model, overstiger 33% mod GPT-4-Turbo ud over på AlpacaEval 2.0, selv efter kontrol for længde. Dette er en over 26% absolut gevinst (7%→33%) sammenlignet med den initialiserede model. Det overgår flere nyere avancerede lukkede-source modeller, herunder Mistral Large og GPT-4-0613, samt open-source modeller med langt flere (10×) parametre, såsom Self-Rewarding LM (Yuan et al., 2024) som har 70B parametre.

• Vores grundige ablation undersøgelser i afsnit 5.2 undersøge kritiske design touchpoints omkring valg af tab funktion (overvåget finetuning eller kontrast), træning paradigme (med eller uden on-policy prøver), præference annotator kvalitet (stor margin eller ikke), og træning par konstruktion (selv-spil, lærer-versus-studerende, etc.) Vores resultater fremhæve, at omhyggeligt udformede metoder kodet i algoritme 2 fører til betydelige gevinster.

• Vi viser nogle eksempler på outputs på tværs af iterationer, der demonstrerer kvalitative forbedringer såsom bedre håndtering af nuancerede problemer og formodede spørgsmål (tabel 5), bedre organisation og klarhed, mens man afholder sig fra at lave vildledende udsagn (tabel 6), og højere informationstæthed i svar (tabel 7).

Vi håber, at de resultater, der præsenteres her, vil give klarhed til samfundet om brugen af AI-feedback til post-training LLMs.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv»hr«

[1] Vi bruger "belønningsmodel" til at betegne en ramme, der oversætter præferencer til belønninger, f.eks. Bradley-Terry, mens "belønningsfunktion" er en (muligvis lært) funktion, der udleder belønningsskalaer.

Kunsten at argumentere med dig selv - og hvorfor det gør AI smartere

For langt; At læse

Tabel over links

abstrakt

1 Introduktion

About Author

HÆNG TAGS

DENNE ARTIKEL BLEV PRÆsenterET I...

Categories

Trending Topics

Kunsten at argumentere med dig selv - og hvorfor det gør AI smartere

For langt; At læse

Tabel over links

abstrakt

1 Introduktion

About Author

HÆNG TAGS

DENNE ARTIKEL BLEV PRÆsenterET I...

RELATEREDE HISTORIER

Categories

Trending Topics