Hoe kontrastiewe leer help AI selfverbeter

Auteurs:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Auteurs:

Auteurs:

(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];

(2) Ching-An Cheng, Microsoft Navorsing;

(3) Arindam Mitra, Microsoft Navorsing;

(4) Michael Santacroce, Microsoft Navorsing;

(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];

(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].

Tabel van Links

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Behandeling

Behandeling

A Extension to Regularized Preferences

B Detailed Proofs

C Additional Experimental Details

4 Praktiese algoritme – iteratiewe kontrastiewe selfverbetering

In hierdie afdeling verskuif ons ons fokus na die algoritmiese ontwerp van die feitlik skaalbare weergawe van DNO, volgens die beginsels wat in die laaste afdeling bespreek is. 'n Primêre uitdaging wat in die implementering van die konseptuele algoritme DNO (Algorithm 1) ontmoet, kom van die behoefte om die verwagting te bereken ten opsigte van die voorkeurfunksie P onder die huidige beleid πt.

Ons bied ons die praktiese implementering van DNO in Algoritme 2 (DNO-Prct), wat 'n batch-on-policy-algoritme is wat selfverbetering iteratief deur middel van kontrastiewe leer verrig. Een sleutel oorweging in ons algoritmiese ontwerp is dat ons slegs die beloningsfunksie rt implisiet moet gebruik. Dit kom van die spesiaal ontwerp op beleid samestelling, data filtering en paarbestelling. Terwyl hierdie spesifieke ontwerpkeuses DNO-Prct soortgelyk maak aan eenvoudig DPO iteratief uit te voer, is daar aansienlike redes vir hierdie ontwerpbesluite, soos ons hieronder sal bespreek.

Verhouding tussen DNO-Prct en DPO. Die leser kan onderskei dat DNO-Prct (Algorithm 2)—die praktiese implementering van DNO—kan beskryf word as 'n iteratiewe weergawe van die DPO-algoritme. Hierdie ooreenkoms is deur ontwerp, bedoel om die eenvoud en doeltreffendheid van DPO te benut (Rafailov et al., 2023) en bou op empiriese vorderings uit onlangse werk wat DPO iteratief toepas (bv. Yuan et al., 2024; Tran et al., 2024). Ons eksperimente dui op die belangrikheid van verskeie ontwerpkeure wat help om die algemene voorkeure aan te pas, soos rangordeel afkomstig van paartjie-winsVerhouding tussen en “’n metaal ontwerp iteratief”’n versigtig ontwerp iteratiefalgoritme" kan die Nash-balans van enige gegewe algemene voorkeure benader.algoritme" kan die Nash-balans van enige gegewe algemene voorkeure benader.

Ons algemene algoritmiese raamwerk—DNO (algoritme 1)—is breër en fundamenteel anders as iteratiewe DPO. Byvoorbeeld, die DNO raamwerk kan ook direk uitgebrei word na die geregulariseerde voorkeur geval (soos bespreek in Aanhangsel A) of toegerus met ander gevorderde steekproef tegnieke (bv, Liu et al., 2024b, RSO) soos voorgestel deur Theorem 1 vir steekproef doeltreffendheid. Aan die ander kant, hoewel die sagte beleid iterasie (of die KL-regularized beloning optimalisering) gebruik word in beide DNO en DPO, ontstaan hulle uit fundamenteel verskillende redes.

Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.

gebaseer op aanlynleren, geen spyt leer deur spieël afkoms (Nemirovskij en Yudin, 1983) of volg-regularized-leader (FTRL) (Kalai en Vempala, 2005; Cesa-Bianchi en Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Vir DPO en PPO, die KL-regularization is 'n benadering vir die totale variasie boete om monotone verbetering van die beleid te verseker (Kakade en Langford, 2002; Schulman et al., 2015). Later, hierdie benadering is vereenvoudig deur Schulman et al. (2017, PPO), en onlangs gebruik vir post-opleiding LLMs (Ouyang et al., 2022).

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv

Hoe kontrastiewe leer help AI selfverbeter

Te lank; Om te lees

Tabel van Links

4 Praktiese algoritme – iteratiewe kontrastiewe selfverbetering

About Author

HANG TAGS

HIERDIE ARTIKEL IS AANGEBIED IN...

Categories

Trending Topics

Hoe kontrastiewe leer help AI selfverbeter

Te lank; Om te lees

Tabel van Links

4 Praktiese algoritme – iteratiewe kontrastiewe selfverbetering

About Author

HANG TAGS

HIERDIE ARTIKEL IS AANGEBIED IN...

VERWANTE STORIES

Categories

Trending Topics