Nuwe geskiedenis

Hoe kontrastiewe leer help AI selfverbeter

Te lank; Om te lees

Hierdie afdeling introduceer DNO-Prct, 'n praktiese en skaalbare implementasie van Direct Nash Optimization. Dit maak gebruik van iteratiewe kontrastiewe leer - soortgelyk aan DPO - maar is ontwerp vir batch-op-beleid opleiding met algemene voorkeure.
featured image - Hoe kontrastiewe leer help AI selfverbeter
Language Models (dot tech) HackerNoon profile picture
0-item

Auteurs:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Auteurs:

Auteurs:

(1) Corby Rosset, Microsoft Navorsing en Korrespondensie aan [email protected];

(2) Ching-An Cheng, Microsoft Navorsing;

(3) Arindam Mitra, Microsoft Navorsing;

(4) Michael Santacroce, Microsoft Navorsing;

(5) Ahmed Awadallah, Microsoft Navorsing en Korrespondensie aan [email protected];

(6) Tengyang Xie, Microsoft Navorsing en Korrespondensie aan [email protected].

Tabel van Links

Abstract and 1 Introduction

Abstract and 1 Introduction

2 Preliminaries

2 Preliminaries

2.1 RLHF Based on Reward Models

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

5.2 Results and Analysis

6 Related Work

6 Related Work

7 Conclusion and References

7 Conclusion and References


Behandeling

Behandeling

A Extension to Regularized Preferences

A Extension to Regularized Preferences

B Detailed Proofs

B Detailed Proofs

C Additional Experimental Details

C Additional Experimental Details

4 Praktiese algoritme – iteratiewe kontrastiewe selfverbetering

In hierdie afdeling verskuif ons ons fokus na die algoritmiese ontwerp van die feitlik skaalbare weergawe van DNO, volgens die beginsels wat in die laaste afdeling bespreek is. 'n Primêre uitdaging wat in die implementering van die konseptuele algoritme DNO (Algorithm 1) ontmoet, kom van die behoefte om die verwagting te bereken ten opsigte van die voorkeurfunksie P onder die huidige beleid πt.


Ons bied ons die praktiese implementering van DNO in Algoritme 2 (DNO-Prct), wat 'n batch-on-policy-algoritme is wat selfverbetering iteratief deur middel van kontrastiewe leer verrig. Een sleutel oorweging in ons algoritmiese ontwerp is dat ons slegs die beloningsfunksie rt implisiet moet gebruik. Dit kom van die spesiaal ontwerp op beleid samestelling, data filtering en paarbestelling. Terwyl hierdie spesifieke ontwerpkeuses DNO-Prct soortgelyk maak aan eenvoudig DPO iteratief uit te voer, is daar aansienlike redes vir hierdie ontwerpbesluite, soos ons hieronder sal bespreek.





Verhouding tussen DNO-Prct en DPO. Die leser kan onderskei dat DNO-Prct (Algorithm 2)—die praktiese implementering van DNO—kan beskryf word as 'n iteratiewe weergawe van die DPO-algoritme. Hierdie ooreenkoms is deur ontwerp, bedoel om die eenvoud en doeltreffendheid van DPO te benut (Rafailov et al., 2023) en bou op empiriese vorderings uit onlangse werk wat DPO iteratief toepas (bv. Yuan et al., 2024; Tran et al., 2024). Ons eksperimente dui op die belangrikheid van verskeie ontwerpkeure wat help om die algemene voorkeure aan te pas, soos rangordeel afkomstig van paartjie-winsVerhouding tussen en “’n metaal ontwerp iteratief”’n versigtig ontwerp iteratiefalgoritme" kan die Nash-balans van enige gegewe algemene voorkeure benader.algoritme" kan die Nash-balans van enige gegewe algemene voorkeure benader.


Ons algemene algoritmiese raamwerk—DNO (algoritme 1)—is breër en fundamenteel anders as iteratiewe DPO. Byvoorbeeld, die DNO raamwerk kan ook direk uitgebrei word na die geregulariseerde voorkeur geval (soos bespreek in Aanhangsel A) of toegerus met ander gevorderde steekproef tegnieke (bv, Liu et al., 2024b, RSO) soos voorgestel deur Theorem 1 vir steekproef doeltreffendheid. Aan die ander kant, hoewel die sagte beleid iterasie (of die KL-regularized beloning optimalisering) gebruik word in beide DNO en DPO, ontstaan hulle uit fundamenteel verskillende redes.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.

Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


gebaseer op aanlynleren, geen spyt leer deur spieël afkoms (Nemirovskij en Yudin, 1983) of volg-regularized-leader (FTRL) (Kalai en Vempala, 2005; Cesa-Bianchi en Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Vir DPO en PPO, die KL-regularization is 'n benadering vir die totale variasie boete om monotone verbetering van die beleid te verseker (Kakade en Langford, 2002; Schulman et al., 2015). Later, hierdie benadering is vereenvoudig deur Schulman et al. (2017, PPO), en onlangs gebruik vir post-opleiding LLMs (Ouyang et al., 2022).


This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks