Аутори:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Аутори:
Аутори:(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Табела линкова
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Прилог
ПрилогA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental DetailsАбстракт <п>Ова параметарска истраживања, укључујући и ЛЛХФ, помажу да се постигне ефикасност, користећи прије-тренинг велике језичке моделе (ЛЛМ) користећи преференциалне повратне информације из моћног оракула како би се помогло моделу да се итеративно побољша над самим собом. Типичан приступ за пост-тренинг ЛЛМ-ове укључује побољшање учења из људских повратних информација (РЛХФ), који традиционално раздваја наградно учење и накнадно оптимизацију политике. Међутим, такав приступ за максимизацију награде је ограничен природом "поинт-виде" награде (као што је Брадлеи-Терри модел), који не изражава сложене интра1 Увод
Поље вештачке интелигенције се развија према напредним моделима који могу да разумеју, размишљају, прате сложене инструкције и креирају нијансирани садржај, док се усклађују са људским вредностима и преференцијама. Велики језички модели (ЛЛЛМ) (нпр., Браун и другови, 2020; Оуианг и другови, 2022; Туврон и другови, 2023; ОпенАи и другови, 2023) су показали изванредне способности у генерисању људског текста, одговарајућим питањима и кодирањем, али и даље се суочавају са изазовима у задацима који захтијевају висок степен поузданости, сигурности и етичког усклађивања. Да би се суочили са овим изазовима, фи
1 Увод
Поље вештачке интелигенције се развија према напредним моделима који могу да разумеју, размишљају, прате сложене инструкције и креирају нијансирани садржај, док се усклађују са људским вредностима и преференцијама. Велики језички модели (ЛЛЛМ) (нпр., Браун и другови, 2020; Оуианг и другови, 2022; Туврон и другови, 2023; ОпенАи и другови, 2023) су показали изванредне способности у генерисању људског текста, одговарајућим питањима и кодирањем, али и даље се суочавају са изазовима у задацима који захтијевају висок степен поузданости, сигурности и етичког усклађивања. Да би се суочили са овим изазовима, фи
Један РЛХФ оквир је дуго проучаван у контексту преференцијалног појачања учења (РЛ) или РЛ из људских преференција (нпр. Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенционалне методе за РЛХФ обично претпостављају да је преференција одређена скаларном функцијом награде кроз неки модел, као што је често коришћен Брадлеи-Терри (БТ) модел (Брадлеи и Терри, 1952).[1] РЛХФ затим оптимизује према преференцији у двостепеној процедури: наградно учење, максимална оптимизација политике (преко РЛ) како би се максимизирала
Мотивисани смо да превазиђемо два одвојена изазова: ограничена експресивност РЛХФ-а заснованог на наградама и недостатак јасноће о томе како повећати оптимизацију у односу на опште преференције.Недавни напредак у оптимизацији заснованој на наградама, на пример, ДПО, већ има ефикасне и скалабилне имплементације - тражимо једнако ефикасно решење у оквиру општих преференција.
Предлажемо доказан и скалабилан РЛХФ алгоритам - Дирецт Насх Оптимизација (ДНО) (Алгоритам 1) који постиже најбоље од оба света, комбинујући скалабилност контрастивних циљева са теоријском чврстоћом опће преференције оптимизације.Директна оптимизација за НасхДиректна оптимизација наша
Ми сумирамо на високом нивоу кључне састојке и увиде ДНО испод.
Да би се решио проблем који се налази у претходном раду који оптимизује овај општи циљ са онлине алгоритмима Сецхесион је узорак-неефикасан или нестабилан, ми разбијамо поступак учења у низ итерација "бацк-он-полици" у односу на "очекиване добитне стопе" у односу на себе (где сваки корак уместо тога оптимизује једноставан регресиони циљ.
Да би се решило питање да функције награђивања не могу изразити опште преференције, користимо недавне увиде да се концепт награђивања треба изразити као очекиване стопе победе у односу на општу функцију преференције.[2]
To address the issue that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of ought to be expressed as expected win-rates with regard to a general preference function.[2]
To address the issue found in previous work that optimizing this more general objective with online algorithms is sample-inefficient or unstable, we decompose the learning procedure into a sequence of “batched on-policy” iterations, wherein each step instead optimizes a simple regression objective.
Да би се ријешило питање пронађено у претходном раду да је оптимизација овог општијег циља са онлине алгоритмима узорак неефикасна или нестабилна, разбијамо поступак учења у низ "пацк-он-полици" итерација, у којима сваки корак уместо тога оптимизује једноставан циљ регресије.
Циљ регресије (изабрали бинарну цросс-ентропију) усклађује "унутрашњу функцију награде" политике са очекиваном стопом победе у поређењу са самим собом (као што је дефинисано у линији 3 алгоритма 1).
Циљ регресије (изабрали смо бинарну цросс-ентропију) усклађује "унутрашњу функцију награде" политике са очекиваном стопом победе у односу на себе (као што је дефинисано у линији 3 алгоритма 1).
Наш оквир је довољно општи да прихвати узоре ван политике у обуку, што је важно, оне од моћнијег учитеља (Види избор μ1 и μ2 у Алгоритму 1).
Наш оквир је довољно општи да прихвати узоре ван политике у обуку, што је важно, оне од моћнијег учитеља (Види избор μ1 и μ2 у Алгоритму 1).
DNO repeats this procedure for multiple iterations to let the policy optimize toward the general preference. Since each step involves a regression problem it can be easily implemented at scale.
DNO ponavlja ovu proceduru za višestruke iteracije da bi se politika optimizovala prema opštoj preferenciji.
Теоретски, доказујемо да ДНО конвергира са намењеним Насх равнотежом у просеку, и да се може монотоно побољшати кроз итерације (види одељак 3.1).
На практичној страни, пружамо скалабилну имплементацију ДНО (Алгоритам 2): итеративни алгоритам за самопобољшање са контрастивним ажурирањима, који приближава Алгоритам 1 под неколико критичних дизајнерских избора. Ови избори укључују: узорковање више онлине излаза из политике која се обучава, користећи ГПТ-4 као преференцијални оракул, упоређујући узорке на политици са сопственим (учитељским) излазима ГПТ-4, и обуку само на паровима са "великим маргинама" (за теоријско објашњење, погледајте Одељак 4; у пракси, погледајте Одељак 5.2).
Најважније, ДНО ради у пракси – пружамо свеобухватне емпиријске евалуације, што резултира најсавременијим перформансама:
• Добијени 7Б параметар Орца-2.5 модел, усклађен користећи практичну имплементацију ДНО (Алгоритам 2), постиже најсавременију стопу победе било ког 7Б модела, премашујући 33% у односу на ГПТ-4-Турбо и даље на АлпацаЕвал 2.0, чак и након контроле дужине. Ово је преко 26% апсолутна добит (7%→33%) у поређењу са иницијализованим моделом.
• Приказујемо неке примере излаза преко итерација које показују квалитативна побољшања као што су боље рјешавање нијансираних проблема и претпостављајућих питања (Табела 5), боља организација и јасноћа док се уздржавају од израде погрешних изјава (Табела 6), и већа густина информација у одговорима (Табела 7).
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv» Хр[1] Користимо „модел награде“ да означимо оквир који преводи преференције у награде, на пример, Брадлеи-Терри, док је „функција награде“ (по могућности научена) функција која изводи скаларе награде.