Уметност расправљања са собом - и зашто то чини ИИ паметнијим

Аутори:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Аутори:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Табела линкова

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Прилог

Прилог A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
Абстракт
<п>Ова параметарска истраживања, укључујући и ЛЛХФ, помажу да се постигне ефикасност, користећи прије-тренинг велике језичке моделе (ЛЛМ) користећи преференциалне повратне информације из моћног оракула како би се помогло моделу да се итеративно побољша над самим собом. Типичан приступ за пост-тренинг ЛЛМ-ове укључује побољшање учења из људских повратних информација (РЛХФ), који традиционално раздваја наградно учење и накнадно оптимизацију политике. Међутим, такав приступ за максимизацију награде је ограничен природом "поинт-виде" награде (као што је Брадлеи-Терри модел), који не изражава сложене интра
1 Увод
Поље вештачке интелигенције се развија према напредним моделима који могу да разумеју, размишљају, прате сложене инструкције и креирају нијансирани садржај, док се усклађују са људским вредностима и преференцијама. Велики језички модели (ЛЛЛМ) (нпр., Браун и другови, 2020; Оуианг и другови, 2022; Туврон и другови, 2023; ОпенАи и другови, 2023) су показали изванредне способности у генерисању људског текста, одговарајућим питањима и кодирањем, али и даље се суочавају са изазовима у задацима који захтијевају висок степен поузданости, сигурности и етичког усклађивања. Да би се суочили са овим изазовима, фи

Један РЛХФ оквир је дуго проучаван у контексту преференцијалног појачања учења (РЛ) или РЛ из људских преференција (нпр. Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенционалне методе за РЛХФ обично претпостављају да је преференција одређена скаларном функцијом награде кроз неки модел, као што је често коришћен Брадлеи-Терри (БТ) модел (Брадлеи и Терри, 1952).[1] РЛХФ затим оптимизује према преференцији у двостепеној процедури: наградно учење, максимална оптимизација политике (преко РЛ) како би се максимизирала

<п>Одређивање максимизације награде представља велико ограничење. Функције награде, дефинисане да изведу скаларни резултат r(x, y) за један одговор y на унос x, не могу да изразе опште преференције y y ′, x између пара излаза заснованих на награди у свим случајевима, на пример, интратранзитивне или цикличне преференције (Ело, 1978). Стога, ЛЛМ-ови обучени под максимизацијом награде не могу увек да се ускладе са људским преференцијама. Штавише, недавни радови показују да чак иу поставкама у којима се преференције могу савршено изразити под моделима БТ заснованим на награди, оптимизација према наградама даје проблематично понашање; ми читате

Мотивисани смо да превазиђемо два одвојена изазова: ограничена експресивност РЛХФ-а заснованог на наградама и недостатак јасноће о томе како повећати оптимизацију у односу на опште преференције.Недавни напредак у оптимизацији заснованој на наградама, на пример, ДПО, већ има ефикасне и скалабилне имплементације - тражимо једнако ефикасно решење у оквиру општих преференција.

Предлажемо доказан и скалабилан РЛХФ алгоритам - Дирецт Насх Оптимизација (ДНО) (Алгоритам 1) који постиже најбоље од оба света, комбинујући скалабилност контрастивних циљева са теоријском чврстоћом опће преференције оптимизације.Директна оптимизација за НасхДиректна оптимизација наша

Ми сумирамо на високом нивоу кључне састојке и увиде ДНО испод.

Да би се решило питање да функције награђивања не могу да изразе опште преференције, користимо недавне увиде да је концепт награђивања требало да се изрази као очекиване добитне стопе у односу на општу функцију преференције.[2]

Да би се решио проблем који се налази у претходном раду који оптимизује овај општи циљ са онлине алгоритмима Сецхесион је узорак-неефикасан или нестабилан, ми разбијамо поступак учења у низ итерација "бацк-он-полици" у односу на "очекиване добитне стопе" у односу на себе (где сваки корак уместо тога оптимизује једноставан регресиони циљ.

Алп>

Да би се решило питање да функције награђивања не могу изразити опште преференције, користимо недавне увиде да се концепт награђивања треба изразити као очекиване стопе победе у односу на општу функцију преференције.[2]

To address the issue that reward functions cannot express general preferences, we leverage recent insights that the notion of reward of ought to be expressed as expected win-rates with regard to a general preference function.[2]

To address the issue found in previous work that optimizing this more general objective with online algorithms is sample-inefficient or unstable, we decompose the learning procedure into a sequence of “batched on-policy” iterations, wherein each step instead optimizes a simple regression objective.

Да би се ријешило питање пронађено у претходном раду да је оптимизација овог општијег циља са онлине алгоритмима узорак неефикасна или нестабилна, разбијамо поступак учења у низ "пацк-он-полици" итерација, у којима сваки корак уместо тога оптимизује једноставан циљ регресије.

Циљ регресије (изабрали бинарну цросс-ентропију) усклађује "унутрашњу функцију награде" политике са очекиваном стопом победе у поређењу са самим собом (као што је дефинисано у линији 3 алгоритма 1).
Циљ регресије (изабрали смо бинарну цросс-ентропију) усклађује "унутрашњу функцију награде" политике са очекиваном стопом победе у односу на себе (као што је дефинисано у линији 3 алгоритма 1).

Наш оквир је довољно општи да прихвати узоре ван политике у обуку, што је важно, оне од моћнијег учитеља (Види избор μ1 и μ2 у Алгоритму 1).

Наш оквир је довољно општи да прихвати узоре ван политике у обуку, што је важно, оне од моћнијег учитеља (Види избор μ1 и μ2 у Алгоритму 1).

Даље, да би се осигурала стабилност и рачунарска ефикасност, предлажемо шему филтрирања тако да се регресија награде врши само на паровима преференција са довољно великом маргином (за теоријско објашњење погледајте одељак 4; у пракси погледајте одељак 5.2).

Даље, да би се осигурала стабилност и рачунарска ефикасност, предлажемо шему филтрирања тако да се регресија награде врши само на паровима преференција са довољно великом маргином (за теоријско објашњење, погледајте одељак 4; у пракси, погледајте одељак 5.2).

DNO repeats this procedure for multiple iterations to let the policy optimize toward the general preference. Since each step involves a regression problem it can be easily implemented at scale.

DNO ponavlja ovu proceduru za višestruke iteracije da bi se politika optimizovala prema opštoj preferenciji.

Теоретски, доказујемо да ДНО конвергира са намењеним Насх равнотежом у просеку, и да се може монотоно побољшати кроз итерације (види одељак 3.1).

На практичној страни, пружамо скалабилну имплементацију ДНО (Алгоритам 2): итеративни алгоритам за самопобољшање са контрастивним ажурирањима, који приближава Алгоритам 1 под неколико критичних дизајнерских избора. Ови избори укључују: узорковање више онлине излаза из политике која се обучава, користећи ГПТ-4 као преференцијални оракул, упоређујући узорке на политици са сопственим (учитељским) излазима ГПТ-4, и обуку само на паровима са "великим маргинама" (за теоријско објашњење, погледајте Одељак 4; у пракси, погледајте Одељак 5.2).

<п>Примарна разлика нашег рада над сродним радовима Насх-МД (Мунос ет ал., 2023) и СПО (Свами ет ал., 2024) је да оба показују проблеме ефикасности узорка (два ажурирања временске скале или кораци узорак-неефикасни РЛ), и оба користе чисто на-полици узорке.

Најважније, ДНО ради у пракси – пружамо свеобухватне емпиријске евалуације, што резултира најсавременијим перформансама:

• Добијени 7Б параметар Орца-2.5 модел, усклађен користећи практичну имплементацију ДНО (Алгоритам 2), постиже најсавременију стопу победе било ког 7Б модела, премашујући 33% у односу на ГПТ-4-Турбо и даље на АлпацаЕвал 2.0, чак и након контроле дужине. Ово је преко 26% апсолутна добит (7%→33%) у поређењу са иницијализованим моделом.

Наше темељне студије аблације у одељку 5.2 испитују критичне дизајнерске тачке око избора функције губитка (надгледано финетунирање или контрастиве), парадигму обуке (са или без узорака на политици), квалитет анотатора преференција (велика маржа или не), и изградњу парова обуке (само-игра, учитељ против ученика, итд).

• Приказујемо неке примере излаза преко итерација које показују квалитативна побољшања као што су боље рјешавање нијансираних проблема и претпостављајућих питања (Табела 5), боља организација и јасноћа док се уздржавају од израде погрешних изјава (Табела 6), и већа густина информација у одговорима (Табела 7).

<п>Надамо се да ће резултати представљени овде пружити јасност заједници у вези са употребом ИИ повратних информација за пост-тренинг ЛЛМ-ове.

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv» Хр
[1] Користимо „модел награде“ да означимо оквир који преводи преференције у награде, на пример, Брадлеи-Терри, док је „функција награде“ (по могућности научена) функција која изводи скаларе награде.

Уметност расправљања са собом - и зашто то чини ИИ паметнијим

Предуго; Читати

Табела линкова

Абстракт

1 Увод

About Author

ХАНГ ТАГС

ОВАЈ ЧЛАНАК ЈЕ ПРЕДСТАВЉЕН У...

Categories

Trending Topics

Уметност расправљања са собом - и зашто то чини ИИ паметнијим

Предуго; Читати

Табела линкова

Абстракт

1 Увод

About Author

ХАНГ ТАГС

ОВАЈ ЧЛАНАК ЈЕ ПРЕДСТАВЉЕН У...

ПОВЕЗАНЕ ПРИЧЕ

Categories

Trending Topics