Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Автори:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Автори:

(1) Corby Rosset, Microsoft истражување и кореспонденција на [email protected];

(2) Ching-An Cheng, Microsoft истражување;

(3) Ариндам Митра, Microsoft Research;

(4) Мајкл Сантакрос, Microsoft Research;

(5) Ahmed Awadallah, Microsoft истражување и кореспонденција на [email protected];

(6) Tengyang Xie, Microsoft истражување и кореспонденција на [email protected].

Табела на линкови

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Прилог

Прилагање

A Extension to Regularized Preferences

B Detailed Proofs

C Additional Experimental Details

Абстракт

Овие параметарски истражувања, вклучувајќи ги и само-иницијативите на LLHF, им помагаат на авто-иницијативите да ги надминат големите јазични модели (LLMs) со користење на преференциални повратни информации од моќен оракул за да им помогнат на моделот да се подобри самостојно. Типичниот пристап за пост-тренинг LLMs вклучува подобрување на учењето од човечки повратни информации (RLHF), кој традиционално ги раздвојува наградувачите за учење и подоцнежната оптимизација на политиката. Сепак, таквиот пристап за максимизирање на наградата е ограничен од природата на наградата за победа (како што е моделот на Bradley-Terry), кој не успева да ги изрази комплексните параметри

1 Воведување

Полето на вештачката интелигенција еволуира кон напредни модели кои можат да разберат, да размислуваат, да следат сложени инструкции и да создаваат нијансирани содржини, додека се усогласуваат со човечките вредности и преференции. Големи јазични модели (LLMs) (на пример, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) покажаа извонредни способности во генерирањето на човечки текст, одговарање на прашања и кодирање, но сепак се соочуваат со предизвици во задачите кои бараат висок степен на доверба, безбедност и етичко усогласување. За да се справат со овие предизвици, фино-усогласување LLMs користејќи

The single RLHF framework has long been studied in the context of preference-based reinforcement learning (RL) or RL from human preferences (e.g., Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенционалните методи за RLHF обично претпоставуваат дека преференцијата е одредена од скаларна награда функција преку некои модели, како што се често користениот модел Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потоа се оптимизира кон преференција во две чекори постапка: награда учење, и политика оптимизација (преку RL) за да се максимизира научената награда.

Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.

Рамката за максимизирање на наградите претставува големо ограничување. Функциите за награди, дефинирани да изведуваат скаларен резултат r(x, y) за единствен одговор y на внес x, не можат да изразат општи преференции y y ′, x помеѓу неколку излези во сите случаи, на пример, интратранзитивни или циклични преференции (Elo, 1978). Затоа, LLMs обучени под максимизирање на наградите не можат секогаш да се усогласат со човечките преференции. Покрај тоа, неодамнешните дела покажуваат дека дури и во поставувањата каде што преференциите можат совршено да се изразат под моделите на BT базирани на награди, оптимизирањето кон наградите резултира со проблематично однесување; го упатуваме читателот

Ние сме мотивирани да надминеме два одделни предизвици: ограничената експресивност на RLHF базирана на награди и недостатокот на јасност за тоа како да се прошири оптимизацијата во однос на општите преференции.Неодамнешните достигнувања во оптимизацијата базирана на награди, на пример, DPO, веќе имаат ефикасни и скалабилни имплементации – бараме слично ефикасно решение во рамките на општите преференции.

Ние предлагаме докажувачки и скалабилен RLHF алгоритам – Direct Nash Optimization (DNO) (Алгоритам 1) кој го постигнува најдоброто од двата света, комбинирајќи ја скалабилноста на контрастивните цели со теоретската солидност на општата оптимизација на преференциите.Директна оптимизација на NashДиректна Nash оптимизација

Ние ги сумираме на високо ниво клучните состојки и увид на DNO подолу.

За да го решиме проблемот дека функциите за наградување не можат да изразат општи преференции, ние ги искористуваме неодамнешните увиди дека концептот на наградата треба да се изрази како очекувана добивка-проценка во однос на општата функција за преференција.[2]

За да го решиме проблемот пронајден во претходната работа дека оптимизирањето на оваа повеќе општа цел со онлајн алгоритми е примерок-неефикасна или нестабилна, ние ја распаѓаме процедурата за учење во секвенца од итерации на "базирани на политика" во однос на очекуваната добивка-проценка, каде што секој чекор наместо тоа оптимизира едноставна цел за регресија.

За да се справиме со прашањето дека функциите за награда не можат да изразат општи преференции, ние ги искористуваме неодамнешните увид дека концептот на награда треба да се изрази како очекувани добивки во однос на општа функција за преференција.[2]

За да се справиме со прашањето дека функциите за наградување не можат да изразат општи преференции, ние ги искористуваме неодамнешните сознанија дека концептот на награда треба да се изрази како очекувани добивки во однос на општата преференцијална функција.[2]

За да се справиме со проблемот пронајден во претходната работа дека оптимизирањето на оваа повеќе општа цел со онлајн алгоритми е примерочно неефикасно или нестабилно, ние ја распаѓаме постапката за учење во секвенца од "базирани на политика" итерации, каде што секој чекор наместо тоа оптимизира едноставна цел за регресија.

За да го решиме проблемот пронајден во претходната работа дека оптимизирањето на оваа повеќе општа цел со онлајн алгоритми е примерочно неефикасно или нестабилно, ние ја распаѓаме постапката за учење во секвенца од "пакетирани на политика" итерации, каде што секој чекор наместо тоа оптимизира едноставен регресивен објект.

Целта на регресија (одбираме бинарна крос-ентропија) ја усогласува „внатрешната функција на награда“ на политиката со очекуваната стапка на победа во споредба со самата себе (како што е дефинирано во линија 3 од Алгоритам 1).

Целта на регресија (одбираме бинарна крос-ентропија) ја усогласува „внатрешната функција на награда“ на политиката со очекуваната стапка на победа во однос на самата (како што е дефинирано во линија 3 од Алгоритам 1).

Нашата рамка е доволно општа за да прифати примероци надвор од политиката во обуката, особено оние од помоќен учител (види избор на μ1 и μ2 во Алгоритам 1).

Нашата рамка е доволно општа за да прифати примероци надвор од политиката во обуката, што е важно, оние од помоќен учител (Види избор на μ1 и μ2 во Алгоритам 1).

Понатаму, за да се обезбеди стабилност и компјутерска ефикасност, предлагаме шема за филтрирање, така што регресијата на наградата се изведува само на парови со преференции со доволно голема маржа (за теоретско објаснување, видете оддел 4; во пракса, видете оддел 5.2).

Понатаму, за да се обезбеди стабилност и компјутерска ефикасност, предлагаме шема за филтрирање, така што регресијата на наградата се изведува само на парови со преференции со доволно голема маржа (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).

DNO ја повторува оваа постапка за повеќе итерации за да дозволи политиката да се оптимизира кон општата преференција.

DNO ја повторува оваа постапка за повеќе итерации за да дозволи политиката да се оптимизира кон општите преференции.

Бидејќи секој чекор вклучува проблем со регресија, лесно може да се имплементира на скала.

Теоретски, ние докажуваме дека DNO конвергира со предвидената рамнотежа на Наш во просек, и дека може да се подобри монотоно во текот на итерациите (види Дел 3.1).Понатаму, нашата анализа на конечен примерок покажува дека грешката на приближување на секоја итерација помеѓу научената политика и целта е тесно ограничена (Теорема 1).

Од практична страна, ние обезбедуваме скалабилна имплементација на DNO (Алгоритам 2): итеративен алгоритам за само-подобрување со контрастивни надградби, кој го приближува Алгоритам 1 под неколку критични избор на дизајн. Овие избори вклучуваат: земање примероци на повеќе онлајн излези од политиката која се обучува, користење на GPT-4 како преференцијален оракул, споредување на примероци на политиката со сопствените (учителски) излези на GPT-4 и обука само на парови со "голема маргина" (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).

The primary distinction of our work over related works of Nash-MD (Munos et al., 2023) and SPO (Swamy et al., 2024) is that they both exhibit sample efficiency issues (two timescale updates or sample-inefficient RL steps), and both use purely on-policy samples. We resolve the efficiency issue with a sample-efficient objective that works in practice, and DNO is more flexible to incorporate off-policy samples from e.g., a powerful teacher.

Најважно, DNO работи во пракса – обезбедуваме сеопфатни емпириски евалуации, што резултира со најсовремени перформанси:

• Резултатниот 7B параметар Orca-2.5 модел, усогласен со практичната имплементација на DNO (Алгоритам 2), го постигнува најсовремениот процент на победа на било кој модел 7B, надминувајќи 33% во однос на GPT-4-Turbo над AlpacaEval 2.0, дури и по контролата за должина. Ова е над 26% апсолутна добивка (7%→33%) во споредба со иницијализираниот модел.

Нашите темелни студии за аблација во Дел 5.2 ги испитуваат критичните дизајнерски точки околу изборот на функцијата за губење (надгледувано финетунирање или контрастивно), парадигмата за обука (со или без примероци на политиката), квалитетот на анотаторот за преференција (голема маргина или не), и изградбата на парови за обука (само-игра, учител-наставник-наставник, итн).

Ние покажуваме некои примери на исходи низ итерации кои покажуваат квалитативни подобрувања, како што се подобро решавање на нијансирани прашања и претпоставени прашања (Табела 5), подобра организација и јасност додека се воздржувате од правење погрешни изјави (Табела 6), и поголема густина на информации во одговорите (Табела 7).

Се надеваме дека резултатите презентирани тука ќе обезбедат јасност за заедницата во врска со употребата на ИИ повратни информации за пост-тренинг LLMs.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv„Гр“

[1] Ние користиме „модел на награда“ за да означиме рамка која преведува преференции во награди, на пример, Бредли-Терри, додека „функција на награда“ е (потенцијално научена) функција која изведува скалари на награда.

Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Премногу долго; Да чита

Табела на линкови

Абстракт

1 Воведување

About Author

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

Categories

Trending Topics

Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Премногу долго; Да чита

Табела на линкови

Абстракт

1 Воведување

About Author

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

ПОВРЗАНИ ПРИКАЗНИ

Categories

Trending Topics