127 читања

Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

од страна на Language Models (dot tech)8m2025/04/15
Read on Terminal Reader

Премногу долго; Да чита

Овој документ воведува Директна оптимизација на носот (DNO), стабилен, скалабилен метод за пост-тренинг LLMs со користење на учење врз основа на преференции. DNO ги надминува традиционалните методи на RLHF со избегнување на максимизирање на наградите и усогласување на моделите директно со општите преференции. Неговата имплементација со Orca-2.5 дава најсовремени резултати – надминувајќи дури и поголеми модели како GPT-4.
featured image - Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна
Language Models (dot tech) HackerNoon profile picture
0-item
Ѕидот

Автори на:

Ѕидот

(1) Corby Rosset, Microsoft истражување и кореспонденција на [email protected];

Ѕидот

(2) Чинг-ан Ченг, Microsoft истражување;

Ѕидот

(3) Ариндам Митра, Microsoft Research;

Ѕидот

(4) Мајкл Сантакрос, Microsoft истражување;

Ѕидот

(5) Ahmed Awadallah, Microsoft истражување и кореспонденција на [email protected];

Ѕидот

(6) Tengyang Xie, Microsoft истражување и кореспонденција на [email protected].

Ѕидот

Authors:

(1) Corby Rosset, Microsoft истражување и кореспонденција на [email protected];

(2) Чинг-ан Ченг, Microsoft истражување;

(3) Ариндам Митра, Microsoft Research;

(4) Мајкл Сантакрос, Microsoft истражување;

(5) Ahmed Awadallah, Microsoft истражување и кореспонденција на [email protected];

(6) Tengyang Xie, Microsoft истражување и кореспонденција на [email protected].

Апстракт и 1 вовед

2 Предрасуди

2.1 RLHF врз основа на моделите на награди

2.2 RLHF со општите преференции

3 Директна Nash оптимизација и 3.1 деривација на алгоритам 1

3.2 Теоретска анализа

4 Практичен алгоритам – Итеративно контрастивно само-подобрување

5 Експерименти и 5.1 Експериментална поставка

5.2 Резултати и анализа

6 Поврзани работи

7 Заклучоци и референци


Appendix

Продолжување на регулираните преференции

Б. Детални докази

C Дополнителни експериментални детали

апстракција

Овие истражувања, кои ги опфаќаат долгорочните истражувања на AlpReward, ги користат дури и потренирањето на големите јазични модели (LLMs) со користење на преференциални повратни информации од моќен оракул за да им помогнат на моделот да се подобри над себе. Типичниот пристап за пост-тренинг LLMs вклучува зајакнување на учењето од човечки повратни информации (RLHF), кој традиционално го одвојува учењето за награди и подоцнежната оптимизација на политиката. Сепак, таквиот пристап за максимизирање на наградите е ограничен од природата на наградата за победа (како што е моделот на Бредли-Терри), кој не успева да ги изрази комплексните параметри на параметри на преференција. Доде

1 Вовед

The field of artificial intelligence is evolving towards advanced models that can understand, reason, follow complex instructions, and create nuanced content, while aligning with human values and preferences. Large Language Models (LLMs) (e.g., Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) have demonstrated remarkable capabilities in generating human-like text, answering questions, and coding, yet they still face challenges in tasks that require a high degree of reliability, safety, and ethical alignment. To address these challenges, fine-tuning LLMs using Reinforcement Learning from Human Feedback (RLHF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 2022) has demonstrates strong potential for making LLMs more helpful by aligning them with human values.


Рамката RLHF без рамка веќе долго време се проучува во контекст на преференцијално-базирано зајакнување на учењето (RL) или RL од човечките преференции (на пример, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенционалните методи за RLHF обично претпоставуваат дека преференцијата се одредува од скаларна функција за наградување преку некој модел, како што е често користениот модел Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потоа се оптимизира кон преференција во две чекори: наградување за учење, оптимизација на политиката и оптимизација (преку RL) за да се максимизира научената


Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.


Функциите на наградата, дефинирани да изведуваат скаларен резултат r(x, y) за еден одговор y на внес x, не можат да ги изразат општите преференции y y ′ḳ x помеѓу неколку излези во сите случаи, на пример, интратранзитивни или циклични преференции (Elo, 1978). Затоа, LLMs обучени под наградата максимизација не може секогаш да се усогласат со човечката преференција. Понатаму, неодамнешните дела покажуваат дека дури и во поставувањата каде што преференциите можат да се изразат совршено под моделите BT базирани на награди, оптимизирањето кон наградите дава проблематично однесување; го читаме референтникот на Bertrand et al. (2023); Azar et al. (2023); Munos et al. (202



Ние сме мотивирани да надминеме два одделни предизвици: ограничената експресивност на RLHF базирана на награди и недостатокот на јасност за тоа како да се прошири оптимизацијата во однос на општите преференции.


Ние предлагаме докажувачки и скалабилен RLHF алгоритам -Директна Nash оптимизација(DNO) (Алгоритам 1) кој го постигнува најдоброто од двата света, комбинирајќи ја скалабилноста на контрастивните цели со теоретската солидност на општата оптимизација на преференциите.

Директна Nash оптимизација


Ние ги сумираме на високо ниво клучните состојки и увид на DNO подолу.


    Ѕидот
  1. За да се справиме со прашањето дека функциите за наградување не можат да изразат општи преференции, ние ги искористуваме неодамнешните увид дека концептот на награда треба да се изрази како очекувани добивки во однос на општата преференцијална функција.[2]
  2. Ѕидот
  3. За да се справиме со проблемот пронајден во претходната работа дека оптимизирањето на оваа повеќе општа цел со онлајн алгоритми е примерочно неефикасно или нестабилно, ја распаѓаме постапката за учење во секвенца од "пакетирани на политика" итерации, каде што секој чекор наместо тоа оптимизира едноставна цел за регресија.
  4. Ѕидот
  5. Целта на регресија (одбираме бинарна крос-ентропија) ја усогласува „внатрешната функција на наградата“ на политиката со очекуваната стапка на победа во споредба со самата (како што е дефинирано во линија 3 од Алгоритам 1).
  6. Ѕидот
  7. Нашата рамка е доволно општа за да прифати примероци надвор од политиката во обуката, особено оние од помоќен учител (види избор на μ1 и μ2 во Алгоритам 1).
  8. Ѕидот
  9. Понатаму, за да се обезбеди стабилност и компјутерска ефикасност, предлагаме шема за филтрирање, така што регресијата на наградата се изведува само на парови со преференции со доволно голема маргина (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).
  10. Ѕидот
  11. DNO ја повторува оваа постапка за повеќе итерации за да дозволи политиката да се оптимизира кон општата преференција.
  12. Ѕидот


Теоретски, ние докажуваме дека DNO конвергира со предвидената рамнотежа на Наш во просек, и дека може да се подобри монотоно низ итерации (види Дел 3.1).Понатаму, нашата анализа на конечен примерок покажува дека грешката на приближување на било која итерација помеѓу научената политика и целта е тесно ограничена (Теорема 1).


Од практична страна, ние обезбедуваме скалабилна имплементација на DNO (Алгоритам 2): итеративен алгоритам за само-подобрување со контрастивни ажурирања, кој го приближува Алгоритам 1 под неколку критични избор на дизајн. Овие избори вклучуваат: земање примероци на повеќе онлајн излези од политиката што се обучува, користење на GPT-4 како преференцијален оракул, споредување на примероци на политиката со сопствените (учителски) излези на GPT-4 и обука само на парови со "голема маргина" (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).


Примарната разлика во нашата работа во однос на поврзаните работи на Nash-MD (Munos et al., 2023) и SPO (Swamy et al., 2024) е дека и двете покажуваат проблеми со ефикасноста на примерокот (две временски ажурирања или чекори на RL на примерокот кои не се ефикасни), и двете користат чисто примероци на политиката.


Што е најважно, DNO работи во пракса – обезбедуваме сеопфатни емпириски евалуации, што резултира со најсовремени перформанси:


• Резултатот 7B параметар Orca-2.5 модел, во согласност со практичната имплементација на DNO (Алгоритам 2), постигнува најсовремена стапка на победа на било кој модел 7B, надминувајќи 33% во однос на GPT-4-Turbo понатаму на AlpacaEval 2.0, дури и по контрола на должината. Ова е над 26% апсолутна добивка (7%→33%) во споредба со иницијализиран модел. Тоа надминува неколку неодамнешни напредни затворени модели, вклучувајќи Mistral Large и GPT-4-0613, како и отворени модели со многу повеќе (10×) параметри, како што е Self-Rewarding LM (Yuan et al., 2024) кој има 70B параметри.


Нашите темелни студии за аблација во Дел 5.2 ги испитуваат критичните дизајнерски допирни точки околу изборот на функцијата за губење (надгледувано финетунирање или контрастивно), парадигмата за обука (со или без примероци на политиката), квалитетот на анотаторот за преференции (голем марж или не), и изградбата на парови за обука (само-игра, учител против ученик, итн).


• Ние покажуваме некои примери на исходи низ итерации кои покажуваат квалитативни подобрувања, како што се подобро решавање на нијансирани прашања и претпоставени прашања (Табела 5), подобра организација и јасност додека се воздржувате од правење погрешни изјави (Табела 6), и поголема густина на информации во одговорите (Табела 7).


Се надеваме дека резултатите претставени тука ќе обезбедат јасност за заедницата во врска со употребата на ИИ повратни информации за пост-тренинг LLMs.


Ѕидот

Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.

Ѕидот

Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.


[1] Ние користиме „модел на награда“ за да означиме рамка која преведува преференции во награди, на пример, Бредли-Терри, додека „функција на награда“ е (потенцијално научена) функција која произведува скалари на награда.


L O A D I N G
. . . comments & more!

About Author

Language Models (dot tech) HackerNoon profile picture
Language Models (dot tech)@languagemodels
Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks