Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Овие истражувања, кои ги опфаќаат долгорочните истражувања на AlpReward, ги користат дури и потренирањето на големите јазични модели (LLMs) со користење на преференциални повратни информации од моќен оракул за да им помогнат на моделот да се подобри над себе. Типичниот пристап за пост-тренинг LLMs вклучува зајакнување на учењето од човечки повратни информации (RLHF), кој традиционално го одвојува учењето за награди и подоцнежната оптимизација на политиката. Сепак, таквиот пристап за максимизирање на наградите е ограничен од природата на наградата за победа (како што е моделот на Бредли-Терри), кој не успева да ги изрази комплексните параметри на параметри на преференција. Доде

1 Вовед

The field of artificial intelligence is evolving towards advanced models that can understand, reason, follow complex instructions, and create nuanced content, while aligning with human values and preferences. Large Language Models (LLMs) (e.g., Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) have demonstrated remarkable capabilities in generating human-like text, answering questions, and coding, yet they still face challenges in tasks that require a high degree of reliability, safety, and ethical alignment. To address these challenges, fine-tuning LLMs using Reinforcement Learning from Human Feedback (RLHF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 2022) has demonstrates strong potential for making LLMs more helpful by aligning them with human values.

Рамката RLHF без рамка веќе долго време се проучува во контекст на преференцијално-базирано зајакнување на учењето (RL) или RL од човечките преференции (на пример, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенционалните методи за RLHF обично претпоставуваат дека преференцијата се одредува од скаларна функција за наградување преку некој модел, како што е често користениот модел Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потоа се оптимизира кон преференција во две чекори: наградување за учење, оптимизација на политиката и оптимизација (преку RL) за да се максимизира научената

Функциите на наградата, дефинирани да изведуваат скаларен резултат r(x, y) за еден одговор y на внес x, не можат да ги изразат општите преференции y y ′ḳ x помеѓу неколку излези во сите случаи, на пример, интратранзитивни или циклични преференции (Elo, 1978). Затоа, LLMs обучени под наградата максимизација не може секогаш да се усогласат со човечката преференција. Понатаму, неодамнешните дела покажуваат дека дури и во поставувањата каде што преференциите можат да се изразат совршено под моделите BT базирани на награди, оптимизирањето кон наградите дава проблематично однесување; го читаме референтникот на Bertrand et al. (2023); Azar et al. (2023); Munos et al. (202

Ние сме мотивирани да надминеме два одделни предизвици: ограничената експресивност на RLHF базирана на награди и недостатокот на јасност за тоа како да се прошири оптимизацијата во однос на општите преференции.

Ние предлагаме докажувачки и скалабилен RLHF алгоритам -Директна Nash оптимизација(DNO) (Алгоритам 1) кој го постигнува најдоброто од двата света, комбинирајќи ја скалабилноста на контрастивните цели со теоретската солидност на општата оптимизација на преференциите.

Директна Nash оптимизација

Ние ги сумираме на високо ниво клучните состојки и увид на DNO подолу.

За да се справиме со прашањето дека функциите за наградување не можат да изразат општи преференции, ние ги искористуваме неодамнешните увид дека концептот на награда треба да се изрази како очекувани добивки во однос на општата преференцијална функција.[2]
За да се справиме со проблемот пронајден во претходната работа дека оптимизирањето на оваа повеќе општа цел со онлајн алгоритми е примерочно неефикасно или нестабилно, ја распаѓаме постапката за учење во секвенца од "пакетирани на политика" итерации, каде што секој чекор наместо тоа оптимизира едноставна цел за регресија.
Целта на регресија (одбираме бинарна крос-ентропија) ја усогласува „внатрешната функција на наградата“ на политиката со очекуваната стапка на победа во споредба со самата (како што е дефинирано во линија 3 од Алгоритам 1).
Нашата рамка е доволно општа за да прифати примероци надвор од политиката во обуката, особено оние од помоќен учител (види избор на μ1 и μ2 во Алгоритам 1).
Понатаму, за да се обезбеди стабилност и компјутерска ефикасност, предлагаме шема за филтрирање, така што регресијата на наградата се изведува само на парови со преференции со доволно голема маргина (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).
DNO ја повторува оваа постапка за повеќе итерации за да дозволи политиката да се оптимизира кон општата преференција.

Теоретски, ние докажуваме дека DNO конвергира со предвидената рамнотежа на Наш во просек, и дека може да се подобри монотоно низ итерации (види Дел 3.1).Понатаму, нашата анализа на конечен примерок покажува дека грешката на приближување на било која итерација помеѓу научената политика и целта е тесно ограничена (Теорема 1).

Од практична страна, ние обезбедуваме скалабилна имплементација на DNO (Алгоритам 2): итеративен алгоритам за само-подобрување со контрастивни ажурирања, кој го приближува Алгоритам 1 под неколку критични избор на дизајн. Овие избори вклучуваат: земање примероци на повеќе онлајн излези од политиката што се обучува, користење на GPT-4 како преференцијален оракул, споредување на примероци на политиката со сопствените (учителски) излези на GPT-4 и обука само на парови со "голема маргина" (за теоретско објаснување, видете Дел 4; во пракса, видете Дел 5.2).

Примарната разлика во нашата работа во однос на поврзаните работи на Nash-MD (Munos et al., 2023) и SPO (Swamy et al., 2024) е дека и двете покажуваат проблеми со ефикасноста на примерокот (две временски ажурирања или чекори на RL на примерокот кои не се ефикасни), и двете користат чисто примероци на политиката.

Што е најважно, DNO работи во пракса – обезбедуваме сеопфатни емпириски евалуации, што резултира со најсовремени перформанси:

• Резултатот 7B параметар Orca-2.5 модел, во согласност со практичната имплементација на DNO (Алгоритам 2), постигнува најсовремена стапка на победа на било кој модел 7B, надминувајќи 33% во однос на GPT-4-Turbo понатаму на AlpacaEval 2.0, дури и по контрола на должината. Ова е над 26% апсолутна добивка (7%→33%) во споредба со иницијализиран модел. Тоа надминува неколку неодамнешни напредни затворени модели, вклучувајќи Mistral Large и GPT-4-0613, како и отворени модели со многу повеќе (10×) параметри, како што е Self-Rewarding LM (Yuan et al., 2024) кој има 70B параметри.

Нашите темелни студии за аблација во Дел 5.2 ги испитуваат критичните дизајнерски допирни точки околу изборот на функцијата за губење (надгледувано финетунирање или контрастивно), парадигмата за обука (со или без примероци на политиката), квалитетот на анотаторот за преференции (голем марж или не), и изградбата на парови за обука (само-игра, учител против ученик, итн).

• Ние покажуваме некои примери на исходи низ итерации кои покажуваат квалитативни подобрувања, како што се подобро решавање на нијансирани прашања и претпоставени прашања (Табела 5), подобра организација и јасност додека се воздржувате од правење погрешни изјави (Табела 6), и поголема густина на информации во одговорите (Табела 7).

Се надеваме дека резултатите претставени тука ќе обезбедат јасност за заедницата во врска со употребата на ИИ повратни информации за пост-тренинг LLMs.

Ѕидот

Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.

Ѕидот

Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.

[1] Ние користиме „модел на награда“ за да означиме рамка која преведува преференции во награди, на пример, Бредли-Терри, додека „функција на награда“ е (потенцијално научена) функција која произведува скалари на награда.

Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Премногу долго; Да чита

Табела на левицата

апстракција

1 Вовед

About Author

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

Categories

Trending Topics

Уметноста да се расправате со себеси – и зошто ја прави вештачката интелигенција попаметна

Премногу долго; Да чита

Табела на левицата

апстракција

1 Вовед

About Author

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

ПОВРЗАНИ ПРИКАЗНИ

Categories

Trending Topics