Os autores:
Não(1) Corby Rosset, Pesquisa e correspondência da Microsoft para [email protected];
Não(2) Ching-An Cheng, Pesquisa da Microsoft;
NãoArindam Mitra, diretor de pesquisa da Microsoft;
NãoMichael Santacroce, Diretor de Pesquisa da Microsoft
Não(5) Ahmed Awadallah, Pesquisa e correspondência da Microsoft para [email protected];
Não(6) Tengyang Xie, Pesquisa e correspondência da Microsoft para [email protected].
NãoAuthors:
(1) Corby Rosset, Pesquisa e correspondência da Microsoft para [email protected];
(2) Ching-An Cheng, Pesquisa da Microsoft;
Arindam Mitra, diretor de pesquisa da Microsoft;
Michael Santacroce, Diretor de Pesquisa da Microsoft
(5) Ahmed Awadallah, Pesquisa e correspondência da Microsoft para [email protected];
(6) Tengyang Xie, Pesquisa e correspondência da Microsoft para [email protected].
Mesa da Esquerda
2.1 RLHF baseado em modelos de recompensa
2.2 RLHF com Preferências Gerais
3 Otimização de Nash direto e 3.1 Derivação do algoritmo 1
4 Algoritmo prático – auto-melhoria iterativa contrastante
5 Experimentos e 5.1 Configuração Experimental
Appendix
Uma extensão para preferências regularizadas
c) Detalhes experimentais adicionais
Abstração
Esta pesquisa de longo prazo sobre a ação do AlpReward oferece os modelos de língua grande (LLMs) bem iniciados do AlpReward usando o feedback de preferência de um poderoso oráculo para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para a escolha de LLMs pós-treinamento envolve o Reinforcement Learning from Human Feedback (RLHF), que tradicionalmente separa o aprendizado de recompensa do RLHF e a otimização de políticas subsequentes. No entanto, tal abordagem de maximização de recompensa é limitada pela natureza das recompensas de “ponto-sens” (como a do modelo Bradley-Terry), que não expressa os parâmetros de preferência intransitivos ou cíclicos complexos. Enquanto os avanços no RLHF mostram
1 Introdução
O campo da inteligência artificial está evoluindo para modelos avançados que podem entender, raciocinar, seguir instruções complexas e criar conteúdo nuancioso, ao mesmo tempo alinhando-se com valores e preferências humanas. Grandes modelos de linguagem (LLMs) (por exemplo, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) demonstraram capacidades notáveis na geração de texto humano, responder perguntas e codificação, mas ainda enfrentam desafios em tarefas que exigem um alto grau de confiabilidade, segurança e alinhamento ético. Para enfrentar esses desafios, LLMs de alinhamento fino usando Reinforcement Learning from Human Feedback (HRLF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 202
O quadro único RLHF tem sido estudado há muito tempo no contexto da aprendizagem de reforço baseada em preferências (RL) ou RL a partir de preferências humanas (por exemplo, Knox e Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Os métodos convencionais para RLHF tipicamente assumem que a preferência é determinada por uma função de recompensa escalar através de alguns modelos, como o modelo Bradley-Terry (BT) frequentemente usado (Bradley e Terry, 1952).[1] O RLHF então otimiza para a preferência em um procedimento de dois passos: aprendizagem de recompensa, otimização de políticas (através de RL) para maximizar a recompensa aprendida. Sob certas condições,
As funções de recompensa, definidas para produzir uma pontuação escalar r(x, y) para uma única resposta y para x de entrada, não podem expressar preferências gerais y y ′ x entre um par de saídas em todos os casos, por exemplo, preferências intransitivas ou cíclicas (Elo, 1978). Portanto, os LLMs treinados sob a maximização de recompensa não podem sempre se alinhar com a preferência humana. Além disso, trabalhos recentes mostram que, mesmo em configurações onde as preferências podem ser perfeitamente expressas sob os modelos BT baseados em recompensa, otimizar em direção às recompensas resulta em comportamentos problemáticos; lemos o referente a Bertrand et al. (2023); Azar et al. (2023); Munos et al. (2023) para mais
Estamos motivados a superar dois desafios separados: a expressividade limitada do RLHF baseado em recompensas e a falta de clareza sobre como escalar a otimização em relação às preferências gerais.
Proporcionamos um algoritmo RLHF provável e escalável –Otimização de Nash(DNO) (Algoritmo 1) que alcança o melhor de ambos os mundos, combinando a escalabilidade de objetivos contrastantes com a solidez teórica da otimização de preferências gerais. DNO é projetado como um algoritmo em lote com um objetivo de aprendizagem baseado em regressão; esta escolha de design torna o DNO estável e escalável, atingindo um equilíbrio entre eficiência de implantação e adaptabilidade.
Otimização de Nash
Resumimos em alto nível os principais ingredientes e insights do DNO abaixo.
- Não
- Para abordar a questão de que as funções de recompensa não podem expressar preferências gerais, aproveitamos insights recentes de que a noção de recompensa deve ser expressa como taxas de ganho esperadas em relação a uma função de preferência geral.[2] Não
- Para resolver o problema encontrado em trabalhos anteriores que a otimização deste objetivo mais geral com algoritmos on-line é amostra ineficiente ou instável, nós decompor o procedimento de aprendizagem em uma sequência de iterações “batch-on-policy”, onde cada passo, em vez disso, otimiza um objetivo de regressão simples. Não
- O objetivo de regressão (escolhemos a cross-entropia binária) alinha a “função de recompensa interna” da política com a taxa de vitória esperada em relação a si mesma (como definido na linha 3 do algoritmo 1). Não
- Nosso quadro é generalizado o suficiente para admitir amostras fora da política no treinamento, importante, aqueles de um professor mais poderoso (Veja a escolha de μ1 e μ2 no algoritmo 1). Não
- Além disso, para garantir estabilidade e eficiência computacional, propomos um esquema de filtragem de tal forma que a regressão da recompensa seja realizada apenas em pares de preferências com uma margem suficientemente grande (para explicação teórica, ver Seção 4; na prática, ver Seção 5.2). Não
- DNO repete este procedimento para várias iterações para permitir que a política se otimize em direção à preferência geral. Não
Teoricamente, demonstramos que o DNO converge para o equilíbrio de Nash pretendido em média, e que ele pode melhorar monotoniamente em iterações (ver Seção 3.1).
Do lado prático, fornecemos uma implementação escalável de DNO (Algoritmo 2): um algoritmo de auto-melhoria iterativo com atualizações contrastantes, que aproxima o Algoritmo 1 sob várias escolhas de design críticas. Essas escolhas incluem: amostragem de múltiplas saídas on-line da política sendo treinada, usando GPT-4 como o oráculo de preferência, comparando amostras em política com saídas próprias (professor) do GPT-4, e treinamento apenas em pares com “grande margem” (para explicação teórica, veja Seção 4; na prática, veja Seção 5.2).
A principal distinção do nosso trabalho sobre trabalhos relacionados de Nash-MD (Munos et al., 2023) e SPO (Swamy et al., 2024) é que ambos exibem problemas de eficiência de amostra (duas atualizações de escala de tempo ou etapas de RL de amostra ineficiente), e ambos usam amostras puramente em política.
Mais importante ainda, a DNO funciona na prática – fornecemos avaliações empíricas abrangentes, resultando em desempenho de ponta:
• O modelo de parâmetro 7B Orca-2.5 resultante, alinhado usando a implementação prática de DNO (Algoritmo 2), alcança a taxa de vitória de última geração de qualquer modelo 7B, superando 33% em relação ao GPT-4-Turbo além no AlpacaEval 2.0, mesmo após o controle de comprimento. Este é um ganho absoluto de mais de 26% (7%→33%) em comparação com o modelo inicializado. Ele supera vários modelos avançados de código fechado recentes, incluindo o Mistral Large e o GPT-4-0613, bem como modelos de código aberto com muito mais (10×) parâmetros, como o Self-Rewarding LM (Yuan et al., 2024) que tem parâmetros 70B.
• Nossos estudos aprofundados de ablação na Seção 5.2 examinam pontos de contato de design críticos em torno da escolha da função de perda (finetuning supervisionado ou contrastivo), paradigma de treinamento (com ou sem amostras on-policy), qualidade de anotador de preferência (grande margem ou não), e construção de pares de treinamento (auto-jogo, professor-versus-aluno, etc).
• Mostramos alguns exemplos de saídas em iterações que demonstram melhorias qualitativas, como melhor abordagem de questões nuanciadas e perguntas presuntivas (Tabela 5), melhor organização e clareza enquanto se abstêm de fazer declarações enganosas (Tabela 6), e maior densidade de informação em respostas (Tabela 7).
Esperamos que os resultados apresentados aqui forneçam clareza à comunidade sobre o uso de feedback de IA para LLMs pós-treinamento.
Este artigo está disponível em arquivo sob a licença CC BY 4.0 DEED.
NãoEste documento éDisponível em Arquivosob a licença CC BY 4.0 DEED.
[1] Usamos “modelo de recompensa” para denotar um quadro que traduz preferências em recompensas, por exemplo, Bradley-Terry, enquanto “função de recompensa” é uma função (possivelmente aprendida) que produz escalares de recompensa.