Autores:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Os autores:
Autor do artigo:(1) Corby Rosset, Pesquisa e correspondência da Microsoft para [email protected];
(2) Ching-An Cheng, Pesquisa da Microsoft;
(3) Arindam Mitra, Pesquisa da Microsoft;
(4) Michael Santacroce, Pesquisa da Microsoft;
(5) Ahmed Awadallah, Pesquisa e correspondência da Microsoft para [email protected];
(6) Tengyang Xie, Pesquisa e correspondência da Microsoft para [email protected].
Tabela de Links
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Anexo
A Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Detailsabreviação
Esses estudos de autopreparação de longo prazo do LLM ajudam os estudos de autopreparação de grandes modelos de linguagem (LLMs) usando feedback de preferência de um poderoso oráculo para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para os LLMs de pós-treinamento, incluindo o LLM, envolve o Reinforcement Learning from Human Feedback (RLHF), que tradicionalmente separa os aprendizes de recompensas e a otimização de políticas subsequentes. No entanto, tal abordagem de maximização de recompensas é limitada pela natureza das recompensas “point-wise” (como o modelo Bradley-Terry), que não expressa os parâmetros intransitivos ou as preferências cíclicas. Enquanto os avanços no RL
1 Introdução
O campo da inteligência artificial está evoluindo para modelos avançados que podem entender, raciocinar, seguir instruções complexas e criar conteúdo nuancioso, ao mesmo tempo em alinhamento com valores e preferências humanas. Grandes modelos de linguagem (LLMs) (por exemplo, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) demonstraram capacidades notáveis na geração de texto semelhante ao humano, responder perguntas e codificação, mas ainda enfrentam desafios em tarefas que exigem um alto grau de confiabilidade, segurança e alinhamento ético. Para enfrentar esses desafios, LLMs finamente alinhados usando Reinforcement Learning from Human Feedback (HRLF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et
O quadro RLHF único tem sido estudado há muito tempo no contexto da aprendizagem de reforço baseada em preferências (RL) ou RL a partir de preferências humanas (por exemplo, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Os métodos convencionais para RLHF geralmente assumem que a preferência é determinada por uma função de recompensa escalar através de alguns modelos, como o modelo Bradley-Terry (BT) frequentemente utilizado (Bradley e Terry, 1952).[1] RLHF então otimiza para a preferência em um procedimento de dois passos: aprendizagem de recompensa, otimização de políticas (através de RL) para maximizar a recompensa aprendida. Sob certas
Estamos motivados a superar dois desafios separados: a expressividade limitada do RLHF baseado em recompensas e a falta de clareza sobre como escalar a otimização em relação às preferências gerais.Os avanços recentes na otimização baseada em recompensas, por exemplo, DPO, já têm implementações eficientes e escaláveis – procuramos uma solução igualmente eficiente no quadro de preferências gerais.
Nós propomos um algoritmo RLHF provável e escalável – Direct Nash Optimization (DNO) (Algoritmo 1) que alcança o melhor de ambos os mundos, combinando a escalabilidade de objetivos contrastantes com a solidez teórica da otimização de preferências gerais.Optimização direta de NashOtimização direta de Nash
Resumimos em alto nível os principais ingredientes e insights do DNO abaixo.
Para abordar o problema de que as funções de recompensa não podem expressar preferências gerais, aproveitamos insights recentes de que a noção de recompensa deve ser expressa como taxas de ganho esperadas em relação a uma função de preferência geral.[2]
Para abordar a questão de que as funções de recompensa não podem expressar preferências gerais, aproveitamos as percepções recentes de que a noção de recompensa deve ser expressa como taxas de ganho esperadas em relação a uma função de preferência geral.[2]
Para resolver o problema encontrado em trabalhos anteriores que a otimização deste objetivo mais geral com algoritmos on-line é amostra-ineficiente ou instável, nós decompor o procedimento de aprendizagem em uma sequência de iterações “batch-on-policy”, em que cada passo, em vez disso, otimiza um objetivo de regressão simples.
Para resolver o problema encontrado em trabalhos anteriores que a otimização deste objetivo mais geral com algoritmos on-line é amostra ineficiente ou instável, nós decompor o procedimento de aprendizagem em uma sequência de iterações “batch-on-policy”, onde cada passo, em vez disso, otimiza um objetivo de regressão simples.
O objetivo de regressão (escolhemos cross-entropia binária) alinha a “função de recompensa interna” da política com a taxa de vitória esperada em relação a si mesma (como definido na linha 3 do algoritmo 1).
O objetivo de regressão (escolhemos a cross-entropia binária) alinha a “função de recompensa interna” da política com a taxa de vitória esperada em relação a si mesma (como definido na linha 3 do algoritmo 1).
Nosso quadro é generalizado o suficiente para admitir amostras fora da política no treinamento, importante, aquelas de um professor mais poderoso (Veja a escolha de μ1 e μ2 no algoritmo 1).
Nosso quadro é geral o suficiente para admitir amostras fora da política no treinamento, importante, aquelas de um professor mais poderoso (Veja a escolha de μ1 e μ2 no algoritmo 1).
O DNO repete este procedimento para várias iterações para permitir que a política se otimize em direção à preferência geral.
O DNO repete este procedimento para várias iterações para permitir que a política seja otimizada em direção à preferência geral.
Como cada passo envolve um problema de regressão, pode ser facilmente implementado em escala.
Teoricamente, demonstramos que o DNO converge para o equilíbrio de Nash pretendido em média, e que ele pode melhorar monotoniamente em iterações (ver Seção 3.1).Além disso, nossa análise de amostra finita mostra que o erro de aproximação em qualquer iteração entre a política aprendida e o alvo está firmemente limitado (Teorema 1).
No lado prático, fornecemos uma implementação escalável de DNO (Algoritmo 2): um algoritmo de auto-melhoria iterativo com atualizações contrastantes, que aproxima o Algoritmo 1 sob várias escolhas de design críticas. Essas escolhas incluem: amostragem de múltiplas saídas on-line da política sendo treinada, usando GPT-4 como o oráculo de preferência, comparando amostras onpolicy com as saídas próprias (professor) do GPT-4, e treinamento apenas em pares com “grande margem” (para explicação teórica, veja Seção 4; na prática, veja Seção 5.2).
A principal distinção do nosso trabalho sobre trabalhos relacionados de Nash-MD (Munos et al., 2023) e SPO (Swamy et al., 2024) é que ambos exibem problemas de eficiência de amostra (duas atualizações de escala de tempo ou etapas de RL de amostra ineficiente), e ambos usam amostras puramente em política.
O mais importante, o DNO funciona na prática – fornecemos avaliações empíricas abrangentes, resultando em desempenho de ponta:
• O modelo de parâmetro 7B Orca-2.5 resultante, alinhado usando a implementação prática de DNO (Algoritmo 2), alcança a taxa de vitória de última geração de qualquer modelo 7B, superando 33% em relação ao GPT-4-Turbo além no AlpacaEval 2.0, mesmo após o controle de comprimento. Este é um ganho absoluto de mais de 26% (7%→33%) em comparação com o modelo inicializado.
• Nossos estudos aprofundados de ablação na Seção 5.2 examinam pontos críticos de design em torno da escolha da função de perda (finetuning supervisionado ou contrastivo), paradigma de treinamento (com ou sem amostras on-policy), qualidade de anotador de preferência (grande margem ou não), e construção de pares de treinamento (auto-jogo, professor-versus-aluno, etc).
• Mostramos alguns exemplos de saídas em iterações que demonstram melhorias qualitativas, como melhor abordagem de questões nuanciadas e perguntas presuntivas (Tabela 5), melhor organização e clareza enquanto se abstêm de fazer declarações enganosas (Tabela 6), e maior densidade de informação em respostas (Tabela 7).
Esperamos que os resultados apresentados aqui forneçam clareza à comunidade sobre o uso de feedback de IA para LLMs pós-treinamento.
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv“R”[1] Usamos “modelo de recompensa” para denotar uma estrutura que traduz preferências em recompensas, por exemplo, Bradley-Terry, enquanto “função de recompensa” é uma função (possivelmente aprendida) que produz escalares de recompensa.