Prepare-se para um terremoto de IA! Uma equipe de pesquisadores da UCLA ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) lançou algumas chaves importantes para AGI. Não é apenas o código para uma IA que parece realmente humana, mas eles também abriram o código-fonte de tudo.
Agora você pode desenvolver LLMs melhores sem precisar alimentá-los com toneladas de novos dados anotados por humanos.
Primeiro, vamos nos concentrar na mudança de jogo aqui: um modelo de linguagem autodidata.
Esse método permite que um modelo de linguagem aprenda sozinho, tornando-se cada vez melhor sem grandes quantidades de dados novos e selecionados externamente.
Entrei no modo de aprofundamento completo - li o artigo deles (" Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models "), vasculhei os insights em fóruns como HackerNews , X e Reddit com Google Gemini Ultra e GPT-4 Turbo – e o conceito central do SPIN surpreendeu meus amantes metafóricos da tecnologia:
Imagine começar com um modelo de linguagem que domina habilidades básicas (digamos, etiqueta de conversação). Com o SPIN, o modelo gera “conversas” internas, construindo um conjunto de dados a partir do que já conhece.
Expansão instantânea do conhecimento!
O segundo passo envolve lançar um novo modelo e atribuir-lhe uma tarefa: identificar a diferença entre chats gerados por máquina e comunicação humana genuína. Isso força o modelo original a melhorar seu jogo, tornando-se cada vez mais humano a cada resposta para evitar a detecção.
É aqui que as coisas ficam interessantes. Eles começaram com zephyr-7b-sft-full (já ajustado com o corpus UltraChat ). A SPIN lançou um sistema de treinamento iterativo com este modelo básico, melhorando-o exponencialmente sem depender de toneladas de novos dados criados externamente.
Geralmente pensamos que o aprendizado de máquina, especialmente para esses enormes modelos de linguagem, requer muitos dados cuidadosamente selecionados e rotulados. Os métodos de otimização de preferência direta (DPO) envolvem humanos classificando meticulosamente as respostas de IA entre si para treinamento. Isso não é apenas trabalhoso, mas também aumenta os custos à medida que o conjunto de dados cresce.
A Otimização de Preferência Direta (DTO) é um método de treinamento em que um modelo é ajustado usando um conjunto de dados de preferências, geralmente envolvendo julgamentos humanos que decidem quais das respostas geradas pelo modelo são preferidas. Este método requer a coleta de novos dados, onde cada peça é rotulada com base nessas preferências, o que pode consumir muitos recursos.
Em contraste, o SPIN utiliza a reprodução automática iterativa , reduzindo significativamente a necessidade de novos dados.
Na primeira iteração, o desempenho do SPIN já excede o do DPO na maioria dos casos , destacando a sua eficiência e eficácia no aproveitamento dos dados existentes para melhorar o desempenho do modelo.
O SPIN mostra sua força ao alcançar desempenho equivalente com modelos treinados em conjuntos de dados mais extensos . O processo de treinamento iterativo melhora metodicamente o desempenho do modelo em várias iterações, apresentando melhorias substanciais , especialmente em benchmarks desafiadores como TruthfulQA e GSM8k.
Assim, o SPIN supera os métodos de treinamento convencionais, incluindo o DPO, ao aproveitar com eficiência conjuntos de dados sintéticos gerados por meio da reprodução automática, sem a necessidade de dados adicionais anotados por humanos.
SPIN lança uma bola curva com sua dinâmica de jogo automático.
Pense nisso como um modelo de linguagem lutando consigo mesmo em um ringue de boxe linguístico, com cada rodada ensinando novos truques.
A eficiência dos dados do SPIN ignora a necessidade de novos conjuntos de dados anotados por humanos.
Mas o mais importante é que acelera o ciclo de melhoria , tornando o modelo cada vez mais apto a gerar texto semelhante ao humano .
O SPIN não apenas parece corresponder a modelos treinados em conjuntos de dados externos maiores, mas seu poder iterativo significa ganhos consistentes, pois estuda essencialmente seus próprios resultados.
Alucinante, certo?
O cofundador da Nous Research , @Teknium1, tem razão. Esses grandes modelos de linguagem não ficam mais inteligentes de graça. O retreinamento iterativo com SPIN envolve sempre o caro processo de ajuste fino supervisionado (SFT).
Porém, ele também menciona que “acho que vale a pena!”. Além disso, os benefícios a longo prazo de uma evolução mais rápida e potencialmente menos dependência de dados anotados por humanos superam o investimento inicial? Essa é a pergunta emocionante!
Ainda ontem, Quanquan Gu , professor associado de ciência da computação na UCLA e diretor de pesquisa de IA da ByteDance, anunciou que agora qualquer pessoa pode usar o modelo e conjunto de dados SPIN . Isso não significa apenas código e conjuntos de dados, mas modelos pré-treinados para iniciar suas próprias jornadas de IA.
SPIN reflete os processos de pensamento humano.
Ao gerar um texto que parece humano, o SPIN sugere os elementos fundamentais do raciocínio que a IA do futuro poderia fazer. Você sabe como algumas saídas do LLM parecem robóticas, certo? Bem, SPIN é diferente. Na verdade, reflete a maneira como os humanos pensam. A maneira como escreve parece tão natural que é como uma espiada em como a IA do futuro poderá raciocinar por si mesma.
Não se trata apenas de fazer com que os chatbots pareçam mais agradáveis.
Trata-se de criar um tipo de pensamento digital que funcione como o nosso. Esse tipo de IA seria muito mais flexível e capaz de uma compreensão real.
Embora o SPIN seja um grande avanço no sentido de tornar os modelos de linguagem mais naturais, é fácil ficar entusiasmado e superestimar o que isso significa .
O texto que produz é impressionante (você pode dar uma olhada no banco de dados), mas é importante lembrar que a IA ainda não tem capacidade para um raciocínio verdadeiramente independente.
Embora SPIN não seja AGI verdadeiro, a forma como ele imita a escrita humana demonstra avanços impressionantes em como a IA poderia processar e usar a linguagem no futuro.
Mesmo assim, sugere possibilidades surpreendentes de como a IA e a linguagem poderão desenvolver-se no futuro (se nos lembrarmos que estamos no início do taco de hóquei, o futuro não está longe de hoje...)
Os efeitos cascata serão enormes e aqui está o seu passe de acesso:
Resumindo, sua metodologia iterativa e de autoaperfeiçoamento é um avanço significativo na criação de um LLM que pode se envolver em uma comunicação genuinamente humana.
Originalmente compartilhado em minha conta X.