¿Plan AGI? SPIN de código abierto de investigadores de UCLA: un modelo de lenguaje que se mejora a sí mismo

¡Prepárate para un terremoto de IA! Un equipo de investigadores de UCLA ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) ha revelado algunas claves importantes sobre AGI. No es solo el código para una IA que suena seriamente humana, sino que también han abierto todo el código.

Ahora puede desarrollar mejores LLM sin necesidad de alimentarlos con toneladas de datos nuevos anotados por humanos.

Primero, centrémonos en lo que cambia las reglas del juego: un modelo de lenguaje de autoaprendizaje.

Este método permite que un modelo de lenguaje se aprenda por sí solo y sea cada vez mejor sin cantidades masivas de datos nuevos seleccionados externamente.

Presentamos SPIN: el ajuste fino de reproducción automática convierte modelos de lenguaje débiles en modelos de lenguaje fuertes

Profundicé por completo: leí su artículo (" El autoajuste fino convierte modelos de lenguaje débiles en modelos de lenguaje fuertes "), busqué información en foros como HackerNews , X y Reddit con Google Gemini Ultra y GPT-4. Turbo, y el concepto central de SPIN me dejó boquiabierto metafóricamente amante de la tecnología:

El truco del 'compañero de conversación'

Imagínese comenzar con un modelo de lenguaje que domina las habilidades básicas (digamos etiqueta conversacional). Con SPIN, el modelo genera "conversaciones" internas y construye un conjunto de datos a partir de lo que ya sabe.

¡Expansión instantánea del conocimiento!

El segundo paso implica lanzar un nuevo modelo y asignarle una tarea: detectar la diferencia entre los chats generados por máquinas y la comunicación humana genuina. Esto obliga al modelo original a mejorar su juego, volviéndose cada vez más humano con cada respuesta para evitar la detección.

Aquí es donde las cosas se ponen interesantes. Comenzaron con zephyr-7b-sft-full (ya ajustado con el corpus UltraChat ). SPIN lanzó un sistema de entrenamiento iterativo con este modelo base, mejorándolo exponencialmente sin depender de toneladas de nuevos datos creados externamente.

SPIN versus entrenamiento tradicional de IA (DPO): ¿un nuevo campeón?

Generalmente pensamos que el aprendizaje automático, particularmente para estos enormes modelos de lenguaje, requiere una gran cantidad de datos cuidadosamente seleccionados y etiquetados. Los métodos de optimización de preferencias directas (DPO) implican que los humanos califiquen minuciosamente las respuestas de la IA entre sí para entrenar. Esto no sólo requiere mucha mano de obra, sino que también aumenta los costos a medida que crece el conjunto de datos.

La optimización de preferencias directas (DTO) es un método de entrenamiento en el que un modelo se ajusta utilizando un conjunto de datos de preferencias, que a menudo implica juicios humanos que deciden cuáles de las respuestas generadas por el modelo son las preferidas. Este método requiere recopilar nuevos datos donde cada pieza se etiqueta en función de estas preferencias, lo que puede consumir muchos recursos.

Por el contrario, SPIN utiliza reproducción automática iterativa , lo que reduce significativamente la necesidad de nuevos datos.

En la primera iteración, el rendimiento de SPIN ya supera al de DPO en la mayoría de los casos , lo que destaca su eficiencia y eficacia a la hora de aprovechar los datos existentes para mejorar el rendimiento del modelo.

SPIN muestra su fortaleza al lograr un rendimiento a la par con modelos entrenados en conjuntos de datos más extensos . El proceso de entrenamiento iterativo mejora metódicamente el rendimiento del modelo a través de múltiples iteraciones, mostrando mejoras sustanciales , especialmente en puntos de referencia desafiantes como TruthfulQA y GSM8k.

Por lo tanto, SPIN supera a los métodos de entrenamiento convencionales, incluido DPO, al aprovechar de manera eficiente los conjuntos de datos sintéticos generados a través del juego automático, sin la necesidad de datos adicionales anotados por humanos.

¿Cuáles son las fortalezas y los costos de SPIN?

SPIN lanza una bola curva con su dinámica de juego autónomo.

Piense en ello como un modelo de lenguaje que entrena consigo mismo en un ring de boxeo lingüístico, y en cada ronda le enseña nuevos trucos.

La eficiencia de los datos de SPIN evita la necesidad de nuevos conjuntos de datos anotados por humanos.

Pero lo más importante es que acelera el ciclo de mejora , haciendo que el modelo sea cada vez más apto para generar texto similar al humano .

SPIN no sólo parece coincidir con modelos entrenados en conjuntos de datos externos más grandes, sino que su poder iterativo significa ganancias consistentes, ya que esencialmente estudia su propia producción.

Alucinante, ¿verdad?

Bien, hablemos del elefante en la habitación – COSTO

El cofundador de Nous Research @ Teknium1 tiene razón. Estos grandes modelos de lenguaje no se vuelven más inteligentes gratis. El reentrenamiento iterativo con SPIN implica el costoso proceso de ajuste fino supervisado (SFT) cada vez.

Sin embargo, también menciona que "¡Creo que vale la pena!". Además, ¿los beneficios a largo plazo de una evolución más rápida y una dependencia potencialmente menor de los datos anotados por humanos superan la inversión inicial? ¡Ésa es la pregunta apasionante!

¡AUGE! Es hora de utilizar IA de código abierto

Ayer mismo, Quanquan Gu , profesor asociado de informática en UCLA y director de investigación de IA en ByteDance, anunció que ahora cualquiera puede utilizar el modelo y el conjunto de datos SPIN . Esto no significa solo código y conjuntos de datos, sino modelos previamente entrenados para impulsar sus propios viajes de IA.

SPIN refleja los procesos de pensamiento humano.

Al generar texto que parece humano, SPIN insinúa los elementos fundamentales del razonamiento que podría hacer la futura IA. ¿Sabes que algunos resultados de LLM parecen robóticos, verdad? Bueno, SPIN es diferente. En realidad, refleja la forma en que piensan los humanos. La forma en que escribe se siente tan natural que es como un vistazo a cómo la IA del futuro podría razonar por sí misma.

No se trata sólo de hacer que los chatbots suenen mejor.

Se trata de crear un tipo de pensamiento digital que funcione como el nuestro. Ese tipo de IA sería mucho más flexible y capaz de lograr una comprensión real.

Si bien SPIN es un gran paso adelante para hacer que los modelos de lenguaje suenen más naturales, es fácil entusiasmarse y sobreestimar lo que significa .

El texto que produce es impresionante (puedes echar un vistazo a la base de datos), pero es importante recordar que la IA aún no tiene la capacidad de un verdadero razonamiento independiente.

Si bien SPIN no es un verdadero AGI , la forma en que imita la escritura humana demuestra avances impresionantes en cómo la IA podría procesar y usar el lenguaje en el futuro.

Aun así, sugiere posibilidades asombrosas sobre cómo la IA y el lenguaje podrían desarrollarse en el futuro (si recuerdas que estamos en el comienzo del palo de hockey, el futuro no está lejos de hoy...)

El efecto dominó será enorme y aquí tienes tu pase de acceso:

Código: Disponible en GitHub : https://github.com/uclaml/SPIN
Datos: alojado en Hugging Face , el conjunto de datos es fácilmente accesible para aquellos interesados en aplicar metodologías SPIN: https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…
Modelos: también hay disponibles modelos previamente entrenados, que ofrecen una ventaja para experimentar con modelos de lenguaje mejorados con SPIN: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…
Página del proyecto: para obtener conocimientos completos y más información, la página del proyecto es un recurso invaluable: https://uclaml.github.io/SPIN/

En resumen, su metodología iterativa y de mejora personal es un avance significativo hacia la creación de un LLM que pueda participar en una comunicación genuinamente humana.

Compartido originalmente en mi cuenta X.

¿Plan AGI? SPIN de código abierto de investigadores de UCLA: un modelo de lenguaje que se mejora a sí mismo

Demasiado Largo; Para Leer

Presentamos SPIN: el ajuste fino de reproducción automática convierte modelos de lenguaje débiles en modelos de lenguaje fuertes

El truco del 'compañero de conversación'

SPIN versus entrenamiento tradicional de IA (DPO): ¿un nuevo campeón?

¿Cuáles son las fortalezas y los costos de SPIN?

Bien, hablemos del elefante en la habitación – COSTO

¡AUGE! Es hora de utilizar IA de código abierto

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

¿Plan AGI? SPIN de código abierto de investigadores de UCLA: un modelo de lenguaje que se mejora a sí mismo

Demasiado Largo; Para Leer

Presentamos SPIN: el ajuste fino de reproducción automática convierte modelos de lenguaje débiles en modelos de lenguaje fuertes

El truco del 'compañero de conversación'

SPIN versus entrenamiento tradicional de IA (DPO): ¿un nuevo campeón?

¿Cuáles son las fortalezas y los costos de SPIN?

Bien, hablemos del elefante en la habitación – COSTO

¡AUGE! Es hora de utilizar IA de código abierto

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics