Bien, ha pasado más de un año desde que se lanzó ChatGPT. Antes de este punto de inflexión, la comunidad investigadora y los líderes de la industria ya estaban trabajando activamente en la IA generativa, particularmente en el ámbito de la visión por computadora, con una serie de hallazgos y aplicaciones de difusión estable. En resumen, 2022 podría considerarse el año de la difusión estable y 2023 el año de los grandes modelos lingüísticos (LLM).
El comienzo de 2023 marcó el predominio de los LLM, con ChatGPT a la cabeza en adopción e innovación generalizadas. Este año, los LLM se volvieron omnipresentes en varios sectores, cerrando efectivamente la brecha entre la investigación teórica y las aplicaciones prácticas de la industria. Exploremos los hitos y tendencias clave que dieron forma al panorama de LLM en 2023, y también tengamos una idea de cómo han revolucionado nuestra interacción con la tecnología.
Año del LLM de código abierto
En 2023, fuimos testigos de un año extraordinario para los modelos de lenguajes grandes (LLM) de código abierto. El lanzamiento más importante fue la serie LLaMa de Meta, que sentó un precedente de lanzamientos frecuentes a partir de entonces, con nuevos modelos surgiendo cada mes, semana y, a veces, diariamente. Actores clave como Meta, EleutherAI, MosaicML, TIIUAE y StabilityAI introdujeron una variedad de modelos entrenados en conjuntos de datos públicos, que satisfacen diversas necesidades dentro de la comunidad de IA. La mayoría de estos modelos eran Transformers solo con decodificador, continuando la tendencia establecida por ChatGPT. Estos son algunos de los modelos más destacados lanzados este año:
LLaMa por Meta: La familia LLaMa presenta modelos de varios tamaños, y el modelo más grande cuenta con 65 mil millones de parámetros, entrenados en 1,4 billones de tokens. En particular, los modelos más pequeños, especialmente el que tiene 13 mil millones de parámetros, entrenados en 1 billón de tokens, demostraron un rendimiento superior al aprovechar períodos de entrenamiento prolongados con más datos, superando incluso a los modelos más grandes en algunos puntos de referencia. El modelo 13B LLaMa superó al GPT-3 en la mayoría de las pruebas, y el modelo más grande estableció nuevas pruebas de rendimiento de última generación tras su lanzamiento.Pitia de Eleuther AI: Pythia comprende un conjunto de 16 modelos con 154 puntos de control parcialmente entrenados, diseñados para facilitar la investigación científica controlada en LLM de acceso abierto y capacitados de forma transparente. Esta serie ayuda enormemente a los investigadores al proporcionar artículos detallados y una base de código completa para la formación de LLM.MPT de MosaicML ySerie Falcon de TIIUAE: Ambos fueron capacitados en una amplia gama de fuentes de datos, desde tokens de 1T a 1,5T, y produjeron versiones con parámetros 7B y 30B. En particular, a finales de año, TIIUAE lanzó un modelo 180B, el modelo de código abierto más grande hasta la fecha.Mistral ,Fi yOrca : Estos modelos resaltan otra tendencia en 2023, centrándose en entrenar modelos más pequeños y más eficientes adecuados para restricciones limitadas de hardware y presupuesto, lo que marca un cambio significativo hacia la accesibilidad y la practicidad en el desarrollo de modelos de IA.
Modelo pequeño y eficiente
En 2023, también hemos sido testigos del lanzamiento de numerosos modelos pequeños y eficientes. La razón principal de esta tendencia es el costo prohibitivamente alto de entrenar modelos grandes para la mayoría de los grupos de investigación. Además, los modelos grandes a menudo no son adecuados para muchas aplicaciones del mundo real debido a sus elevados costos de capacitación e implementación, así como a sus importantes requisitos de memoria y potencia computacional. Por ello, los modelos pequeños y eficientes se han convertido en una de las principales tendencias del año. Como se mencionó anteriormente, las series Mistral y Orca han sido protagonistas clave en esta tendencia. Mistral sorprendió a la comunidad con un modelo 7B que superó a sus homólogos más grandes en la mayoría de los puntos de referencia, mientras que la serie Phi es aún más pequeña, con sólo 1,3 B a 2,7 B de parámetros, pero ofrece un rendimiento impresionante.
Otro enfoque innovador es
El éxito de modelos pequeños y eficientes depende en gran medida de la calidad de los datos y de trucos de atención rápida. Si bien Mistral no ha revelado los detalles de sus datos de entrenamiento, varias investigaciones y modelos han demostrado que la calidad de los datos es crucial para entrenar modelos efectivos. Uno de los hallazgos más notables de este año es
Ajuste de adaptación de bajo rango
Bien, hablemos de
LoRA básicamente congela los pesos de los modelos previamente entrenados e inyecta capas entrenables ( matrices de descomposición de rangos ). Estas matrices son compactas pero capaces de aproximar las adaptaciones necesarias al comportamiento del modelo, lo que permite un ajuste eficiente y al mismo tiempo mantiene la integridad del conocimiento del modelo original. Una de las variantes más utilizadas de LoRA es
Mezcla de expertos
El
Uno de los modelos MoE más notables lanzados el año pasado es
Del lenguaje a los modelos básicos generales
Los LLM están evolucionando hacia modelos básicos generales, ampliando sus capacidades más allá del procesamiento del lenguaje. Esta transición significa un cambio hacia modelos que pueden comprender y generar no solo texto sino también código, contenido visual, audio y más. El año pasado vimos la introducción de modelos como
Agentes equipados con herramientas
La integración de los LLM con diversas herramientas y plataformas está haciendo que la IA sea más accesible y práctica para el uso diario. Los agentes equipados con estas herramientas se están adaptando a tareas específicas, que van desde asistencia en codificación hasta escritura creativa, lo que convierte a la IA en una parte indispensable de muchos flujos de trabajo profesionales. Este desarrollo ha sido posible gracias a las capacidades de razonamiento y acción de los LLM. Este tipo de característica a menudo se conoce como llamada de función bajo el
OpenAI sigue dominando el panorama de la industria
OpenAI continúa dominando el panorama de la industria, manteniendo su liderazgo en términos de investigación y aplicación. El GPT-4 y el nuevo
Conclusión
El año 2023 marcó un período de importante crecimiento e innovación en el campo de los grandes modelos lingüísticos (LLM). Desde la democratización de la IA a través de modelos de código abierto hasta el desarrollo de sistemas más eficientes y especializados, estos avances no son sólo hazañas técnicas sino también pasos para hacer que la IA sea más accesible y aplicable en diversos ámbitos. De cara al futuro, el potencial de estas tecnologías para transformar industrias y mejorar las capacidades humanas sigue siendo una perspectiva apasionante. En 2024, anticipamos hitos aún más notables: Meta anunció planes para entrenar LLaMA-3 y tenía un plan para abrirlo. En el panorama de la industria, también hay un gran interés en ver si gigantes como Google o startups como Anthropic pueden superar a OpenAI.
Visite y suscríbase a mi blog personal para obtener más artículos.