173 lecturas

Mixtral supera a Llama y GPT-3.5 en múltiples indicadores

por Writings, Papers and Blogs on Text Models4m2024/10/18

Demasiado Largo; Para Leer

Mixtral 8x7B supera a Llama 2 70B y GPT-3.5 en numerosos puntos de referencia, incluidos razonamiento de sentido común, matemáticas y generación de código. Con solo 13 000 millones de parámetros activos, Mixtral logra un rendimiento comparable o superior y, al mismo tiempo, es más eficiente que sus contrapartes. A pesar de su menor capacidad de 47 000 millones de parámetros, Mixtral se destaca en métricas como MMLU y demuestra un sólido rendimiento en una variedad de tareas, lo que lo convierte en una opción sólida para aplicaciones de modelado de lenguaje.

featured image - Mixtral supera a Llama y GPT-3.5 en múltiples indicadores

Tabla de enlaces

Resumen y 1. Introducción

2 Detalles arquitectónicos y 2.1 Mezcla dispersa de expertos

3 resultados

3.1 Puntos de referencia multilingües, 3.2 Rendimiento a largo plazo y 3.3 Puntos de referencia de sesgo

4 Ajuste fino de instrucciones

5 Análisis de ruta

6 Conclusión, agradecimientos y referencias

3 resultados

Comparamos Mixtral con Llama y volvemos a ejecutar todos los puntos de referencia con nuestro propio proceso de evaluación para lograr una comparación justa. Medimos el rendimiento en una amplia variedad de tareas categorizadas de la siguiente manera:

• Razonamiento de sentido común (0-shot): Hellaswag [32], Winogrande [26], PIQA [3], SIQA [27], OpenbookQA [22], ARC-Easy, ARC-Challenge [8], CommonsenseQA [30]

• Conocimiento del mundo (5 disparos): NaturalQuestions [20], TriviaQA [19]

• Comprensión lectora (0-shot): BoolQ [7], QuAC [5]

• Matemáticas: GSM8K [9] (8 disparos) con maj@8 y MATH [17] (4 disparos) con maj@4

• Código: Humaneval [4] (0 disparos) y MBPP [1] (3 disparos)

• Resultados agregados populares: MMLU [16] (5 disparos), BBH [29] (3 disparos) y AGI Eval [34] (3-5 disparos, solo preguntas de opción múltiple en inglés)

Los resultados detallados de Mixtral, Mistral 7B y Llama 2 7B/13B/70B y Llama 1 34B[2] se presentan en la Tabla 2. La Figura 2 compara el rendimiento de Mixtral con los modelos Llama en diferentes categorías. Mixtral supera a Llama 2 70B en la mayoría de las métricas. En particular, Mixtral muestra un rendimiento superior en los puntos de referencia de código y matemáticas.

Tamaño y eficiencia. Comparamos nuestro desempeño con la familia Llama 2, con el objetivo de comprender la eficiencia de los modelos Mixtral en el espectro costo-rendimiento (ver Figura 3). Como modelo Mixtureof-Experts disperso, Mixtral solo usa 13 mil millones de parámetros activos para cada token. Con parámetros activos 5 veces más bajos, Mixtral puede superar a Llama 2 por 70 mil millones en la mayoría de las categorías.

Tenga en cuenta que este análisis se centra en el recuento de parámetros activos (consulte la Sección 2.1), que es directamente proporcional al costo de cómputo de inferencia, pero no considera los costos de memoria ni la utilización del hardware. Los costos de memoria para servir a Mixtral son proporcionales a su recuento de parámetros dispersos, 47B, que sigue siendo menor que el de Llama 2, 70B. En cuanto a la utilización del dispositivo, observamos que la capa SMoE introduce una sobrecarga adicional debido al mecanismo de enrutamiento y debido al aumento de las cargas de memoria cuando se ejecuta más de un experto por dispositivo. Son más adecuados para cargas de trabajo por lotes donde se puede alcanzar un buen grado de intensidad aritmética.

Comparación con Llama 2 70B y GPT-3.5. En la Tabla 3, informamos el rendimiento de Mixtral 8x7B en comparación con Llama 2 70B y GPT-3.5. Observamos que Mixtral tiene un rendimiento similar o superior a los otros dos modelos. En MMLU, Mixtral obtiene un mejor rendimiento, a pesar de su capacidad significativamente menor (47B tokens en comparación con 70B). Para MT Bench, informamos el rendimiento del último modelo GPT-3.5-Turbo disponible, gpt-3.5-turbo-1106.

Diferencias de evaluación. En algunos puntos de referencia, existen algunas diferencias entre nuestro protocolo de evaluación y el informado en el artículo de Llama 2: 1) en MBPP, utilizamos el subconjunto verificado manualmente 2) en TriviaQA, no proporcionamos contextos de Wikipedia.