En los últimos años, la aparición de los modelos de lenguaje grande (LLM) ha provocado cambios significativos en las rutinas diarias de los consumidores. Las personas ahora pueden realizar una amplia gama de tareas, como recuperar información, componer texto y perfeccionar documentos a través de estas potentes herramientas lingüísticas. Esta integración de los LLM en la vida diaria ha dado como resultado aumentos notables en la productividad, tanto en el trabajo como en los esfuerzos personales.
Sin embargo, es importante reconocer que no todos los consumidores han experimentado estos beneficios por igual. De hecho, un número considerable de personas en todo el mundo que hablan idiomas menos comunes no pueden interactuar con los LLM, principalmente debido a la insuficiencia de los modelos lingüísticos diseñados para estos idiomas específicos. Con 7.000 idiomas hablados actualmente en el mundo, los mayores LLM multilingües se han formado utilizando sólo menos de cien idiomas, dejando así muchos idiomas y personas completamente atrás.
Para admitir idiomas distintos del inglés se necesitan fuentes de datos abundantes y de alta calidad, que pueden ser difíciles de encontrar y acceder. Y no sólo esos modelos funcionan peor sino que también ha sido informado por
El desempeño de los LLM diseñados para lenguas de bajos recursos (LRL) se ve obstaculizado por varios desafíos clave.
En primer lugar, los modelos básicos de muchos LLM se basan en datos extraídos de Internet, que a menudo carecen de una cobertura completa de los LRL. El siguiente gráfico muestra una distribución de datos en Internet divididos en grupos de idiomas. Mientras que los idiomas más comunes tienen cientos de GB de datos potencialmente disponibles para modelos de entrenamiento, los idiomas al final del gráfico solo tienen datos disponibles en el rango de cientos de megabytes.
Esta limitación se ve agravada aún más por la ausencia de conjuntos de datos de instrucciones ajustados para muchos LRL. Un conjunto de datos de instrucción consta de un conjunto de preguntas combinadas con respuestas ideales y es una parte crucial de la formación de LLM, en este caso, en idiomas específicos. Así es como el modelo aprende a seguir instrucciones y, sin este activo, los modelos sólo son capaces de predecir la siguiente palabra de la secuencia en lugar de ayudar a los humanos con preguntas complejas y tareas de resolución de problemas.
Lo anterior se debe a que los LLM se capacitan en pasos secuenciales. El primer paso es aprender el idioma leyendo una gran cantidad de texto sin anotaciones, lo que le da al modelo la capacidad de predecir el siguiente mundo en la secuencia. El segundo paso es adaptar este comportamiento predictivo para seguir instrucciones específicas, como responder preguntas, escribir resúmenes o extraer datos. Es por eso que ajustar los conjuntos de datos es tan importante, ya que su calidad determinará aún más la capacidad de LLM para ayudar a los usuarios con las tareas requeridas.
En la siguiente sección, presentaremos un método para crear un conjunto de datos de alta calidad para suajili que se puede utilizar para ajustar el LLM para este idioma. El método se puede aplicar a cualquier idioma de bajos recursos.
El suajili es un idioma hablado por más de 200 millones de personas en 14 países africanos diferentes y es el idioma nacional oficial en Tanzania, Kenia, Uganda y la República Democrática del Congo. Pertenece al grupo de lenguajes de bajos recursos y es un ejemplo de un lenguaje que no tiene un conjunto de datos de instrucciones listo para usar para el ajuste fino de LLM.
En general, existen tres enfoques para crear un conjunto de datos de ajuste fino para un idioma. La primera es la generación directa de un conjunto de datos por parte de los evaluadores, en este caso expertos en idiomas, lo que requiere desarrollar tanto preguntas como respuestas ideales en el idioma deseado. Esto puede ser un desafío para el idioma swahili porque los evaluadores deben ser expertos de alto nivel y el proceso generalmente es costoso.
Otra posible solución es tomar un conjunto de datos de instrucciones existente en inglés y traducirlo al suajili. Esto lo podrían hacer traductores que hablen tanto suajili como inglés, pero también puede requerir mucho tiempo y recursos. Se podría utilizar un traductor automático; sin embargo, esto normalmente da como resultado resultados insuficientes o de mala calidad.
Otra solución combina la traducción automática con la validación humana, ofreciendo un enfoque rentable y escalable, lo cual es fundamental para garantizar que los modelos LRL sean precisos, reflejen las costumbres y normas locales y sean útiles para las comunidades que los utilizarán. Este método utiliza el mejor traductor automático disponible del suajili al inglés y luego pide a los hablantes nativos de suajili que filtren los ejemplos que no cumplen con los estándares de calidad.
Toloka recientemente emprendió un proyecto de desarrollo, donde crearon un conjunto de datos de 11.000 ajustes para swahili a partir de los 15.000 originales.
El conjunto de datos se utilizó luego para mejorar
A medida que los desarrolladores y las organizaciones se esfuerzan por crear un ecosistema de IA más inclusivo, la evaluación se vuelve aún más crítica, al igual que la participación humana en la formación de los LLM. El reciente lanzamiento de Cohere de