Trong những năm gần đây, sự xuất hiện của Mô hình ngôn ngữ lớn (LLM) đã mang lại những thay đổi đáng kể trong thói quen hàng ngày của người tiêu dùng. Giờ đây, các cá nhân có thể thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như truy xuất thông tin, soạn thảo văn bản và tinh chỉnh tài liệu thông qua các công cụ ngôn ngữ mạnh mẽ này. Việc tích hợp LLM vào cuộc sống hàng ngày đã dẫn đến sự gia tăng đáng kể về năng suất, cả trong công việc và nỗ lực cá nhân.
Tuy nhiên, điều quan trọng cần nhận ra là không phải tất cả người tiêu dùng đều trải nghiệm những lợi ích này như nhau. Thật vậy, một số lượng đáng kể những người trên khắp thế giới nói các ngôn ngữ ít phổ biến hơn không thể tương tác với LLM, chủ yếu là do mô hình ngôn ngữ được thiết kế cho các ngôn ngữ cụ thể này không phù hợp. Với 7.000 ngôn ngữ hiện đang được sử dụng trên thế giới, các LLM đa ngôn ngữ lớn nhất đã được đào tạo chỉ sử dụng ít hơn một trăm ngôn ngữ, do đó khiến nhiều ngôn ngữ và con người hoàn toàn bị bỏ lại phía sau.
Việc hỗ trợ các ngôn ngữ không phải tiếng Anh đòi hỏi nguồn dữ liệu phong phú, chất lượng cao, khó tìm và khó truy cập. Và những mô hình đó không chỉ hoạt động kém hơn mà còn được báo cáo bởi
Hiệu suất của LLM được thiết kế riêng cho Ngôn ngữ tài nguyên thấp (LRL) bị cản trở bởi một số thách thức chính.
Thứ nhất, các mô hình nền tảng cho nhiều LLM dựa vào dữ liệu thu thập được từ internet, thường thiếu phạm vi bao quát toàn diện về LRL. Biểu đồ bên dưới hiển thị sự phân bổ dữ liệu trên internet được chia thành các nhóm ngôn ngữ. Mặc dù các ngôn ngữ phổ biến hơn có hàng trăm GB dữ liệu có khả năng sẵn có cho các mô hình đào tạo, nhưng các ngôn ngữ ở phần cuối biểu đồ chỉ có sẵn dữ liệu trong phạm vi hàng trăm megabyte.
Hạn chế này càng lớn hơn do không có bộ dữ liệu hướng dẫn được tinh chỉnh cho nhiều LRL. Tập dữ liệu hướng dẫn bao gồm một bộ câu hỏi được ghép nối với các câu trả lời lý tưởng và là một phần quan trọng trong quá trình đào tạo LLM - trong trường hợp này là bằng các ngôn ngữ cụ thể. Đây là cách mô hình học cách làm theo hướng dẫn và nếu không có nội dung này, mô hình chỉ có khả năng dự đoán từ tiếp theo trong chuỗi thay vì hỗ trợ con người giải quyết các câu hỏi và nhiệm vụ giải quyết vấn đề phức tạp.
Điều trên là do LLM được đào tạo theo các bước tuần tự. Bước đầu tiên là học ngôn ngữ bằng cách đọc một lượng lớn văn bản không được chú thích để cung cấp cho mô hình khả năng dự đoán thế giới tiếp theo theo trình tự. Bước thứ hai là điều chỉnh hành vi dự đoán này để tuân theo các hướng dẫn cụ thể, chẳng hạn như trả lời câu hỏi, viết tóm tắt hoặc trích xuất dữ liệu. Đây là lý do tại sao việc tinh chỉnh các bộ dữ liệu lại có tầm quan trọng như vậy, vì chất lượng của chúng sẽ quyết định thêm khả năng LLM hỗ trợ người dùng thực hiện các tác vụ được yêu cầu.
Trong phần sau, chúng tôi sẽ trình bày một phương pháp tạo tập dữ liệu chất lượng cao cho tiếng Swahili có thể được sử dụng để tinh chỉnh LLM cho ngôn ngữ này. Phương pháp này có thể được áp dụng cho bất kỳ ngôn ngữ có nguồn tài nguyên thấp nào.
Tiếng Swahili là ngôn ngữ được hơn 200 triệu người sử dụng trên 14 quốc gia châu Phi khác nhau và là ngôn ngữ quốc gia chính thức ở Tanzania, Kenya, Uganda và Cộng hòa Dân chủ Congo. Nó thuộc nhóm ngôn ngữ có nguồn tài nguyên thấp và là một ví dụ về ngôn ngữ không có tập dữ liệu hướng dẫn sẵn dùng để tinh chỉnh LLM.
Nhìn chung, có ba cách tiếp cận để tạo tập dữ liệu tinh chỉnh cho một ngôn ngữ. Cách đầu tiên là việc người đánh giá trực tiếp tạo ra tập dữ liệu, trong trường hợp này là các chuyên gia ngôn ngữ, yêu cầu phát triển cả câu hỏi và câu trả lời lý tưởng bằng ngôn ngữ mong muốn. Điều này có thể là thách thức đối với ngôn ngữ Swahili vì người đánh giá cần phải là chuyên gia cấp cao và quá trình này thường tốn kém.
Một giải pháp tiềm năng khác là lấy tập dữ liệu hướng dẫn hiện có bằng tiếng Anh và dịch nó sang tiếng Swahili. Việc này có thể được thực hiện bởi những dịch giả nói cả tiếng Swahili và tiếng Anh nhưng việc này cũng có thể tốn nhiều thời gian và nguồn lực. Tuy nhiên, có thể sử dụng trình dịch tự động, điều này thường dẫn đến kết quả không đầy đủ hoặc chất lượng kém.
Một giải pháp khác kết hợp dịch tự động với xác thực của con người, đưa ra cách tiếp cận tiết kiệm chi phí và có thể mở rộng, điều này rất quan trọng để đảm bảo các mô hình LRL chính xác, phản ánh phong tục và chuẩn mực địa phương, đồng thời hữu ích cho cộng đồng sẽ sử dụng chúng. Phương pháp này sử dụng trình dịch tự động tốt nhất hiện có từ tiếng Swahili sang tiếng Anh và sau đó yêu cầu người nói tiếng Swahili bản địa lọc ra các ví dụ không đáp ứng tiêu chuẩn chất lượng.
Toloka gần đây đã thực hiện một dự án phát triển, trong đó họ đã tạo ra một bộ dữ liệu tinh chỉnh 11.000 cho tiếng Swahili từ 15.000 bản gốc
Bộ dữ liệu sau đó được sử dụng để cải thiện
Khi các nhà phát triển và tổ chức cố gắng tạo ra một hệ sinh thái AI toàn diện hơn, việc đánh giá càng trở nên quan trọng hơn, cũng như sự tham gia của con người vào việc đào tạo LLM. Sự ra mắt gần đây của Cohere về