paint-brush
Tại sao việc tích hợp các ngôn ngữ tài nguyên thấp vào LLM là điều cần thiết cho AI có trách nhiệmtừ tác giả@konkiewicz
3,939 lượt đọc
3,939 lượt đọc

Tại sao việc tích hợp các ngôn ngữ tài nguyên thấp vào LLM là điều cần thiết cho AI có trách nhiệm

từ tác giả Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

dài quá đọc không nổi

Bài viết khám phá những thách thức mà các ngôn ngữ có nguồn tài nguyên thấp phải đối mặt trong việc truy cập các mô hình ngôn ngữ lớn (LLM) và trình bày các chiến lược đổi mới, như tạo các bộ dữ liệu tinh chỉnh chất lượng cao, để cải thiện hiệu suất LLM, đặc biệt tập trung vào tiếng Swahili như một trường hợp nghiên cứu. Những tiến bộ này góp phần tạo nên một hệ sinh thái AI toàn diện hơn, hỗ trợ sự đa dạng về ngôn ngữ và khả năng tiếp cận.
featured image - Tại sao việc tích hợp các ngôn ngữ tài nguyên thấp vào LLM là điều cần thiết cho AI có trách nhiệm
Magdalena Konkiewicz HackerNoon profile picture
0-item

Ngôn ngữ tài nguyên thấp (LRL) trong Mô hình ngôn ngữ lớn (LLM)

Trong những năm gần đây, sự xuất hiện của Mô hình ngôn ngữ lớn (LLM) đã mang lại những thay đổi đáng kể trong thói quen hàng ngày của người tiêu dùng. Giờ đây, các cá nhân có thể thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như truy xuất thông tin, soạn thảo văn bản và tinh chỉnh tài liệu thông qua các công cụ ngôn ngữ mạnh mẽ này. Việc tích hợp LLM vào cuộc sống hàng ngày đã dẫn đến sự gia tăng đáng kể về năng suất, cả trong công việc và nỗ lực cá nhân.


Tuy nhiên, điều quan trọng cần nhận ra là không phải tất cả người tiêu dùng đều trải nghiệm những lợi ích này như nhau. Thật vậy, một số lượng đáng kể những người trên khắp thế giới nói các ngôn ngữ ít phổ biến hơn không thể tương tác với LLM, chủ yếu là do mô hình ngôn ngữ được thiết kế cho các ngôn ngữ cụ thể này không phù hợp. Với 7.000 ngôn ngữ hiện đang được sử dụng trên thế giới, các LLM đa ngôn ngữ lớn nhất đã được đào tạo chỉ sử dụng ít hơn một trăm ngôn ngữ, do đó khiến nhiều ngôn ngữ và con người hoàn toàn bị bỏ lại phía sau.


Việc hỗ trợ các ngôn ngữ không phải tiếng Anh đòi hỏi nguồn dữ liệu phong phú, chất lượng cao, khó tìm và khó truy cập. Và những mô hình đó không chỉ hoạt động kém hơn mà còn được báo cáo bởi Đại học Brown rằng họ có nhiều khả năng đưa ra những phản hồi phi đạo đức, do đó khiến họ dễ bị tổn thương hơn trước các cuộc tấn công độc hại.


Tại sao chúng ta có ít ngôn ngữ được trình bày trong LLM?

Hiệu suất của LLM được thiết kế riêng cho Ngôn ngữ tài nguyên thấp (LRL) bị cản trở bởi một số thách thức chính.


Thứ nhất, các mô hình nền tảng cho nhiều LLM dựa vào dữ liệu thu thập được từ internet, thường thiếu phạm vi bao quát toàn diện về LRL. Biểu đồ bên dưới hiển thị sự phân bổ dữ liệu trên internet được chia thành các nhóm ngôn ngữ. Mặc dù các ngôn ngữ phổ biến hơn có hàng trăm GB dữ liệu có khả năng sẵn có cho các mô hình đào tạo, nhưng các ngôn ngữ ở phần cuối biểu đồ chỉ có sẵn dữ liệu trong phạm vi hàng trăm megabyte.

Cái đuôi dài của đa ngôn ngữ, ít ngôn ngữ có nguồn tài nguyên cao và nhiều ngôn ngữ có dân số thưa thớt. - Hình ảnh ban đầu được xuất bản tại https://arxiv.org/pdf/1911.02116.pdf


Hạn chế này càng lớn hơn do không có bộ dữ liệu hướng dẫn được tinh chỉnh cho nhiều LRL. Tập dữ liệu hướng dẫn bao gồm một bộ câu hỏi được ghép nối với các câu trả lời lý tưởng và là một phần quan trọng trong quá trình đào tạo LLM - trong trường hợp này là bằng các ngôn ngữ cụ thể. Đây là cách mô hình học cách làm theo hướng dẫn và nếu không có nội dung này, mô hình chỉ có khả năng dự đoán từ tiếp theo trong chuỗi thay vì hỗ trợ con người giải quyết các câu hỏi và nhiệm vụ giải quyết vấn đề phức tạp.


Điều trên là do LLM được đào tạo theo các bước tuần tự. Bước đầu tiên là học ngôn ngữ bằng cách đọc một lượng lớn văn bản không được chú thích để cung cấp cho mô hình khả năng dự đoán thế giới tiếp theo theo trình tự. Bước thứ hai là điều chỉnh hành vi dự đoán này để tuân theo các hướng dẫn cụ thể, chẳng hạn như trả lời câu hỏi, viết tóm tắt hoặc trích xuất dữ liệu. Đây là lý do tại sao việc tinh chỉnh các bộ dữ liệu lại có tầm quan trọng như vậy, vì chất lượng của chúng sẽ quyết định thêm khả năng LLM hỗ trợ người dùng thực hiện các tác vụ được yêu cầu.

Trong phần sau, chúng tôi sẽ trình bày một phương pháp tạo tập dữ liệu chất lượng cao cho tiếng Swahili có thể được sử dụng để tinh chỉnh LLM cho ngôn ngữ này. Phương pháp này có thể được áp dụng cho bất kỳ ngôn ngữ có nguồn tài nguyên thấp nào.


Quy trình cải tiến để thu thập dữ liệu cho LRL

Tiếng Swahili là ngôn ngữ được hơn 200 triệu người sử dụng trên 14 quốc gia châu Phi khác nhau và là ngôn ngữ quốc gia chính thức ở Tanzania, Kenya, Uganda và Cộng hòa Dân chủ Congo. Nó thuộc nhóm ngôn ngữ có nguồn tài nguyên thấp và là một ví dụ về ngôn ngữ không có tập dữ liệu hướng dẫn sẵn dùng để tinh chỉnh LLM.



Nhìn chung, có ba cách tiếp cận để tạo tập dữ liệu tinh chỉnh cho một ngôn ngữ. Cách đầu tiên là việc người đánh giá trực tiếp tạo ra tập dữ liệu, trong trường hợp này là các chuyên gia ngôn ngữ, yêu cầu phát triển cả câu hỏi và câu trả lời lý tưởng bằng ngôn ngữ mong muốn. Điều này có thể là thách thức đối với ngôn ngữ Swahili vì người đánh giá cần phải là chuyên gia cấp cao và quá trình này thường tốn kém.

Một giải pháp tiềm năng khác là lấy tập dữ liệu hướng dẫn hiện có bằng tiếng Anh và dịch nó sang tiếng Swahili. Việc này có thể được thực hiện bởi những dịch giả nói cả tiếng Swahili và tiếng Anh nhưng việc này cũng có thể tốn nhiều thời gian và nguồn lực. Tuy nhiên, có thể sử dụng trình dịch tự động, điều này thường dẫn đến kết quả không đầy đủ hoặc chất lượng kém.


Một giải pháp khác kết hợp dịch tự động với xác thực của con người, đưa ra cách tiếp cận tiết kiệm chi phí và có thể mở rộng, điều này rất quan trọng để đảm bảo các mô hình LRL chính xác, phản ánh phong tục và chuẩn mực địa phương, đồng thời hữu ích cho cộng đồng sẽ sử dụng chúng. Phương pháp này sử dụng trình dịch tự động tốt nhất hiện có từ tiếng Swahili sang tiếng Anh và sau đó yêu cầu người nói tiếng Swahili bản địa lọc ra các ví dụ không đáp ứng tiêu chuẩn chất lượng.


Toloka gần đây đã thực hiện một dự án phát triển, trong đó họ đã tạo ra một bộ dữ liệu tinh chỉnh 11.000 cho tiếng Swahili từ 15.000 bản gốc Tập dữ liệu Dolly . Mỗi điểm dữ liệu bao gồm một lời nhắc và một câu trả lời đã được dịch từ tiếng Anh sang tiếng Swahili bằng cách sử dụng tính năng dịch tự động, ban đầu tạo ra 15.000 cặp câu trả lời cho câu hỏi bằng tiếng Swahili. Tập dữ liệu này đã được giảm bớt hơn nữa bằng cách yêu cầu người bản ngữ loại bỏ các cặp có chất lượng thấp, do đó để lại một tập dữ liệu tiếng Swahili được tinh chỉnh với 11.000 trường hợp.




Bộ dữ liệu sau đó được sử dụng để cải thiện mT5 , một trong những mô hình ngôn ngữ đa ngôn ngữ có hiệu suất cao nhất cho tiếng Swahili, đã chứng tỏ những cải tiến đáng kể về hiệu suất cho ngôn ngữ này. Tập dữ liệu được tinh chỉnh đã tăng cường độ chính xác và điểm f (thước đo hiệu suất dự đoán) cho các nhiệm vụ phân loại, nhưng quan trọng hơn là nó đã tăng đáng kể ROUGE hoặc Nghiên cứu theo định hướng thu hồi để đánh giá ý chính, là một tập hợp các số liệu được sử dụng để đánh giá phần mềm tóm tắt tự động và dịch máy trong NLP, và chrF++, Điểm F ký tự n-gram (chrF), trong các nhiệm vụ sáng tạo trong đó mô hình phải trả lời các câu hỏi mở. Thử nghiệm này cho thấy tiềm năng cải thiện hiệu suất LLM trong LRL và do đó mở ra con đường xây dựng các mô hình đa ngôn ngữ thực sự.


Tạo ra một hệ sinh thái AI toàn diện hơn

Khi các nhà phát triển và tổ chức cố gắng tạo ra một hệ sinh thái AI toàn diện hơn, việc đánh giá càng trở nên quan trọng hơn, cũng như sự tham gia của con người vào việc đào tạo LLM. Sự ra mắt gần đây của Cohere về Aya , một mô hình ngôn ngữ hỗ trợ hơn một trăm ngôn ngữ, bao gồm tiếng Swahili và các LRL khác, minh họa cho cam kết này. Giải quyết tình trạng khan hiếm dữ liệu và nâng cao hiệu suất mô hình cho LRL là một bước quan trọng để xây dựng các hệ thống AI toàn diện và có trách nhiệm hơn nhằm phục vụ các cộng đồng ngôn ngữ đa dạng trên toàn thế giới.