Son yıllarda Büyük Dil Modellerinin (LLM) ortaya çıkışı tüketicilerin günlük rutinlerinde önemli değişikliklere neden oldu. Bireyler artık bu güçlü dil araçları aracılığıyla bilgiye ulaşmak, metin oluşturmak ve belgeleri iyileştirmek gibi çok çeşitli görevleri üstlenebilirler. Yüksek Lisans'ın günlük hayata bu entegrasyonu, hem işte hem de kişisel çabalarda üretkenlikte dikkate değer artışlarla sonuçlandı.
Ancak tüm tüketicilerin bu avantajlardan eşit şekilde yararlanmadığının bilincinde olmak önemlidir. Aslında, dünya çapında daha az yaygın dilleri konuşan önemli sayıda insan, öncelikle bu belirli diller için tasarlanmış dil modellerinin yetersizliği nedeniyle Yüksek Lisans'larla etkileşime girememektedir. Şu anda dünyada konuşulan 7.000 dille, çok dilli en büyük LLM'ler yalnızca yüzden az dil kullanılarak eğitilmiş, dolayısıyla birçok dili ve insanı tamamen geride bırakmıştır.
İngilizce dışındaki dillerin desteklenmesi, bulunması ve erişilmesi zor olabilecek yüksek kaliteli, bol miktarda veri kaynağı gerektirir. Ve bu modeller yalnızca daha kötü performans göstermekle kalmıyor, aynı zamanda tarafından da rapor ediliyor.
Düşük Kaynaklı Diller (LRL) için özel olarak tasarlanmış LLM'lerin performansı, çeşitli temel zorluklar nedeniyle engellenmektedir.
İlk olarak, birçok Yüksek Lisans'ın temel modelleri, genellikle LRL'lerin kapsamlı kapsamına sahip olmayan, internetten alınan verilere dayanmaktadır. Aşağıdaki grafik, internetteki verilerin dil gruplarına göre dağılımını göstermektedir. Daha yaygın dillerde eğitim modelleri için potansiyel olarak yüzlerce GB veri bulunurken, grafiğin kuyruğundaki dillerde yalnızca yüzlerce megabayt aralığında veri mevcuttur.
Bu sınırlama, birçok LRL için ince ayarlı talimat veri kümelerinin bulunmaması nedeniyle daha da büyümektedir. Bir talimat veri seti, ideal cevaplarla eşleştirilmiş bir soru setinden oluşur ve LLM eğitiminin (bu durumda belirli dillerde) çok önemli bir parçasıdır. Model talimatları takip etmeyi bu şekilde öğrenir ve bu varlık olmadan modeller, insanlara karmaşık sorular ve problem çözme görevlerinde yardımcı olmak yerine yalnızca dizideki bir sonraki kelimeyi tahmin etme yeteneğine sahiptir.
Yukarıdaki durum LLM'lerin sıralı adımlarla eğitilmesinden kaynaklanmaktadır. İlk adım, modele bir sonraki dünyayı sırayla tahmin etme yeteneği veren, büyük miktarda açıklamasız metin okuyarak dili öğrenmektir. İkinci adım, bu tahmine dayalı davranışı, soruları yanıtlamak, özet yazmak veya veri çıkarmak gibi belirli talimatları takip edecek şekilde uyarlamaktır. Veri kümelerinin ince ayarının bu kadar önemli olmasının nedeni budur, çünkü bunların kalitesi LLM'nin kullanıcılara gerekli görevlerde yardımcı olma yeteneğini daha da belirleyecektir.
Aşağıdaki bölümde, Swahili dili için bu dil için LLM'de ince ayar yapmak amacıyla kullanılabilecek yüksek kaliteli bir veri kümesi oluşturmaya yönelik bir yöntem sunacağız. Yöntem, düşük kaynaklı herhangi bir dile uygulanabilir.
Swahili, 14 farklı Afrika ülkesinde 200 milyondan fazla insan tarafından konuşulan bir dildir ve Tanzanya, Kenya, Uganda ve Demokratik Kongo Cumhuriyeti'nde resmi ulusal dildir. Düşük kaynaklı diller grubuna aittir ve LLM'nin ince ayarı için kullanıma hazır bir talimat veri kümesine sahip olmayan bir dil örneğidir.
Genel olarak bir dil için ince ayarlı bir veri kümesi oluşturmak için üç yaklaşım mevcuttur. Bunlardan ilki, veri setinin değerlendiriciler (bu durumda dil uzmanları) tarafından doğrudan oluşturulmasıdır; bu, hem soruların hem de ideal cevapların istenilen dilde geliştirilmesini gerektirir. Bu, Swahili dili için zorlayıcı olabilir çünkü değerlendiricilerin üst düzey uzmanlar olması gerekir ve süreç genellikle pahalıdır.
Başka bir potansiyel çözüm, İngilizce olarak mevcut bir talimat veri kümesini alıp Swahili diline çevirmektir. Bu, hem Swahili dili hem de İngilizce konuşan çevirmenler tarafından yapılabilir ancak bu aynı zamanda zaman ve kaynak açısından da yoğun olabilir. Otomatik bir çevirmen kullanılabilir ancak bu genellikle yetersiz veya düşük kaliteli sonuçlara neden olur.
Başka bir çözüm, otomatik çeviriyi insan doğrulamayla birleştirerek LRL modellerinin doğru olmasını, yerel gelenekleri ve normları yansıtmasını ve bunları kullanacak topluluklar için yararlı olmasını sağlamak için kritik önem taşıyan uygun maliyetli ve ölçeklenebilir bir yaklaşım sunuyor. Bu yöntem, Swahili'den İngilizce'ye mevcut en iyi otomatik tercümanı kullanır ve ardından anadili Swahili olanlardan kalite standartlarını karşılamayan örnekleri filtrelemelerini ister.
Toloka yakın zamanda bir geliştirme projesi üstlendi; burada 15.000 orijinal veri kümesinden Swahili için 11.000 ince ayarlı veri kümesi oluşturuldu.
Veri seti daha sonra iyileştirmek için kullanıldı
Geliştiriciler ve kuruluşlar daha kapsayıcı bir yapay zeka ekosistemi yaratmaya çabaladıkça, değerlendirme de yüksek lisans eğitimlerine insan katılımı gibi daha da kritik hale geliyor. Cohere'in son lansmanı