Tamam, ChatGPT'nin yayınlanmasının üzerinden bir yıldan fazla zaman geçti. Bu dönüm noktasından önce, araştırma topluluğu ve endüstri liderleri, bir dizi istikrarlı yayılma bulgusu ve uygulamasıyla, özellikle bilgisayarlı görme alanında üretken yapay zeka üzerinde zaten aktif olarak çalışıyorlardı. Kısaca özetlemek gerekirse, 2022 yılı istikrarlı yayılma yılı, 2023 yılı ise büyük dil modellerinin (LLM) yılı olarak değerlendirilebilir.
2023'ün başlangıcı, ChatGPT'nin yaygın benimsenme ve inovasyon konusunda lider olduğu LLM'lerin hakimiyetine işaret ediyordu. Bu yıl Yüksek Lisans'ın çeşitli sektörlerde yaygınlaştığını ve teorik araştırma ile pratik endüstri uygulamaları arasındaki boşluğu etkili bir şekilde kapattığını gördük. 2023'te Yüksek Lisans ortamını şekillendiren önemli kilometre taşlarını ve trendleri inceleyelim, aynı zamanda bunların teknolojiyle etkileşimimizde nasıl devrim yarattığına dair fikir sahibi olalım.
Açık Kaynak LLM Yılı
2023 yılında açık kaynaklı büyük dil modelleri (LLM) açısından dikkate değer bir yıla tanık olduk. En önemli sürüm, Meta'nın LLaMa serisiydi ve her ay, her hafta ve bazen her gün yeni modellerin ortaya çıkmasıyla daha sonra sık sık yayınlanacak olanlara bir örnek oluşturdu. Meta, EleutherAI, MosaicML, TIIUAE ve StabilityAI gibi önemli oyuncular, yapay zeka topluluğunun farklı ihtiyaçlarını karşılayan, halka açık veri kümeleri üzerinde eğitilmiş çeşitli modelleri tanıttı. Bu modellerin çoğunluğu, ChatGPT tarafından oluşturulan trendi sürdüren yalnızca kod çözücü Transformatörleriydi. İşte bu yıl piyasaya sürülen en dikkat çekici modellerden bazıları:
Meta'dan LLaMa: LLaMa ailesinde çeşitli boyutlarda modeller bulunur; en büyük model 65 milyar parametreye sahiptir ve 1,4 trilyon token ile eğitilmiştir. Özellikle daha küçük modeller, özellikle de 1 trilyon token üzerinde eğitilen 13 milyar parametreli model, daha fazla veri üzerinde uzun eğitim sürelerinden yararlanarak üstün performans gösterdi, hatta bazı kıyaslamalarda daha büyük modelleri geride bıraktı. 13B LLaMa modeli, çoğu kıyaslamada GPT-3'ü geride bıraktı ve en büyük model, piyasaya sürülmesiyle birlikte yeni, son teknoloji performans ölçütleri belirledi.Eleuther AI'dan Pythia: Pythia, açık olarak erişilebilen ve şeffaf bir şekilde eğitilen LLM'ler üzerinde kontrollü bilimsel araştırmaları kolaylaştırmak için tasarlanmış, 154 kısmen eğitilmiş kontrol noktasına sahip 16 modelden oluşan bir paketten oluşur. Bu seri, yüksek lisans eğitimine yönelik ayrıntılı makaleler ve kapsamlı bir kod tabanı sağlayarak araştırmacılara büyük ölçüde yardımcı olmaktadır.MosaicML'den MPT VeTIIUAE'nin Falcon serisi: Her ikisi de 1T'den 1,5T'ye kadar çeşitli veri kaynakları üzerinde eğitildi ve 7B ve 30B parametrelerine sahip versiyonlar üretti. Özellikle yılın ilerleyen aylarında TIIUAE, bugüne kadarki en büyük açık kaynaklı model olan 180B modelini piyasaya sürdü.Mistral ,Phi VeOrka : Bu modeller, sınırlı donanım ve bütçe kısıtlamalarına uygun daha küçük ve daha verimli modellerin eğitilmesine odaklanarak 2023'teki başka bir trendi vurguluyor ve yapay zeka modeli geliştirmede erişilebilirlik ve pratikliğe yönelik önemli bir değişime işaret ediyor.
Küçük ve Verimli Model
2023 yılında çok sayıda küçük ve verimli modelin de piyasaya çıktığına tanık olduk. Bu eğilimin temel nedeni, çoğu araştırma grubu için büyük modellerin eğitiminin fahiş derecede yüksek maliyetidir. Ek olarak, büyük modeller, pahalı eğitim ve dağıtım maliyetlerinin yanı sıra önemli bellek ve hesaplama gücü gereksinimleri nedeniyle çoğu zaman gerçek dünya uygulamaları için uygun değildir. Bu nedenle küçük ve verimli modeller yılın ana trendlerinden biri olarak ortaya çıktı. Daha önce de belirtildiği gibi Mistral ve Orca serileri bu trendin kilit oyuncuları oldu. Mistral, çoğu kıyaslamada daha büyük benzerlerinden daha iyi performans gösteren bir 7B modeliyle topluluğu şaşırttı; Phi serisi ise yalnızca 1,3B ila 2,7B parametreleriyle daha da küçük olmasına rağmen etkileyici bir performans sunuyor.
Bir diğer yenilikçi yaklaşım ise
Küçük ve verimli modellerin başarısı büyük ölçüde veri kalitesine ve hızlı dikkat hilelerine bağlıdır. Mistral, eğitim verilerinin ayrıntılarını açıklamamış olsa da, çeşitli araştırmalar ve modeller, etkili modellerin eğitimi için veri kalitesinin çok önemli olduğunu göstermiştir. Bu yılın en dikkat çekici bulgularından biri
Düşük Dereceli Uyarlama Ayarı
Tamam, konuşalım
LoRA temel olarak önceden eğitilmiş model ağırlıklarının dondurulması ve eğitilebilir katmanların ( sıralama ayrıştırma matrisleri ) enjekte edilmesidir. Bu matrisler kompakttır ancak modelin davranışına gerekli uyarlamaları yaklaşık olarak tahmin etme yeteneğine sahiptir ve orijinal modelin bilgisinin bütünlüğünü korurken verimli ince ayar yapılmasına olanak tanır. LoRA'nın en sık kullanılan varyantlarından biri
Uzmanların Karışımı
Geçen yıl piyasaya sürülen en dikkat çekici MEB modellerinden biri
Dilden Genel Temel Modellerine
LLM'ler genel temel modellere dönüşüyor ve yeteneklerini dil işlemenin ötesine taşıyor. Bu geçiş, yalnızca metni değil aynı zamanda kodu, görsel içeriği, sesi ve daha fazlasını anlayıp üretebilen modellere doğru bir geçişi ifade ediyor. Geçtiğimiz yıl şu modellerin tanıtımını görmüştük:
Araçla Donatılmış Aracılar
Yüksek Lisans'ın çeşitli araç ve platformlarla entegrasyonu, yapay zekayı günlük kullanım için daha erişilebilir ve pratik hale getiriyor. Bu araçlarla donatılmış temsilciler, kodlama yardımından yaratıcı yazarlığa kadar belirli görevler için özel olarak tasarlanıyor ve bu da yapay zekayı birçok profesyonel iş akışının vazgeçilmez bir parçası haline getiriyor. Bu gelişme, Yüksek Lisans'ın muhakeme ve eylem yetenekleri sayesinde mümkün olmuştur. Bu tür özelliklere genellikle işlev çağrısı adı verilir.
OpenAI Hala Endüstri Ortamına Hakim Oluyor
OpenAI, araştırma ve uygulama açısından liderliğini koruyarak endüstri ortamına hakim olmaya devam ediyor. GPT-4 ve yeni
Çözüm
2023 yılı, büyük dil modelleri (LLM'ler) alanında önemli bir büyüme ve yenilik dönemi oldu. Yapay zekanın açık kaynaklı modeller aracılığıyla demokratikleştirilmesinden, daha verimli ve uzmanlaşmış sistemlerin geliştirilmesine kadar, bu ilerlemeler yalnızca teknik başarılar değil, aynı zamanda yapay zekayı çeşitli alanlarda daha erişilebilir ve uygulanabilir hale getirmeye yönelik adımlardır. İleriye baktığımızda, bu teknolojilerin endüstrileri dönüştürme ve insan yeteneklerini geliştirme potansiyeli heyecan verici bir olasılık olmaya devam ediyor. 2024'te, Meta'nın LLaMA-3'ü eğitme planlarını duyurması ve açık kaynak sağlama planıyla birlikte daha da dikkate değer kilometre taşları bekliyoruz. Sektörde, Google gibi devlerin veya Anthropic gibi yeni kurulan şirketlerin OpenAI'yi geçip geçemeyeceğini görmeye de büyük ilgi var.
Daha fazla makale için kişisel blogumu ziyaret edin ve abone olun.