Yapay zeka giderek daha akıllı hale geliyor arkadaşlar. Yapay zekanın yalnızca işleyebildiği günler geride kaldı
Bu cüretkar projeye bir site aracılığıyla rastladım.
Doğal olarak bu konuya derinlemesine dalmak zorunda hissettim kendimi.
Peki CoDi'yi bu kadar özel kılan ne? Öncelikle, bu yapay zeka santrali şu ana kadar gördüğümüz tüm üretken modellerden çok daha çok yönlüdür. Görüntüden görüntüye veya metinden metne gibi belirli yöntemlere bağlı değildir. Hayır, CoDi "herkesten herkese" bir model olduğu için özgür bir ruhtur.
Bu kötü çocuk, ona verdiğiniz her şeyi (dil, görüntü, video, ses) alıyor ve onu farklı bir moda dönüştürüyor.
Chapel Hill'deki Kuzey Carolina Üniversitesi ve Microsoft Azure Bilişsel Hizmetler Araştırması'ndaki araştırmacılar, CoDi'yi yalnızca birden fazla yöntemi aynı anda yönetmekle kalmayıp aynı zamanda orijinal eğitim verilerinde bile olmayan çıktılar üretecek şekilde geliştirdiler.
İşte biz buna ağırlığınızın üzerinde yumruk atmak diyoruz.
Daha da havalı olanı, tüm bunların, iç içe geçmiş modalitelerin senkronize oluşturulmasını mümkün kılan yeni bir şekillendirilebilir üretim stratejisiyle mümkün kılınmasıdır. Aslında sadece birbirine nasıl uyduğunu tahmin eden bir makine tarafından üretilen, mükemmel şekilde senkronize edilmiş sese sahip bir video hayal edin.
Bir tür yapay zeka remiks sanatçısı gibi.
CoDi, teknik detaylara susamış olanlar için çok aşamalı bir eğitim şeması kullanıyor; bu, her türlü girdi ve çıktı kombinasyonunu çıkarımlarken çeşitli görevler üzerinde eğitim alabileceği anlamına geliyor. Sanki çoklu görev yapma yeteneği varmış gibi.
Modelin faydası mimarisinde gösterilmektedir. Aşağıdaki bölüm, yaratıcıların modelin istedikleri şekilde çalışmasını sağlamak için kullandıkları temel yöntemlerin biraz teknik bir özetidir.
CoDi'nin temeli bir yayılma modeli, özellikle de Gizli Yayılma Modeli'dir (LDM). Üretken yapay zekanın bu biçimi, bilginin zaman içindeki yayılmasını taklit ederek veri dağıtımlarını öğrenir.
Eğitim sırasında, giriş verilerine sürekli olarak rastgele gürültü ekler, bu süreci tersine çevirmeyi ve verileri orijinal formuna geri döndürmeyi öğrenir. Yeni veriler üretirken, basit gürültüyü alır ve eğitim verilerine benzeyen bir şey üretmek için gürültüyü giderir.
LDM durumunda, verileri daha küçük bir "gizli" forma sıkıştırmak için bir otomatik kodlayıcı (girdisini yeniden oluşturabilen bir tür yapay zeka modeli) kullanılır ve bu daha sonra zaman içinde yayılır. Bu süreç, hesaplama maliyetini büyük ölçüde azaltır ve modelin verimliliğini artırır.
CoDi'nin benzersiz yönü, şekillendirilebilir çok modlu koşullandırmasında yatmaktadır. Bu bileşen, herhangi bir modalite kombinasyonunu (metin, resim, video ve ses) girdi olarak kabul etmesine olanak tanır.
Bu, tüm bu modalitelerden gelen girdilerin, temsillerinin enterpolasyonuyla uygun şekilde koşullandırılabilen aynı alana hizalanmasıyla elde edilir.
Verimli hesaplama işlemlerini sağlamak için "Köprü Hizalaması" adı verilen basit bir teknik kullanılır. Metin, "köprü kurma" yöntemi olarak seçilmiştir çünkü genellikle metin-görüntü, metin-video ve metin-ses çiftleri gibi diğer yöntemlerle eşleştirilmiş olarak bulunur.
Bu yöntem, görüntü-ses çiftleri gibi ikili modaliteler seyrek olduğunda bile, modelin dört modun tümünü özellik uzayında hizalamasına olanak tanır.
Herhangi bir girdiyi herhangi bir çıktıya dönüştürebilen bir modelin eğitilmesi, çeşitli veri kaynakları hakkında önemli düzeyde öğrenme gerektiren zorlu bir iştir.
Bununla başa çıkmak için CoDi, şekillendirilebilir ve bütünleştirici olacak şekilde tasarlanmıştır; bu, her modalite için ayrı modellerin bağımsız olarak oluşturulabileceği ve daha sonra sorunsuz bir şekilde entegre edilebileceği anlamına gelir.
Örneğin, bir görüntü yayma modeli, büyük ölçekli, yüksek kaliteli görüntü veri kümeleri üzerinde eğitilmiş yerleşik bir modelin bilgisini ve üretim doğruluğunu aktarmak için kullanılabilir.
Benzer şekilde, bir video yayılma modeli, videoların zamansal özelliklerini modellemek için görüntü difüzörünü zamansal modüllerle genişletebilir.
Ek olarak, ses dağıtıcısı şunları görüntüler:
Yapbozun son parçası, bağımsız olarak eğitilmiş bu modellerin aynı anda birden fazla modalite üreterek birlikte çalışmasına izin vermektir. Bu, modele modlar arası dikkat alt katmanlarının eklenmesiyle elde edilir.
Bu "Gizli Hizalama" tekniği, modaliteye özgü her modelin diğerlerine dikkat etmesini, gizli değişkenlerini hepsinin erişebileceği ortak bir alana yansıtmasını sağlar.
Bu tasarım, herhangi bir modalite kombinasyonunun kusursuz bir şekilde birleştirilmesine olanak tanır. Örneğin, yalnızca A ve B ile B ve C modalitelerinin ortak üretimi için eğitilmiş olsa bile CoDi, herhangi bir ek eğitime gerek kalmadan A ve C modalitelerinin ortak üretimine ulaşabilir!
Ayrıca A, B ve C modalitelerinin ortak oluşturulmasını aynı anda gerçekleştirebilir. Bu çok yönlülük, modelin farklı yöntemler arasında çapraz katılımı öğrenmesi nedeniyle mümkündür.
Temelde, bu yöntemler aracılığıyla CoDi, tüm sentez akışları için yüksek üretim kalitesini koruyarak herhangi bir girdi biçimini herhangi bir çıktı biçimine dönüştürmeyi verimli bir şekilde öğrenebilir. Sonuç olarak, çok modlu yapay zeka etkileşimleri için tamamen yeni bir olasılıklar alanının kapılarını açıyor.
Örneğin, CoDi'ye "Kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlük" metin girişini sağlayın ve sese eşlik eden bir video çıkışı sağlayabilir. Veya "Cyberpunk havası" ile metin ve görsel besleyin; verilen temaya uygun metin ve görsel üretebilir.
Örnek nesiller aşağıda gösterilmiştir -
CoDi'nin herkesten herkese neslinin etkileri çok büyüktür. Gittikçe dijitalleşen bir dünyada CoDi gibi bir araca sahip olmak, teknolojiyle daha çok yönlü, doğal ve insana benzer bir şekilde etkileşim kurabilmek anlamına geliyor. Sanal asistanlardan içerik oluşturmaya, erişilebilirlik araçlarından eğlenceye kadar her şeyi dönüştürebilir.
Ancak her zaman olduğu gibi, bunun sonuçları tamamen ütopik değil. Yapay zeka gerçekçi, çok modlu çıktılar üretmede daha iyi hale geldikçe, gerçek içeriği yapay zeka tarafından oluşturulan içerikten ayırma ihtiyacı her zamankinden daha önemli hale geliyor. Yanlış bilgiler daha ikna edici hale gelebilir ve deepfake daha yaygın hale gelebilir.
Ama geçit törenine yağmur yağdırmayalım. CoDi, yapay zeka teknolojisinde ileriye doğru atılmış önemli bir adımdır ve insan iletişiminin zengin dokusunu anlamak ve yeniden yaratmak için makinelerin eğitiminde ne kadar ilerlediğimizi gösterir.
CoDi'nin mekaniğini daha derinlemesine incelemek veya hatta kendiniz denemek istiyorsanız açık kaynak koda göz atabilirsiniz.
Sonuçta CoDi'yi gerçekten devrim niteliğinde yapan şey, farklı veri türlerini kusursuz bir şekilde harmanlama ve daha önce imkansız olduğu düşünülen bir şekilde çıktı üretme yeteneğidir. Bir simyacının kurşunu altına çevirmesini izlemek gibi bir şey bu.
Bu durum dışında, her türlü girdiyi her türlü çıktıya dönüştürmektir. İçinde yaşadığımız gerçekten olağanüstü bir yapay zeka çağı.