paint-brush
Bu Yapay Zeka Her Girdiyi Her Türlü Çıktıya Çevirebilir: İşte Bu Neden Önemli?ile@mikeyoung44
2,535 okumalar
2,535 okumalar

Bu Yapay Zeka Her Girdiyi Her Türlü Çıktıya Çevirebilir: İşte Bu Neden Önemli?

ile Mike Young6m2023/05/27
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

CoDi, karışık girdilerle başa çıkabilen, oyunun kurallarını değiştiren üretken bir modeldir. Metin, ses, video ve görüntüleri işleyebilir ve bunları herhangi bir başka çıkış kombinasyonuna dönüştürebilir. CoDi çok aşamalı bir eğitim şeması kullanıyor; bu da çeşitli görevler üzerinde eğitim alabileceği anlamına geliyor.
featured image - Bu Yapay Zeka Her Girdiyi Her Türlü Çıktıya Çevirebilir: İşte Bu Neden Önemli?
Mike Young HackerNoon profile picture
0-item

Yapay zeka giderek daha akıllı hale geliyor arkadaşlar. Yapay zekanın yalnızca işleyebildiği günler geride kaldı tek tür girdi ve tek tür çıktı tükürür . Bu çağ CoDi : Karışık bir girdi paketini (metin, ses, video, görselleri düşünün) işleyebilen ve bunları başka herhangi bir çıktı kombinasyonuna dönüştürebilen, oyunun kurallarını değiştiren üretken bir model.


Bu cüretkar projeye bir site aracılığıyla rastladım. cıvıldamak Merakı sınır tanımayan bir yapay zeka meraklısı Avi Schiffmann tarafından.


Doğal olarak bu konuya derinlemesine dalmak zorunda hissettim kendimi. kağıt bu heyecan verici buluşu detaylandırıyor. Bağlanın çünkü bu çılgın bir yolculuk.

Partiye hoş geldiniz CoDi

Peki CoDi'yi bu kadar özel kılan ne? Öncelikle, bu yapay zeka santrali şu ana kadar gördüğümüz tüm üretken modellerden çok daha çok yönlüdür. Görüntüden görüntüye veya metinden metne gibi belirli yöntemlere bağlı değildir. Hayır, CoDi "herkesten herkese" bir model olduğu için özgür bir ruhtur.


Bu kötü çocuk, ona verdiğiniz her şeyi (dil, görüntü, video, ses) alıyor ve onu farklı bir moda dönüştürüyor.


Chapel Hill'deki Kuzey Carolina Üniversitesi ve Microsoft Azure Bilişsel Hizmetler Araştırması'ndaki araştırmacılar, CoDi'yi yalnızca birden fazla yöntemi aynı anda yönetmekle kalmayıp aynı zamanda orijinal eğitim verilerinde bile olmayan çıktılar üretecek şekilde geliştirdiler.


İşte biz buna ağırlığınızın üzerinde yumruk atmak diyoruz.


Daha da havalı olanı, tüm bunların, iç içe geçmiş modalitelerin senkronize oluşturulmasını mümkün kılan yeni bir şekillendirilebilir üretim stratejisiyle mümkün kılınmasıdır. Aslında sadece birbirine nasıl uyduğunu tahmin eden bir makine tarafından üretilen, mükemmel şekilde senkronize edilmiş sese sahip bir video hayal edin.


Bir tür yapay zeka remiks sanatçısı gibi.

Peki Nasıl Çalışıyor?

CoDi, teknik detaylara susamış olanlar için çok aşamalı bir eğitim şeması kullanıyor; bu, her türlü girdi ve çıktı kombinasyonunu çıkarımlarken çeşitli görevler üzerinde eğitim alabileceği anlamına geliyor. Sanki çoklu görev yapma yeteneği varmış gibi.

Makaleden: "Şekillendirilebilir difüzyon, yalnızca doğrusal sayıda görev üzerinde eğitim yapabilmek, ancak tüm girdi ve çıktı yöntemleri kombinasyonları hakkında çıkarım yapabilmek için çok aşamalı bir eğitim şeması kullanır."


Modelin faydası mimarisinde gösterilmektedir. Aşağıdaki bölüm, yaratıcıların modelin istedikleri şekilde çalışmasını sağlamak için kullandıkları temel yöntemlerin biraz teknik bir özetidir.

Ön Bilgi: Gizli Yayılma Modeli

CoDi'nin temeli bir yayılma modeli, özellikle de Gizli Yayılma Modeli'dir (LDM). Üretken yapay zekanın bu biçimi, bilginin zaman içindeki yayılmasını taklit ederek veri dağıtımlarını öğrenir.


Eğitim sırasında, giriş verilerine sürekli olarak rastgele gürültü ekler, bu süreci tersine çevirmeyi ve verileri orijinal formuna geri döndürmeyi öğrenir. Yeni veriler üretirken, basit gürültüyü alır ve eğitim verilerine benzeyen bir şey üretmek için gürültüyü giderir.


LDM durumunda, verileri daha küçük bir "gizli" forma sıkıştırmak için bir otomatik kodlayıcı (girdisini yeniden oluşturabilen bir tür yapay zeka modeli) kullanılır ve bu daha sonra zaman içinde yayılır. Bu süreç, hesaplama maliyetini büyük ölçüde azaltır ve modelin verimliliğini artırır.

Şekillendirilebilir Multimodal Şartlandırma

CoDi'nin benzersiz yönü, şekillendirilebilir çok modlu koşullandırmasında yatmaktadır. Bu bileşen, herhangi bir modalite kombinasyonunu (metin, resim, video ve ses) girdi olarak kabul etmesine olanak tanır.


Bu, tüm bu modalitelerden gelen girdilerin, temsillerinin enterpolasyonuyla uygun şekilde koşullandırılabilen aynı alana hizalanmasıyla elde edilir.


Verimli hesaplama işlemlerini sağlamak için "Köprü Hizalaması" adı verilen basit bir teknik kullanılır. Metin, "köprü kurma" yöntemi olarak seçilmiştir çünkü genellikle metin-görüntü, metin-video ve metin-ses çiftleri gibi diğer yöntemlerle eşleştirilmiş olarak bulunur.


Bu yöntem, görüntü-ses çiftleri gibi ikili modaliteler seyrek olduğunda bile, modelin dört modun tümünü özellik uzayında hizalamasına olanak tanır.

Şekillendirilebilir Difüzyon

Herhangi bir girdiyi herhangi bir çıktıya dönüştürebilen bir modelin eğitilmesi, çeşitli veri kaynakları hakkında önemli düzeyde öğrenme gerektiren zorlu bir iştir.


Bununla başa çıkmak için CoDi, şekillendirilebilir ve bütünleştirici olacak şekilde tasarlanmıştır; bu, her modalite için ayrı modellerin bağımsız olarak oluşturulabileceği ve daha sonra sorunsuz bir şekilde entegre edilebileceği anlamına gelir.


Örneğin, bir görüntü yayma modeli, büyük ölçekli, yüksek kaliteli görüntü veri kümeleri üzerinde eğitilmiş yerleşik bir modelin bilgisini ve üretim doğruluğunu aktarmak için kullanılabilir.


Benzer şekilde, bir video yayılma modeli, videoların zamansal özelliklerini modellemek için görüntü difüzörünü zamansal modüllerle genişletebilir.


Ek olarak, ses dağıtıcısı şunları görüntüler: mel-spektrogramı Sesin tek kanallı bir görüntü olarak işlenmesi ve metin dağıtım modeli, diğer modeller gibi metin verilerini daha küçük bir gizli forma sıkıştırmak için değişken bir otomatik kodlayıcı kullanır.

Gizli Hizalamayla Ortak Multimodal Üretim

Yapbozun son parçası, bağımsız olarak eğitilmiş bu modellerin aynı anda birden fazla modalite üreterek birlikte çalışmasına izin vermektir. Bu, modele modlar arası dikkat alt katmanlarının eklenmesiyle elde edilir.


Bu "Gizli Hizalama" tekniği, modaliteye özgü her modelin diğerlerine dikkat etmesini, gizli değişkenlerini hepsinin erişebileceği ortak bir alana yansıtmasını sağlar.


Bu tasarım, herhangi bir modalite kombinasyonunun kusursuz bir şekilde birleştirilmesine olanak tanır. Örneğin, yalnızca A ve B ile B ve C modalitelerinin ortak üretimi için eğitilmiş olsa bile CoDi, herhangi bir ek eğitime gerek kalmadan A ve C modalitelerinin ortak üretimine ulaşabilir!


Ayrıca A, B ve C modalitelerinin ortak oluşturulmasını aynı anda gerçekleştirebilir. Bu çok yönlülük, modelin farklı yöntemler arasında çapraz katılımı öğrenmesi nedeniyle mümkündür.


Temelde, bu yöntemler aracılığıyla CoDi, tüm sentez akışları için yüksek üretim kalitesini koruyarak herhangi bir girdi biçimini herhangi bir çıktı biçimine dönüştürmeyi verimli bir şekilde öğrenebilir. Sonuç olarak, çok modlu yapay zeka etkileşimleri için tamamen yeni bir olasılıklar alanının kapılarını açıyor.

CoDi'nin nasıl çalıştığını gösteren gazeteden bir gif.


Örneğin, CoDi'ye "Kaykay üzerinde oyuncak ayı, 4k, yüksek çözünürlük" metin girişini sağlayın ve sese eşlik eden bir video çıkışı sağlayabilir. Veya "Cyberpunk havası" ile metin ve görsel besleyin; verilen temaya uygun metin ve görsel üretebilir.


Örnek nesiller aşağıda gösterilmiştir - kağıdı kontrol et etkileşimli örnekler için.

Bu bizim için ne anlama geliyor?

CoDi'nin herkesten herkese neslinin etkileri çok büyüktür. Gittikçe dijitalleşen bir dünyada CoDi gibi bir araca sahip olmak, teknolojiyle daha çok yönlü, doğal ve insana benzer bir şekilde etkileşim kurabilmek anlamına geliyor. Sanal asistanlardan içerik oluşturmaya, erişilebilirlik araçlarından eğlenceye kadar her şeyi dönüştürebilir.


Ancak her zaman olduğu gibi, bunun sonuçları tamamen ütopik değil. Yapay zeka gerçekçi, çok modlu çıktılar üretmede daha iyi hale geldikçe, gerçek içeriği yapay zeka tarafından oluşturulan içerikten ayırma ihtiyacı her zamankinden daha önemli hale geliyor. Yanlış bilgiler daha ikna edici hale gelebilir ve deepfake daha yaygın hale gelebilir.


Ama geçit törenine yağmur yağdırmayalım. CoDi, yapay zeka teknolojisinde ileriye doğru atılmış önemli bir adımdır ve insan iletişiminin zengin dokusunu anlamak ve yeniden yaratmak için makinelerin eğitiminde ne kadar ilerlediğimizi gösterir.


CoDi'nin mekaniğini daha derinlemesine incelemek veya hatta kendiniz denemek istiyorsanız açık kaynak koda göz atabilirsiniz. kod tabanı GitHub'da. CoDi'yi kullanarak ne tür çılgın dönüşümler yaratabileceğinizi kim bilebilir?


Sonuçta CoDi'yi gerçekten devrim niteliğinde yapan şey, farklı veri türlerini kusursuz bir şekilde harmanlama ve daha önce imkansız olduğu düşünülen bir şekilde çıktı üretme yeteneğidir. Bir simyacının kurşunu altına çevirmesini izlemek gibi bir şey bu.


Bu durum dışında, her türlü girdiyi her türlü çıktıya dönüştürmektir. İçinde yaşadığımız gerçekten olağanüstü bir yapay zeka çağı.