582 okumalar
582 okumalar

Verilerinize Sahip Değilsiniz, Ama AI Yapıyor - Ve İşte Sorun

ile Laszlo Fazekas8m2025/04/14
Read on Terminal Reader

Çok uzun; Okumak

Blockchain'in açık veriler, dağıtılmış depolama ve topluluk odaklı yönetim aracılığıyla AI'yi nasıl merkezlendirebilir ve demokratikleştirebileceğini keşfedin.
featured image - Verilerinize Sahip Değilsiniz, Ama AI Yapıyor - Ve İşte Sorun
Laszlo Fazekas HackerNoon profile picture

Sadece araçlarımız ve yazılımlarımızın daha akıllı hale geldiği değil, tamamen yeni bir şekilde yazılım geliştirmeye başladığımız anlamına geliyor.


Bu tabii ki anlaşılabilir, çünkü donanım veya yazılımda herhangi bir dramatik değişiklik olmadı. programlarımız hala dijital CPU ve GPU üzerinde çalışıyor ve hala Python gibi geleneksel programlama dillerinde yazılıyor.


Büyük dil modelleri gibi kaynak koduna bir göz atmaya değerGPT-2 HakkındaveGökçeya da metaÇığlıkBir laik için bile, bu kodun ne kadar kısa ve nispeten basit olduğu şaşırtıcıdır – bu, bu modellerin sahip olduğu geniş bilgi ve problem çözme zekasını göz önünde bulundurarak şaşırtıcıdır.


Şöyle

Bir yapay zeka sisteminde, çalıştırma kodu sadece sistemin sınırlı bir parçasıdır - gerçek bilgi ve zeka eğitim için kullanılan veri kümesinden gelir.

Şöyle

Bir yapay zeka sisteminde, çalıştırma kodu sadece sistemin sınırlı bir parçasıdır - gerçek bilgi ve zeka eğitim için kullanılan veri kümesinden gelir.Data is the new source code!


İşte bu yüzden bu yeni yazılımın adıYazılım 2.0Andrej Karpathy tarafından - ve bence çok uygun bir isim.

Açık Kaynak ≠ Open Source

Herkesin indirebileceği, çalıştırabileceği veya hatta değiştirebileceği birkaç açık kaynaklı model vardır. örneğin LLaMA, Grok ve son zamanlarda çok tartışılan Çinli model DeepSeek.


Bu modeller genellikle birkaç Python dosyası ve birkaç büyük ağırlık matrisinden oluşur (her biri boyutunda birkaç gigabyte). Bu modellerin daha da geliştirilebileceği doğru olsa da - ince ayarlanmış, kuantumleştirilmiş, destille edilmiş ve benzeri - hala klasik anlamda açık kaynak olarak kabul edilemezler.


Bunları denemek daha doğru olur.open-weight modelsAçık kaynak modelleri değil, çünkü gerçekten değerli bileşen – eğitim verileri – yayın şirketlerinin elinde kalır (Meta, xAI, vb.).


Şöyle

Gerçek açık kaynaklı AI, açık veriler üzerine kurulmuştur.

Şöyle

Gerçek açık kaynaklı AI, açık veriler üzerine kurulmuştur.


Verileri kim sahiplenir?

Büyük dil modelleri genellikle ilk olarak birVakfın ModeliBu temel model, insanlığın ürettiği veriler üzerine eğitilir ve web siteleri, kitaplar, YouTube videoları ve sosyal medya aracılığıyla halka açıkça kullanılabilir hale getirilir. bu veri zenginliği kolektif çalışmamızın bir sonucu olduğu için, bu veri setlerini herkese serbestçe erişilebilir, kamu alanı kaynakları olarak değerlendirmek mantıklı olurdu.


Bu nedenle, birçok hizmet açıkça AI model geliştiricilerinin içeriklerini kullanmalarını yasaklamaya karar verdi.


Kişisel olarak, bu yaklaşımla tamamen katılmıyorum, çünkü ilerlemeyi engellediğine inanıyorum.fair-use modelBu, kamuya açık verilerin AI eğitimi için kullanılmasını sağlar - elde edilen veritabanı ve modeli karşılığında serbestçe erişilebilir hale getirmesi şartıyla.


Şu anda böyle bir yasal çerçeve olmadığından ve AI şirketlerinin gerçekten açık kaynaklı modeller geliştirmelerine yönelik bir teşvik olmadığından, bu sorumluluk topluluğa aittir.

Bölünmüş depolama - açık veri setleri için ideal ev

Ancak, küresel bir topluluk tarafından oluşturulan açık bir veri kümesi aslında nasıl görünecek? Bu, dünyanın farklı bölgelerindeki insanlar arasında önemli ideolojik ve kültürel farklılıklar olduğu için küçük bir sorundur. Bu nedenle, herkesin kabul edeceği, halka açık küresel bilgiden tek bir veri kümesi oluşturmak imkansızdır.


Bu kriterleri göz önünde bulundurarak, en iyi seçim değişmez bir dağıtılmış depolama sistemi, örneğin:IPFSveyaEthereum SwarmBu çözümler, içerik adreslemeyi kullanır (verilerin adresi içeriğinden oluşturulan bir hash olduğunda), yetkisiz içerik değiştirilmesini neredeyse imkansız hale getirir. depolama, veri kullanılabilirliği kısıtlanamayan güvenli ve sensörlükten dayanıklı erişim sağlar.


Bu sistemler başka bir son derece yararlı özelliğe sahiptir: içerikleri bloklar halinde depolar. İçerik bir parçasının adresi hash'inden kaynaklandığından, eğer aynı blok birden fazla dosyada görünürse, sadece bir kez depolanması gerekir.Git repository, versiyonlama otomatik olduğu ve forking ucuz olduğu durumlarda bu, sadece hafifçe (örneğin,% 1'den daha az) farklı olan çok sayıda veri kümesini depolamak istediğimiz durumlarda idealdir. eğer birisi bir veri kümesinin içeriğiyle anlaşmazsa, tam bir kopya yapmak zorunda kalmadan yeni bir sürüm oluşturabilir - sadece değişiklikler depolanır.

Blockchain Açık Veritabanlarının Oluşumunu Nasıl Destekleyebilir

Blockchain ve dağıtılmış depolama birbirini iyi tamamlar. Bir yandan, dağıtılmış depolama, blockchain depolama ile karşılaştırılabilir bir güvenlik seviyesi ile büyük miktarda veri depolamayı mümkün kılar. Öte yandan, blockchain, dağıtılmış depolama için teşvik sistemi ve yönetim katmanı sağlayabilir. İyi bir örnek Ethereum Swarm, Blockchain olmadan çalışamaz, çünkü teşvik sistemi - ağın optimum çalışması için gerekli - blockchain üzerinde çalışan akıllı sözleşmeler aracılığıyla uygulanır.


Açık veritabanı durumunda, blockchain tabanlı DAO’lar, bir veritabanına ne dahil edileceğini belirleyebilir. Sistem, yöneticilerin sahte bilgilerin encyclopedia’a girmesine izin vermediği Wikipedia’ya benzer şekilde çalışabilir.


Bir veri kümesinin içeriğiyle anlaşmazlık yaşıyorsanız, kendi fork'larını oluşturabilir ve alternatif sürümünü yönetmek için yeni bir DAO başlatabilirler.

Decentralized Eğitimi

Eğer veri yeni kaynak kodu ise, o zaman Software 2.0 (seniş zekası) durumunda, eğitim programı oluşturmakla eşdeğerdir. Geleneksel yazılım geliştirmede, bu oluşturma, geliştiriciler tarafından kendi makinelerinde yerel olarak yapılır. AI sistemlerinde, ancak, eğitim son derece enerji ve hesaplama yoğun bir görevdir. Büyük bir dil modelinin eğitiminin milyonlarca dolar maliyeti olabilir ve büyük bilgisayar kümeleri gerektirir.


Bir seçenek, topluluğun merkezli eğitim için bir bulut sağlayıcısından para toplamak ve bilgisayar gücü kiralamaktır.Diğer bir seçenek, üyeleri bilgisayar kapasitesini ücretsiz olarak (toplumsal bir iyilik olarak) ya da karşılığında ödeme yaparken dağıtılmış eğitimdir.


Bununla birlikte, dağıtılmış eğitim, küçük bir görevden uzak. Bir zorluk, büyük modellerin tek bir düğümde eğitilmemesi - düğümler arasında yüksek miktarda iletişim gerektiren çok düğüm eğitimi gereklidir. Bu iletişim, eğitimin verimli olması için optimize edilmelidir. Neyse ki, birkaç başlangıç bu konuda çalışıyor.dış laboratuvarolarak adlandırılan bir protokol geliştirdi.Dilekçesi, internet bağlantılı bir düğüm ağı üzerinden eğitim sağlamak için tasarlanmıştır.


Diğer bir meydan okuma sorunu - tüm açık dağıtılmış sistemlere ortak (blockchain, dağıtılmış depolama vb.) -trustHerkes kendi cihazlarını sistemine özgürce katkıda bulunabildiği için, dürüst davranmalarının garantisi yoktur. örneğin, kötü niyetli bir aktör, DAO onaylı veritabanının yerine yetkisiz verileri kullanabilir ve böylece modeli “zehirleyebilir”.


Bu sistemlerde, güven bilgisayar garantileri ile değiştirilir. Güvenilmemiş bir düğüm ağında ne kadar daha fazla güvenlik istiyorsak, daha fazla bilgisayar gücü gereklidir. bunun iyi bir örneği, yeni bir blok yayınlayan her düğümün de bu blokya giden zincirdeki tüm hesaplamaları doğrulaması olan blockchain'dir.


Ancak bu yaklaşım AI eğitiminde işe yaramıyor, bu yüzden diğer çözümleri araştırmalıyız.

Konsensüs Temel Validasyon

Bir yaklaşım, her hesaplamayı çok sayıda (örneğin, üç) rastgele seçilmiş düğümler tarafından gerçekleştirmektir. Sonuçlar eşleşmezse, haksız düğüm parayı kaybeder.Bu yöntemin avantajı, nispeten yüksek güvenlik sağladığıdır. dezavantajı, gerekli hesaplama gücünü üç katına çıkarmasıdır.

Sıfır Bilgi Kanıtı

ZKP (Zero Knowledge Proof) teknolojisi ile, bir hesaplama yapıldığını kanıtlayabilir - ve kanıtın kendisi doğrulamak için ucuz olduğu bir şekilde yapabilirsiniz. Bu teknik zkRollups gibi sistemlerde kullanılır, zkSNARK bir Layer 2 zincirinde geçerli işlemlerin gerçekleştirildiğini kanıtlar. Dezavantajı, kanıt oluşturmanın bilgisayar açısından pahalı olmasıdır, özellikle de hesaplamada çoğaltma sayısı arttıkça. Bu, mevcut ZKP teknolojisi ile, bu şekilde AI modellerinin eğitiminin daha fazla hesaplama gücü gerektireceği anlamına gelir. Yine de, ZKPs aktif olarak araştırılan bir alandır ve gelecekte, dağıtılmış eğitim için yeterince verimli olabilir.

Optimist Decentralized Makine Öğrenimi

Optimistic decentralized machine learning, optimistic rollups ile benzer şekilde çalışır. Hesaplamalar yanlış olduğu düşünülür, eğer birisi farklı bir şey göstermek için bir dolandırıcılık kanıtı sunmazsa. Uygulamada, eğitim düğmesi işlemin her aşamasını kaydeder - başlangıç ağırlık matrisini, eğitim verilerini ve sonuçlanan ağırlık matrisini de içerir. eğer log ayrıca rastgele tohumları kaydederse, tüm hesaplama deterministik ve tekrarlanabilir hale gelir.


Validator düğmeleri daha sonra eğitim günlüğünün segmentlerini rastgele örnekleyebilir ve onaylayabilir. herhangi bir uyumsuzluk bulunursa, eğitim düğmesi payını kaybeder. Bu yöntem en düşük hesaplama maliyetine sahiptir: pahalı null bilgi kanıtı üretimine ihtiyaç duymaz ve konsensüs tabanlı doğrulama aksine, sadece rastgele seçilen hesaplama parçaları yeniden doğrulanmalıdır. bu üç yaklaşımdan en verimli hale getirir.


Son olarak, dağıtılmış eğitim, mevcut bilgisayar kaynaklarının keşfedilebileceği ve kullanılabileceği bir platform olan “node marketplace” gerektirir.Aleph Bulut, diğer bulut sağlayıcıları gibi, hesaplama kapasitesini sunar - ancak dağıtılmış düğümlerin bir ağı aracılığıyla ölçeklenebilir depolama, hesaplama ve veritabanı hizmetleri sağlamak için tasarlanmış bir merkezleştirilmiş bir platformdur. Hizmetleri ödemek için bir ERC20 tokenini kullanır, bu nedenle diğer blok zinciri tabanlı çözümlerle kolayca entegre edilebilir. Aleph düğümleri güvenilir yürütme ortamlarını kullanır, bu nedenle doğrulama bu durumda daha az önemlidir.

Decentralized Inference Hakkında

Büyük ölçekli modeller için, eğitim sadece yüksek hesaplama gereksinimleri nedeniyle zor değil, aynı zamanda modelin (inferans) çalıştırılması da zor bir durumdur.Bu özellikle düşünce modelleri için geçerlidir, sonuçlar yalnızca birden fazla devam eden ileri geçişten sonra ortaya çıkar - yani varsayım için gereken toplam hesaplama gücü, eğitimden çok daha fazla olabilir.


Bir nöral ağı çalıştırmak, eğitim sırasında olduğu gibi aynı şekilde çalışır (inference ileri aşamalarıdır, eğitim birçok ileri ve geri aşamayı içerirken), optimist merkezli makine öğrenimi de burada uygulanabilir.


Homomorphic Encryption ve Multiparty Computation (MPC) gibi teknolojiler özel verileri korumaya yardımcı olabilir. Aynı zamanda, donanım performansı eksponansla büyümeye devam ediyor ve 1.5 bit sinir ağları ve DeepSeek gibi destille edilmiş Mixture-of-Experts (MoE) modelleri gibi yeni teknikler, bu ağları yerel olarak çalıştırmayı giderek daha kolay hale getiriyor.


Uzun vadede, bu tür modellerin yerel olarak çalışabileceğine inanıyorum - ya da en azından özel olarak kiralanan güvenilir ortamlarda.

Sonuç

Şimdiye kadar, çoğu insan için, AI'nin devrimci değişiklikler getireceği açık. Dünyamızı hayal edemeyeceğimiz şekillerde yeniden şekillendirecek - ve bu, humanoid robotların etkisini bile söylemeden. Kesinlikle önemli olan, AI'nin gücüne kim sahip olacak. Birkaç büyük şirketin ellerinde merkezi kalacak mı, yoksa tüm insanlığa fayda sağlayacak ortak bir kamu malı olacak mı?


Bu, geleceğimiz için merkezi bir soru oluşturur: Gerçekten merkezleşmiş AI ortaya çıkacak mı?


Böyle bir sistemin inşa edilmesi sadece teknik yeniliklerden daha fazlasını gerektirir – açık veri kümeleri, dağıtılmış depolama, blok zinciri tabanlı yönetim ve toplulukların özgürce katkıda bulunmasına ve işbirliği yapmasına olanak sağlayan teşvik mekanizmaları gerektirir.


Başarılı olursak, sadece AI'yi demokratikleştirmeyeceğiz - yeni bir dijital ortaklığın temellerini koyacağız, zeka kendisi birlikte yaratılmış, şeffaf ve herkese açık olacak.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks