Yeni tarih

Verilerinize Sahip Değilsiniz, Ama AI Yapıyor - Ve İşte Sorun

ile Laszlo Fazekas8m2025/04/14
Read on Terminal Reader

Çok uzun; Okumak

Blockchain'in açık veriler, dağıtılmış depolama ve topluluk odaklı yönetim aracılığıyla AI'yi nasıl merkezlendirebilir ve demokratikleştirebileceğini keşfedin.
featured image - Verilerinize Sahip Değilsiniz, Ama AI Yapıyor - Ve İşte Sorun
Laszlo Fazekas HackerNoon profile picture

Aynı zamanda, sadece araçlarımızın ve yazılımlarımızın daha akıllı hale geldiği değil, tamamen yeni bir şekilde yazılım geliştirmeye başladığımızdır.


Bu tabii ki anlaşılabilir, çünkü donanım veya yazılımda herhangi bir dramatik değişiklik olmadı. programlarımız hala dijital CPU ve GPU üzerinde çalışıyor ve hala Python gibi geleneksel programlama dillerinde yazılıyor.


It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2GrokLLaMA


Bir yapay zeka sisteminde, çalıştırma kodu sadece sistemin sınırlı bir parçasıdır - gerçek bilgi ve zeka eğitim için kullanılan veritabanından gelir. Data yeni kaynak kodudur!

Bir yapay zeka sisteminde, çalıştırma kodu sadece sistemin sınırlı bir parçasıdır - gerçek bilgi ve zeka eğitim için kullanılan veri kümesinden gelir. Data yeni kaynak kodudur!

Data yeni kaynak kodudur!


Bu yazılımın bu yeni biçimi Andrej Karpathy tarafından Software 2.0 olarak adlandırılan tam da bu yüzden - ve bence bu çok uygun bir isimdir.

Yazılım 2.0

Açık kaynak ≠ Açık kaynak

Herkesin indirebileceği, çalıştırabileceği veya hatta değiştirebileceği birkaç açık kaynaklı model vardır. örneğin LLaMA, Grok ve son zamanlarda çok tartışılan Çinli model DeepSeek.


Bu modeller tipik olarak birkaç Python dosyası ve birkaç büyük ağırlık matrisinden oluşur (her biri boyutunda birkaç gigabyte). Bu modellerin daha da geliştirilebileceği doğru olsa da - ince ayarlanmış, kuantumlaştırılmış, destille edilmiş ve benzeri - hala klasik anlamda açık kaynak olarak kabul edilemez.


Bu açık ağırlık modelleri açık kaynak modelleri yerine olarak adlandırmak daha doğru olur, çünkü gerçekten değerli bileşen - eğitim verileri - yayın şirketlerinin ellerinde kalır (Meta, xAI, vb.).

açık ağırlık modelleri


Gerçek açık kaynaklı AI açık veri üzerine inşa edilmiştir.

Gerçek açık kaynaklı AI açık veri üzerine inşa edilmiştir.


Bilgi sahibi kimdir?

Büyük dil modelleri, tipik olarak ilk olarak belirli bir amaç için (örneğin, ChatGPT gibi sohbet) düzgün bir şekilde ayarlanan bir temel model oluşturarak oluşturulur.Bu temel model insanlığın ürettiği veriler üzerine eğitilir ve web siteleri, kitaplar, YouTube videoları ve sosyal medya aracılığıyla halka açıkça kullanılabilir hale getirilir.Bu veri zenginliği toplu çalışmamızın bir sonucu olduğu için, bu veri kümelerini herkese serbestçe erişilebilir, kamu alanı kaynakları olarak görmek mantıklı olur.

Bölüm Modeli


Bu nedenle, birçok hizmet açıkça AI model geliştiricilerinin içeriklerini kullanmalarını yasaklamaya karar verdi.


Kişisel olarak, bu yaklaşımla tamamen katılmıyorum, çünkü ilerlemeyi engelleyeceğine inanıyorum. Hayırlı kullanım modeli'ı, ortaya çıkan veri kümesinin ve modelin karşılığında serbestçe erişilebilir hale getirileceği koşuluyla kamuya sunulan verilerin AI eğitimi için kullanılmasını sağlar.

Doğru Kullanım Modeli


Şu anda böyle bir yasal çerçeve olmadığından ve AI şirketlerinin gerçekten açık kaynaklı modeller geliştirmelerine yönelik bir teşvik olmadığından, bu sorumluluk topluluğa aittir.

Decentralized depolama - açık veri setleri için ideal ev

Ama küresel bir topluluk tarafından oluşturulan açık bir veritabanı gerçekte nasıl görünecek? Bu, dünyanın farklı bölgelerindeki insanlar arasında önemli ideolojik ve kültürel farklılıklar olduğu için küçük bir soru değildir.Bu nedenle, herkesin kabul edeceği, halka açık küresel bilgiden tek bir veritabanı oluşturmak imkansızdır.Bunun ötesinde, böyle bir veritabanın kimsenin sahip olmadığı, erişimin kısıtlanamayacağı, verilerin geriye dönük olarak değiştirilemeyeceği ve kimsenin senkronize etme yetkisinin olmadığı çok önemlidir.


Bu kriterleri göz önünde bulundurarak, en iyi seçim IPFS veya Ethereum Swarm gibi değişmez bir merkezi depolama sistemidir. Bu çözümler içerik adreslemeyi kullanır (verilerin adresi içeriğinden oluşturulan bir hash olduğunda), yetkisiz içerik modifikasyonu neredeyse imkansız hale getirir. depolama, verilerin kullanılabilirliği kısıtlanamadığı yerlerde güvenli ve sensörlükten dayanıklı erişim sağlar.

İPSS ile ilgili yorumlarEtiket Arşivi: Ethereum Swarm


Bu sistemlerin başka bir son derece yararlı özelliği var: içeriği bloklar halinde depolamaktadırlar. İçeriğin bir parçasının adresi hash'inden kaynaklandığından, eğer aynı blok birden fazla dosyada görünürse, yalnızca bir kez depolanması gerekmektedir. Bu şekilde, IPFS ve Swarm hem bir Git depolamasının benzer şekilde çalışıyor, burada versiyonlama otomatik ve forking ucuz. Bu, sadece hafifçe (örneğin,% 1'den daha az) farklı olan birden fazla veri kümesi depolamak istediğimiz durumlarda idealdir. Eğer birisi bir veri kümesi içeriğiyle anlaşmazsa, tam bir kopya yapmak zorunda kalmadan yeni bir sürüm oluşturabilirler - sadece değişiklikler depolanır.Git depoları

Blockchain açık veri setlerinin oluşturulmasını nasıl destekleyebilir

Blockchain ve dağıtılmış depolama birbirini iyi tamamlar. Bir yandan, dağıtılmış depolama, blockchain depolama ile karşılaştırılabilir bir güvenlik seviyesi ile büyük miktarda veri depolamayı mümkün kılar. Öte yandan, blockchain, dağıtılmış depolama için teşvik sistemi ve yönetim katmanı sağlayabilir. İyi bir örnek Ethereum Swarm'dur, Blockchain olmadan çalışamaz, çünkü teşvik sistemi - ağın optimum çalışması için gerekli - blockchain üzerinde çalışan akıllı sözleşmeler aracılığıyla uygulanır.


Açık veritabanı durumunda, blockchain tabanlı DAO’lar bir veritabanına ne dahil edileceğini belirleyebilirler. Sistem, yöneticilerin sahte bilgilerin encyclopedia’a girmesine izin vermediği Wikipedia’ya benzer şekilde çalışabilir.


Bir veritabanının içeriğiyle birisi anlaşmazsa, kendi forkı oluşturabilir ve alternatif sürümü yönetmek için yeni bir DAO başlatabilir.

Descentralized Eğitimi

Eğer veriler yeni kaynak kodu ise, o zaman Software 2.0 (seniş zekası) durumunda, eğitim, programı kompile etmekle eşdeğerdir.Geleneksel yazılım geliştirmede, bu kompile, geliştiriciler tarafından kendi makinelerinde yerel olarak yapılır.Ama AI sistemlerinde, eğitim son derece enerji ve hesaplama yoğun bir görevdir.Büyük bir dil modelini eğitmek milyonlarca dolara mal olabilir ve büyük bilgisayar kümeleri gerektirir.


Bir seçenek, topluluğun merkezli eğitim için bir bulut sağlayıcısından para toplamak ve bilgisayar gücü kiralamaktır. başka bir seçenek, üyeleri bilgisayar gücüne ücretsiz olarak (toplumsal bir iyilik olarak) veya karşılığında bağış yaptırmak üzere dağıtılmış eğitimdir.


However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.

Exo LabsDiLoCo


Diğer bir zorluk - tüm açık dağıtılmış sistemlere (blockchain, dağıtılmış depolama, vb.) ortak - güven sorunudır. Herkes kendi cihazlarını sistemine özgürce katkıda bulunabildiği için, dürüst davranmaları garanti edilmez. bir kötü niyetli aktör, örneğin, DAO onaylı veritabanının yerine yetkisiz verileri kullanabilir, böylece modeli "zehirler".

> Güçlü > Güçlü


Bu sistemlerde, güven bilgisayar garantileri ile değiştirilir. Güvenilmemiş bir düğüm ağında ne kadar fazla güvenlik istiyorsak, daha fazla bilgisayar gücü gereklidir. bunun iyi bir örneği, yeni bir bloğu yayınlayan her düğüm de yeni bir bloğa yol açan zincirdeki tüm hesaplamaları doğrular.


Ama bu yaklaşım AI eğitiminde işe yaramıyor, bu yüzden diğer çözümleri araştırmalıyız.

Consensus tabanlı doğrulama

Bir yaklaşım, her hesaplamayı çok sayıda (örneğin, üç) rastgele seçilmiş düğümler tarafından gerçekleştirmektir. Sonuçlar eşleşmezse, haksız düğüm parayı kaybeder.Bu yöntemin avantajı, nispeten yüksek güvenlik sağladığıdır. dezavantajı, gerekli hesaplama gücünü üç katına çıkarmasıdır.

Zero Bilgi Kanıtı

Zero-knowledge proof (ZKP) teknolojisi ile, bir hesaplama yapıldığını kanıtlayabiliriz - ve bunu, kanıtın kendisi doğrulamak için ucuz olduğu bir şekilde yapabiliriz. Bu teknik zkRollups gibi sistemlerde kullanılır, zkSNARK bir Layer 2 zincirinde geçerli işlemlerin gerçekleştirildiğini kanıtlar. Dezavantajı, kanıt oluşturmanın bilgisayar açısından pahalı olmasıdır, özellikle de bilgisayarlarda çoğaltma sayısı arttıkça. Bu, mevcut ZKP teknolojisiyle, bu şekilde AI modellerinin eğitiminin daha fazla hesaplama gücü gerektireceği anlamına gelir.

Optimistic Decentralized Machine Learning

Makine Öğrenimi

Optimistic decentralized machine learning, optimistic rollups ile benzer şekilde çalışır. Hesaplamalar yanlış olduğu düşünülür, eğer birisi başka bir şey göstermek için bir dolandırıcılık kanıtı sunmaz. Uygulamada, eğitim düğmesi, işlemin her adımını kaydeder - başlangıç ağırlık matrisini, eğitim verilerini ve sonuçlanan ağırlık matrisini de içerir. eğer log ayrıca rastgele tohumları kaydederse, tüm hesaplama deterministik ve tekrarlanabilir hale gelir.


Validator düğmeleri daha sonra eğitim günlüğünün segmentlerini rastgele örnekleyebilir ve onaylayabilir. herhangi bir uyumsuzluk bulunursa, eğitim düğmesi payını kaybeder. Bu yöntem en düşük hesaplama maliyetine sahiptir: pahalı null bilgi kanıtı üretimine ihtiyaç duymaz ve konsensüs tabanlı doğrulama aksine, sadece rastgele seçilen hesaplama bölümleri yeniden doğrulama gerektirir.


Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.

Aleph Cloud

Descentralized Inference

Bölümleri

Büyük ölçekli modeller için, eğitim sadece yüksek hesaplama gereksinimleri nedeniyle anlamsız değildir, aynı zamanda modelin çalıştırılması (inference) de zor bir durumdur.Bu özellikle düşünce modelleri için geçerlidir, sonuçlar yalnızca birden fazla ardışık ileri geçişten sonra ortaya çıkar - yani varsayım için gereken toplam hesaplama gücü, eğitimden çok daha fazla olabilir.


Nöral bir ağ çalışması eğitim sırasında olduğu gibi aynı şekilde çalıştığından (inference ileri aşamalarıdır, eğitim birçok ileri ve geri aşamayı içerirken), optimist merkezli makine öğrenimi de burada uygulanabilir.


Bu bağlamda ana zorluk gizliliktir.Homomorphic Encryption ve Multiparty Computation (MPC) gibi teknolojiler gizli verileri korumaya yardımcı olabilir.Aynı zamanda, donanım performansı eksponansla büyümeye devam ediyor ve 1.5 bit sinir ağları ve DeepSeek gibi destille edilmiş Mixture-of-Experts (MoE) modelleri gibi yeni teknikler, bu ağların yerel olarak çalıştırılmasını giderek daha kolaylaştırıyor.


Ben uzun vadede bu tür modellerin yerel olarak çalışabileceğine inanıyorum - ya da en azından özel olarak kiralanan güvenilir ortamlarda.

Sonuç

Şu anda, çoğu insan için, AI'nin devrimci değişiklikler getireceğini açıkça görüyoruz. Dünyamızı hayal edemeyeceğimiz şekillerde yeniden şekillendirecek - ve bu, humanoid robotların etkisini bile söylemeden. kesinlikle önemli olan, AI'nin gücüne kim sahiptir. birkaç büyük şirketin ellerinde merkezi kalacak mı, yoksa tüm insanlığa fayda sağlayacak ortak bir kamu malı olacak mı?


Bu, geleceğimiz için merkezi bir soru yapar: Gerçekten dağıtılmış AI ortaya çıkacak mı?


Bu tür bir sistemin inşa edilmesi sadece teknik yeniliklerden daha fazlasını gerektirir - açık veri kümeleri, dağıtılmış depolama, blok zinciri tabanlı yönetim ve toplulukların özgürce katkıda bulunmasına ve işbirliği yapmasına izin veren teşvik mekanizmaları gerektirir.


Başarılı olursak, sadece AI'yi demokratikleştirmeyeceğiz - yeni bir dijital ortaklığın temelini koyacağız, zeka kendisi birlikte yaratılır, şeffaf ve herkese açık.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks