582 skaitymai
582 skaitymai

Jūs neturite savo duomenų, bet AI tai daro - ir tai yra problema

pateikė Laszlo Fazekas8m2025/04/14
Read on Terminal Reader

Per ilgai; Skaityti

Sužinokite, kaip blockchain gali padėti decentralizuoti ir demokratizuoti AI per atvirus duomenis, decentralizuotą saugojimą ir bendruomenės valdymą.
featured image - Jūs neturite savo duomenų, bet AI tai daro - ir tai yra problema
Laszlo Fazekas HackerNoon profile picture

Mažai žmonių tikrai supranta revoliucinį pokytį prieš jų akis, kai kalbama apie AI. Ne tik tai, kad mūsų įrankiai ir programinė įranga tapo protingesni, bet ir tai, kad mes pradėjome kurti programinę įrangą visiškai nauju būdu.


Tai suprantama, žinoma, nes nėra jokių dramatiškų aparatūros ar programinės įrangos pokyčių.Mūsų programos vis dar veikia skaitmeniniuose procesoriuose ir GPU, ir jos vis dar parašytos tradicinėmis programavimo kalbomis, tokiomis kaip Python.


Verta pažvelgti į didelių kalbų modelių šaltinį, pvz.,ŽPV-2,Grožinė„Meta“šauksmąNetgi pasauliečiui vienas įspūdingas dalykas yra tai, kaip trumpas ir santykinai paprastas yra šis kodas – tai stebina, atsižvelgiant į didžiules žinias ir problemų sprendimo intelektą, kurį turi šie modeliai.


Šaltinis

Dirbtinio intelekto sistemoje paleidimo kodas yra tik ribinė sistemos dalis – realios žinios ir žvalgyba gaunamos iš mokymui naudojamo duomenų rinkinio.

Šaltinis

Dirbtinio intelekto sistemoje paleidimo kodas yra tik ribinė sistemos dalis – realios žinios ir žvalgyba gaunamos iš mokymui naudojamo duomenų rinkinio.Data is the new source code!


Būtent todėl ši nauja programinės įrangos forma buvo vadinamaPrograminė įranga 2.0Andrej Karpathy – ir manau, kad tai labai tinkamas vardas.

Atviras kodas ≠ atviro kodo

Yra keletas laisvai prieinamų atviro kodo modelių, kuriuos kiekvienas gali atsisiųsti, paleisti ar net modifikuoti.Pavyzdžiai yra LLaMA, Grok ir neseniai plačiai diskutuojamas kinų modelis DeepSeek.


Šie modeliai paprastai susideda iš kelių „Python“ failų ir kelių didžiulių matricų (kiekvienas kelių gigabaitų dydžio). Nors tiesa, kad šie modeliai gali būti toliau plėtojami - smulkiai sureguliuoti, kiekybiškai išdėstyti, distiliuoti ir pan. - jie vis dar negali būti laikomi atviro kodo klasikinėje prasme.


Tiksliau būtų juos vadintiopen-weight modelsvietoj atviro kodo modelių, nes tikrai vertingas komponentas – mokymo duomenys – lieka leidyklų (Meta, xAI ir kt.) rankose.


Šaltinis

Tikrasis atviro kodo AI yra pastatytas ant atvirų duomenų.

Šaltinis

Tikrasis atviro kodo AI yra pastatytas ant atvirų duomenų.


Kas yra duomenų savininkas?

Dideli kalbos modeliai paprastai sukuriami pirmiausia sukuriantFondų modelisŠis pamatinis modelis yra apmokytas remiantis žmonijos sukurtais duomenimis ir padarytas viešai prieinamu – per svetaines, knygas, „YouTube“ vaizdo įrašus ir socialinę žiniasklaidą. kadangi šis duomenų turtas yra mūsų kolektyvinio darbo rezultatas, būtų logiška šiuos duomenų rinkinius traktuoti kaip viešojo domeno išteklius, laisvai prieinamus visiems.


Dėl šios priežasties daugelis paslaugų aiškiai nusprendė uždrausti AI modelio kūrėjams naudoti savo turinį.


Asmeniškai aš visiškai nesutinku su šiuo požiūriu, nes manau, kad tai trukdo pažangai.fair-use modelkad viešai prieinami duomenys galėtų būti naudojami AI mokymui – su sąlyga, kad gautas duomenų rinkinys ir modelis turi būti laisvai prieinami mainais.


Kadangi šiuo metu nėra tokios teisinės sistemos ir nėra paskatų AI įmonėms kurti tikrai atviro kodo modelius, ši atsakomybė tenka bendruomenei.

Decentralizuota saugykla – ideali vieta atvirų duomenų rinkiniams

Bet kaip atviras duomenų rinkinys, kurį sukūrė pasaulinė bendruomenė, iš tikrųjų atrodytų?Tai toli gražu nėra trivialus klausimas, nes yra reikšmingų ideologinių ir kultūrinių skirtumų tarp žmonių skirtinguose pasaulio regionuose.Dėl šios priežasties neįmanoma sukurti vieno duomenų rinkinio iš viešai prieinamų pasaulinių žinių, dėl kurių visi sutiktų.Be to, labai svarbu, kad toks duomenų rinkinys nebūtų niekam priklausantis, kad prieiga negali būti ribojama, kad duomenys negali būti modifikuojami atgaline data ir kad niekas neturi galios jį cenzūruoti.


Atsižvelgiant į šiuos kriterijus, geriausias pasirinkimas yra nekintama decentralizuota saugojimo sistema, pvz.,IPFSarbaEthereum SwarmŠie sprendimai naudoja turinio adresavimą (kai duomenų adresas yra iš jo turinio sukurtas hash), todėl neleistinas turinio modifikavimas praktiškai neįmanomas.


Šios sistemos turi dar vieną labai naudingą funkciją: jie saugo turinį blokuose. kadangi turinio gabalo adresas yra gautas iš jo hash, jei tas pats blokas pasirodo keliuose failuose, jis turi būti saugomas tik vieną kartą.Git repository, kur versija yra automatiška, o forkimas yra pigus. Tai idealiai tinka tais atvejais, kai norime saugoti kelis duomenų rinkinius, kurie skiriasi tik šiek tiek (pavyzdžiui, mažiau nei 1%). Jei kas nors nesutinka su duomenų rinkinio turiniu, jie gali sukurti naują versiją, nereikalaudami padaryti visos kopijos - tik pakeitimai yra saugomi.

Kaip blockchain gali remti atvirų duomenų rinkinių kūrimą

Blockchain ir decentralizuotas saugojimas gerai papildo vienas kitą. Viena vertus, decentralizuotas saugojimas leidžia saugoti didelius duomenų kiekius, kurių saugumo lygis yra panašus į blockchain saugojimą. Kita vertus, blockchain gali suteikti paskatų sistemą ir valdymo sluoksnį decentralizuotam saugojimui. Geras pavyzdys yra Ethereum Swarm, kuris negalėjo veikti be blockchain, nes jo paskatų sistema - būtina tinklo optimaliam veikimui - įgyvendinama per protingas sutartis, veikiančias blockchain.


Atvirų duomenų rinkinių atveju „blockchain“ pagrindu veikiantys DAO galėtų nuspręsti, kas įtraukiama į duomenų rinkinį. Sistema galėtų veikti panašiai kaip „Wikipedia“, kur administratoriai užtikrina, kad klaidinga informacija nepatektų į enciklopediją.


Jei kas nors nesutinka su duomenų rinkinio turiniu, jie gali sukurti savo virvę ir paleisti naują DAO, kad galėtų valdyti alternatyvią versiją.

Decentralizuotas mokymas

Jei duomenys yra naujas šaltinio kodas, tada programinės įrangos 2.0 (dirbtinio intelekto) atveju mokymas yra lygiavertis programos sudarymui.Tradicinėje programinės įrangos kūrimo srityje šį kompiliavimą kūrėjai atlieka vietoje savo mašinose.Tačiau AI sistemose mokymas yra labai energijos ir skaičiavimo intensyvi užduotis.Didelio kalbos modelio mokymas gali kainuoti milijonus dolerių ir reikalauja didžiulių kompiuterių grupių - didžiulis iššūkis bendruomenės varomiems modeliams.


Viena iš galimybių yra bendruomenei surinkti lėšų ir išsinuomoti kompiuterinę galią iš debesies tiekėjo centralizuotam mokymui.Kita galimybė yra decentralizuotas mokymas, kuriame nariai dovanoja kompiuterinius pajėgumus arba nemokamai (kaip viešąją gėrybę) arba mainais už kompensaciją.


Tačiau decentralizuotas mokymas yra toli gražu ne triviali užduotis. Vienas iš iššūkių yra tas, kad dideli modeliai negali būti mokomi viename mazge – reikalingas kelių mazgų mokymas, kuris reikalauja didelės apimties ryšio tarp mazgų. Ši komunikacija turi būti optimizuota, kad mokymas būtų efektyvus. Laimei, kelios pradedančios įmonės dirba šiuo klausimu.Egzotinės laboratorijos, kuri sukūrė protokolą, vadinamąDalis, skirtas mokymui per interneto prijungto mazgų tinklą.


Kitas iššūkis – bendras visoms atviroms decentralizuotoms sistemoms (blockchains, decentralizuotas saugojimas ir kt.) – yra klausimas, kaiptrustKadangi kiekvienas gali laisvai prisidėti prie savo įrenginių sistemos, nėra jokios garantijos, kad jie veiks sąžiningai. piktybinis veikėjas, pavyzdžiui, gali naudoti neleistinus duomenis vietoj DAO patvirtinto duomenų rinkinio, taip „užteršdamas“ modelį.


Šiose sistemose pasitikėjimas pakeičiamas skaičiavimo garantijomis. Kuo daugiau saugumo norime nepatikimo mazgų tinkle, tuo daugiau skaičiavimo galios reikia. Geras pavyzdys yra blokų grandinė, kur kiekvienas mazgas, skelbiantis naują bloką, taip pat patvirtina visus skaičiavimus grandinėje, vedančioje į jį.


Tačiau šis metodas neveikia AI mokymui, todėl turime ištirti kitus sprendimus.

Konsensuso pagrindu pagrįstas patvirtinimas

Vienas metodas yra, kad kiekvieną skaičiavimą atliktų keli (pvz., Trys) atsitiktinai atrinkti mazgai. Jei rezultatai neatitinka, nesąžiningas mazgas praranda savo įdėtą indėlį.

Nulinės žinios įrodymas

Naudodamiesi nulinės žinios įrodymo (ZKP) technologija, galima įrodyti, kad skaičiavimas buvo atliktas – ir tai padaryti taip, kad pats įrodymas yra pigus patikrinti. Ši technika naudojama tokiose sistemose kaip zkRollups, kur zkSNARK įrodo, kad galiojantys sandoriai buvo vykdomi 2 sluoksnio grandinėje. Trūkumas yra tas, kad įrodymų generavimas yra kompiuteriniu požiūriu brangus, ypač kai skaičiuojant padaugėja dauginimų. Tai reiškia, kad su dabartine ZKP technologija, mokant AI modelius tokiu būdu reikėtų drastiškai daugiau skaičiavimo galios.

Decentralizuotas mašininis mokymasis

Optimistinis decentralizuotas mašininis mokymasis veikia panašiai kaip optimistinis rollups. Skaičiavimas laikomas teisingu, nebent kas nors pateikia sukčiavimo įrodymą, kad parodytų kitaip. Praktiškai mokymo mazgas registruoja kiekvieną proceso žingsnį – įskaitant pradinę svorio matriksą, mokymo duomenis ir gautą svorio matriksą.


Validatoriaus mazgai tada gali atsitiktinai imti mokymo žurnalo segmentus ir juos patikrinti. Jei nustatomi bet kokie neatitikimai, mokymo mazgas praranda savo vaidmenį. Šis metodas turi mažiausią skaičiavimo kainą: jam nereikia brangių nulinių žinių įrodymų generavimo ir, skirtingai nuo konsensuso pagrįsto patvirtinimo, tik atsitiktinai atrinktos skaičiavimo dalys turi būti pakartotinai patikrintos.


Galiausiai, decentralizuotam mokymui reikia „nodo rinkos“ – platformos, kurioje galima atrasti ir panaudoti turimus skaičiavimo išteklius.Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.

Decentralizuota įžvalga

Didelio masto modeliams mokymas yra ne tik nereikšmingas dėl didelių skaičiavimo reikalavimų, bet ir sudėtingas.Tai ypač pasakytina apie mąstymo modelius, kuriuose rezultatai atsiranda tik po kelių iš eilės einančių pirmyn - tai reiškia, kad bendra skaičiavimo galia, reikalinga išvadai, gali gerokai viršyti mokymo galią.


Kadangi nervų tinklo veikimas veikia taip pat, kaip ir mokymo metu (inferencija yra į priekį, o mokymas apima daugelį į priekį ir atgal etapų), optimistinis decentralizuotas mašininis mokymasis taip pat gali būti taikomas čia.


Pagrindinis iššūkis šiame kontekste yra privatumas. Technologijos, tokios kaip homomorfinis šifravimas ir daugiašalis skaičiavimas (MPC), gali padėti apsaugoti privačius duomenis.Tuo pačiu metu aparatūros našumas ir toliau eksponentiškai auga, o nauji metodai, tokie kaip 1,5 bitų neuroniniai tinklai ir distiliuoti eksperto mišinio (MoE) modeliai, tokie kaip DeepSeek, vis labiau leidžia šiuos tinklus paleisti vietoje.


Tikiu, kad ilgainiui tokius modelius galėsime paleisti vietoje arba bent jau privačiai nuomojamose patikimose aplinkose.

Išvada

Iki šiol daugumai žmonių aišku, kad AI atneš revoliucinių pokyčių.Jis iš naujo suformuos mūsų pasaulį taip, kaip mes vargu ar galime įsivaizduoti - ir tai net nekalbant apie humanoidinių robotų poveikį.Kas yra absoliučiai lemiama yra tai, kas turi galią AI.Ar jis išliks centralizuotas kelių didelių korporacijų rankose, ar jis taps bendra viešąja gėrybe, kuri naudinga visai žmonijai?


Tai kelia vieną svarbų klausimą mūsų ateičiai: ar iš tiesų atsiras decentralizuotas AI?


Tokios sistemos kūrimas reikalauja daugiau nei tik techninių naujovių – ji reikalauja atvirų duomenų rinkinių, decentralizuoto saugojimo, blokų grandinės valdymo ir paskatų mechanizmų, leidžiančių bendruomenėms laisvai prisidėti ir bendradarbiauti.


Jei mums pavyks, mes ne tik demokratizuosime AI – mes sukursime pagrindą naujam skaitmeniniam bendram pasauliui, kuriame pati žvalgyba yra bendrai sukurta, skaidri ir atvira visiems.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks