Jūs neturite savo duomenų, bet AI tai daro - ir tai yra problema

Mažai žmonių tikrai supranta revoliucinį pokytį prieš jų akis, kai kalbama apie AI. Ne tik mūsų įrankiai ir programinė įranga tapo protingesni, bet ir mes pradėjome kurti programinę įrangą visiškai nauju būdu.

Tai suprantama, žinoma, nes nebuvo jokių dramatiškų aparatūros ar programinės įrangos pokyčių.Mūsų programos vis dar veikia skaitmeniniuose procesoriuose ir GPU, ir jos vis dar parašytos tradicinėmis programavimo kalbomis, tokiomis kaip Python.

It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2 Grok LLaMA

Dirbtinio intelekto sistemoje paleidimo kodas yra tik ribinė sistemos dalis – realios žinios ir žvalgyba gaunamos iš mokymui naudojamo duomenų rinkinio. Data yra naujas šaltinis!

Data yra naujas šaltinis!

Būtent todėl Andrej Karpathy šią naują programinės įrangos formą pavadino Software 2.0 – ir manau, kad tai labai tinkamas pavadinimas.

Programinė įranga 2.0

Atviras svoris ≠ atviro kodo

Yra keletas laisvai prieinamų atviro kodo modelių, kuriuos kiekvienas gali atsisiųsti, paleisti ar net modifikuoti.Pavyzdžiai yra LLaMA, Grok ir neseniai plačiai diskutuojamas kinų modelis DeepSeek.

Šie modeliai paprastai susideda iš kelių Python failų ir kelių masinių matricų (kiekvienas kelių gigabaitų dydžio). Nors tiesa, kad šie modeliai gali būti toliau plėtojami - smulkiai sureguliuoti, kiekybiškai nustatyti, distiliuoti ir pan. - jie vis dar negali būti laikomi atviro kodo klasikinėje prasme.

Tiksliau vadinti šiuos atviro svorio modelius , o ne atviro kodo modelius, nes tikrai vertingas komponentas - mokymo duomenys - lieka leidėjų rankose (Meta, xAI ir kt.).

atviro svorio modeliai

Tikrasis atvirojo kodo AI yra pastatytas ant atvirų duomenų.

Tikrasis atviro kodo AI yra pastatytas ant atvirų duomenų.

Kas yra duomenų savininkas?

Dideli kalbos modeliai paprastai sukuriami pirmiausia sukuriant foundation modelį, kuris tada yra gerai pritaikytas konkrečiam tikslui (pvz., pokalbiui, kaip ir „ChatGPT“).Šis pamatinis modelis yra mokomas remiantis žmonijos sukurtais duomenimis ir padarytas viešai prieinamu – per svetaines, knygas, „YouTube“ vaizdo įrašus ir socialinę žiniasklaidą. kadangi šis duomenų turtas yra mūsų kolektyvinio darbo rezultatas, būtų logiška šiuos duomenų rinkinius traktuoti kaip viešojo domeno išteklius, laisvai prieinamus visiems.

Fondų modelis

Dėl šios priežasties daugelis paslaugų aiškiai nusprendė uždrausti AI modelio kūrėjams naudoti jų turinį.

Asmeniškai aš visiškai nesutinku su šiuo požiūriu, nes manau, kad jis trukdo pažangai. „Labai norėčiau sąžiningo naudojimo modelio, leidžiančio naudoti viešai prieinamus duomenis AI mokymui – su sąlyga, kad gautas duomenų rinkinys ir modelis turi būti laisvai prieinami.

sąžiningo naudojimo modelis

Kadangi šiuo metu nėra tokios teisinės sistemos ir nėra paskatų AI įmonėms kurti tikrai atviro kodo modelius, ši atsakomybė tenka bendruomenei.

Decentralizuota saugykla – idealus atvirų duomenų rinkinių namas

Bet kaip atviras duomenų rinkinys, kurį sukūrė pasaulinė bendruomenė, iš tikrųjų atrodytų?Tai toli gražu nėra trivialus klausimas, nes yra reikšmingų ideologinių ir kultūrinių skirtumų tarp žmonių skirtinguose pasaulio regionuose.Dėl šios priežasties neįmanoma sukurti vieno duomenų rinkinio iš viešai prieinamų pasaulinių žinių, dėl kurių visi sutiktų.Be to, labai svarbu, kad toks duomenų rinkinys nebūtų niekam priklausantis, kad prieiga negali būti ribojama, kad duomenys negali būti modifikuojami atgaline data ir kad niekas neturi galios jį cenzūruoti.

Atsižvelgiant į šiuos kriterijus, geriausias pasirinkimas yra nekintama decentralizuota saugojimo sistema, pvz., IPFS arba Ethereum Swarm. Šie sprendimai naudoja turinio adresavimą (kai duomenų adresas yra iš jo turinio sukurtas hash), todėl neleistinas turinio modifikavimas praktiškai neįmanomas.IPFS ir Ethereum Swarm

Šios sistemos turi dar vieną labai naudingą funkciją: jos saugo turinį blokuose. Kadangi turinio gabalo adresas yra gautas iš jo hash, jei tas pats blokas pasirodo keliuose failuose, jis turi būti saugomas tik vieną kartą. Tokiu būdu tiek IPFS, tiek Swarm veikia panašiai kaip Git saugykla, kur versija yra automatiška, o forking yra nebrangus. Tai idealiai tinka tais atvejais, kai norime saugoti kelis duomenų rinkinius, kurie skiriasi tik šiek tiek (pvz., mažiau nei 1%). Jei kas nors nesutinka su duomenų rinkinio turiniu, jie gali sukurti naują versiją, nereikalaudami padaryti visos kopijos - tik pakeitimai yra saugomi.Git saugykla

Kaip blockchain gali palaikyti atvirų duomenų rinkinių kūrimą

Blockchain ir decentralizuotas saugojimas puikiai papildo vienas kitą. Viena vertus, decentralizuotas saugojimas leidžia saugoti didelius duomenų kiekius, kurių saugumo lygis yra panašus į blockchain saugojimą. Kita vertus, blockchain gali suteikti paskatų sistemą ir valdymo sluoksnį decentralizuotam saugojimui. Geras pavyzdys yra Ethereum Swarm, kuris negalėtų veikti be blockchain, nes jo paskatų sistema - būtina tinklo optimaliam veikimui - įgyvendinama per protingas sutartis, veikiančias blockchain.

Atvirų duomenų rinkinių atveju „blockchain“ pagrindu veikiantys DAO galėtų nuspręsti, kas įtraukiama į duomenų rinkinį.Sistema galėtų veikti panašiai kaip „Wikipedia“, kur administratoriai užtikrina, kad klaidinga informacija nepatektų į enciklopediją.Žinoma, dažnai nėra aišku, kas laikoma klaidinga informacija.„Wikipedia“ neturi realaus šios problemos sprendimo, tačiau decentralizuotoje, „blockchain“ pagrindu veikiančioje sistemoje į žaidimą įeina forkai.

Jei kas nors nesutinka su duomenų rinkinio turiniu, jie gali sukurti savo virvę ir paleisti naują DAO, kad galėtų valdyti alternatyvią versiją.

Decentralizuotas mokymas

Jei duomenys yra naujas šaltinis, tada programinės įrangos 2.0 (dirbtinio intelekto) atveju mokymas yra lygiavertis programos kompiliavimui.Tradicinėje programinės įrangos kūrimo srityje šį kompiliavimą kūrėjai atlieka vietoje savo kompiuteriuose.Tačiau AI sistemose mokymas yra labai energijos ir skaičiavimo intensyvus uždavinys.Didelio kalbos modelio mokymas gali kainuoti milijonus dolerių ir reikalauja didžiulių kompiuterių grupių – tai didelis iššūkis bendruomenės varomiems modeliams.

Viena galimybė yra bendruomenei surinkti lėšų ir išsinuomoti kompiuterinę galią iš debesies tiekėjo centralizuotam mokymui.

Kitas variantas yra decentralizuotas mokymas, kuriame nariai dovanoja kompiuterinę galią arba nemokamai (kaip viešąją gėrybę) arba mainais už kompensaciją.

However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.

Exo Labs DiLoCo

Kitas iššūkis – bendras visoms atviroms decentralizuotoms sistemoms (blockchains, decentralizuota saugykla ir kt.) – yra trust klausimas. kadangi kiekvienas gali laisvai prisidėti savo įrenginius prie sistemos, nėra jokios garantijos, kad jie veiks sąžiningai. pvz., kenkėjiškas veikėjas galėtų naudoti neleistinus duomenis vietoj DAO patvirtinto duomenų rinkinio, taip „užteršdamas“ modelį.

pasitikėjimas

Šiose sistemose pasitikėjimą pakeičia skaičiavimo garantijos. Kuo daugiau saugumo norime nepatikimo mazgų tinkle, tuo daugiau skaičiavimo galios reikalinga.Geras to pavyzdys yra blockchain, kur kiekvienas mazgas, skelbiantis naują bloką, taip pat patvirtina visus skaičiavimus grandinėje, vedančioje iki jo.

Tačiau šis metodas neveikia AI mokymui, todėl turime ištirti kitus sprendimus.
Susitarimo pagrindu pagrįstas patvirtinimas
Vienas metodas yra kiekvienas skaičiavimas atliekamas kelių (pvz., trijų) atsitiktinai atrinktų mazgų. Jei rezultatai neatitinka, nesąžiningas mazgas praranda savo įdėtą indėlį.Šio metodo privalumas yra tai, kad jis suteikia santykinai aukštą saugumą.
Zero žinių įrodymai
Naudodamiesi nulinės žinios įrodymo (ZKP) technologija, galima įrodyti, kad apskaičiavimas buvo atliktas – ir tai padaryti taip, kad pats įrodymas būtų pigus patikrinti. Ši technika naudojama tokiose sistemose kaip zkRollups, kur zkSNARK įrodo, kad galiojantys sandoriai buvo atlikti 2 sluoksnio grandinėje. Trūkumas yra tas, kad įrodymų generavimas yra kompiuteriniu požiūriu brangus, ypač kai skaičiuojant padaugėja dauginimų. Tai reiškia, kad su dabartine ZKP technologija, mokant AI modelius tokiu būdu reikėtų drastiškai daugiau skaičiavimo galios.
Optimistinis decentralizuotas mašininis mokymasis
Optimistinis decentralizuotas mašininis mokymasis veikia panašiai kaip optimistinis įtraukimas. Skaičiavimas laikomas teisingu, nebent kas nors pateikia sukčiavimo įrodymą, kad parodytų kitaip.Praktiškai mokymo mazgas registruoja kiekvieną proceso žingsnį – įskaitant pradinę svorio matricos, mokymo duomenų ir gautos svorio matricos.

Validatoriaus mazgai gali atsitiktinai imti mokymo žurnalo segmentus ir juos patikrinti. Jei nustatomi bet kokie neatitikimai, mokymo mazgas praranda savo vaidmenį. Šis metodas turi mažiausias skaičiavimo išlaidas: jam nereikia brangios nulinės žinios įrodymų generavimo ir, skirtingai nuo konsensuso pagrįsto patvirtinimo, tik atsitiktinai atrinktos skaičiavimo dalys turi būti pakartotinai patikrinamos.

Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.
Aleph Cloud
Decentralizuota įžvalga
Dideliems modeliams mokymas yra ne tik nereikšmingas dėl didelių skaičiavimo reikalavimų, bet ir sudėtingas modelio (inferencijos) veikimas.Tai ypač pasakytina apie mąstymo modelius, kuriuose rezultatai atsiranda tik po kelių iš eilės praeinančių perėjimų - tai reiškia, kad bendra skaičiavimo galia, reikalinga išvadai, gali gerokai viršyti mokymo galią.

Kadangi nervų tinklo veikimas veikia taip pat, kaip ir mokymo metu (inferencija yra į priekį, o mokymas apima daugelį į priekį ir atgal fazes), optimistinis decentralizuotas mašininis mokymasis taip pat gali būti taikomas čia.

Technologijos, tokios kaip homomorfinis šifravimas ir daugiašalis skaičiavimas (MPC), gali padėti apsaugoti privačius duomenis.Tuo pačiu metu aparatūros našumas ir toliau eksponentiškai auga, o nauji metodai, tokie kaip 1,5 bitų neuroniniai tinklai ir distiliuoti eksperto mišinio (MoE) modeliai, tokie kaip „DeepSeek“, vis labiau leidžia šiuos tinklus paleisti vietoje.

Tikiu, kad ilgainiui tokius modelius galėsime paleisti vietoje arba bent jau privačiai nuomojamose patikimose aplinkose.
Išvados
Dabar daugumai žmonių aišku, kad AI atneš revoliucinių pokyčių.Jis performuos mūsų pasaulį taip, kaip mes vargu ar galime įsivaizduoti - ir tai net nekalbant apie humanoidinių robotų poveikį.Kas yra absoliučiai lemiama yra tai, kas turi galią AI.Ar jis išliks centralizuotas kelių didelių korporacijų rankose, ar jis taps bendra viešąja gėrybe, kuri naudinga visai žmonijai?

Tai kelia vieną klausimą, kuris yra svarbus mūsų ateičiai: ar iš tiesų atsiras decentralizuotas AI?

Norint sukurti tokią sistemą, reikia daugiau nei tik techninių naujovių – reikia atvirų duomenų rinkinių, decentralizuoto saugojimo, blockchain valdymo ir paskatų mechanizmų, leidžiančių bendruomenėms laisvai prisidėti ir bendradarbiauti.

Jei mums pavyks, mes ne tik demokratizuosime AI – mes sukursime pagrindą naujam skaitmeniniam bendram pasauliui, kuriame pati žvalgyba yra bendrai sukurta, skaidri ir atvira visiems.

Jūs neturite savo duomenų, bet AI tai daro - ir tai yra problema

Per ilgai; Skaityti

Atviras svoris ≠ atviro kodo

Kas yra duomenų savininkas?

Decentralizuota saugykla – idealus atvirų duomenų rinkinių namas

Kaip blockchain gali palaikyti atvirų duomenų rinkinių kūrimą

Decentralizuotas mokymas

Susitarimo pagrindu pagrįstas patvirtinimas

Zero žinių įrodymai

Optimistinis decentralizuotas mašininis mokymasis

Decentralizuota įžvalga

Išvados

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Categories

Trending Topics

Jūs neturite savo duomenų, bet AI tai daro - ir tai yra problema

Per ilgai; Skaityti

Atviras svoris ≠ atviro kodo

Kas yra duomenų savininkas?

Decentralizuota saugykla – idealus atvirų duomenų rinkinių namas

Kaip blockchain gali palaikyti atvirų duomenų rinkinių kūrimą

Decentralizuotas mokymas

Susitarimo pagrindu pagrįstas patvirtinimas

Zero žinių įrodymai

Optimistinis decentralizuotas mašininis mokymasis

Decentralizuota įžvalga

Išvados

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

SUSIJUSIOS ISTORIJOS

Categories

Trending Topics