Nu îți deții datele, dar AI o face – și asta este problema

Puțini oameni înțeleg cu adevărat schimbarea revoluționară care se desfășoară în fața ochilor lor atunci când vine vorba de AI. Nu numai că instrumentele și software-ul nostru au devenit mai inteligente, ci am început să dezvoltăm software-ul într-un mod complet nou.

Acest lucru este de înțeles, desigur, deoarece nu a existat nicio schimbare dramatică în hardware sau software. programele noastre rulează încă pe CPU-uri și GPU-uri digitale și sunt încă scrise în limbajele tradiționale de programare, cum ar fi Python.

It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2 Grok LLaMA

Într-un sistem de inteligență artificială, codul de execuție este doar o parte marginală a sistemului - cunoștințele și inteligența reală provin din setul de date utilizat pentru instruire. Data este noul cod sursă!

Într-un sistem de inteligență artificială, codul de execuție este doar o parte marginală a sistemului - cunoștințele și inteligența reală provin din setul de date utilizat pentru instruire. Data este noul cod sursă!

Data este noul cod sursă!

Acesta este exact motivul pentru care această nouă formă de software a fost numită Software 2.0 de Andrej Karpathy – și cred că este un nume foarte potrivit.

Software 2.0 și Valoarea deschisă ≠ sursă deschisă
Există mai multe modele open-source disponibile în mod liber pe care oricine le poate descărca, rula sau chiar modifica.Exemple includ LLaMA, Grok și recentul model chinez DeepSeek.

Aceste modele constau, de obicei, din câteva fișiere Python și mai multe matrice masive de greutate (fiecare cu mai multe gigabytes în dimensiune).În timp ce este adevărat că aceste modele pot fi dezvoltate în continuare - fine-tuned, cuantizat, distilat, și așa mai departe - ele încă nu pot fi considerate cu adevărat open-source în sensul clasic.

Este mai corect să numim aceste modele open-weight decât modele open-source, deoarece componenta cu adevărat valoroasă - datele de instruire - rămâne în mâinile companiilor de publicare (Meta, xAI, etc.).
modele cu greutate deschisă

Adevărata inteligență artificială cu sursă deschisă se bazează pe date deschise.

Adevărata inteligență artificială cu sursă deschisă se bazează pe date deschise.

Cine deține datele?
Modelele largi de limbă sunt construite de obicei prin crearea unui model de fundație, care este apoi reglat pentru un scop specific (de exemplu, chat, ca și în cazul ChatGPT). Acest model de fundație este instruit pe date produse de omenire și puse la dispoziția publicului – prin site-uri web, cărți, videoclipuri YouTube și social media.Model de fundație

Din acest motiv, multe servicii au decis în mod explicit să interzică dezvoltatorilor de modele AI să utilizeze conținutul lor.

Personal, nu sunt pe deplin de acord cu această abordare, deoarece cred că împiedică progresul. aș prefera mult un model de utilizare echitabilă care să permită utilizarea datelor disponibile public pentru instruirea AI - cu condiția ca setul de date și modelul rezultat să fie făcut liber accesibil în schimb.
Modelul de utilizare echitabilă

Deoarece nu există în prezent un cadru juridic ca acesta și nu există niciun stimulent pentru companiile AI să dezvolte modele cu adevărat open-source, această responsabilitate revine comunității.

Stocarea descentralizată – casa ideală pentru seturile de date deschise
Dar cum ar arăta într-adevăr un set de date deschis construit de o comunitate globală? Aceasta este departe de o întrebare trivială, deoarece există diferențe ideologice și culturale semnificative între oameni din diferite regiuni ale lumii. Din acest motiv, este imposibil să se creeze un singur set de date din cunoștințele globale disponibile public pe care toată lumea ar fi de acord.

Având în vedere aceste criterii, cea mai bună alegere este un sistem de stocare descentralizat imutabil, cum ar fi IPFS sau Ethereum Swarm. Aceste soluții utilizează adresarea conținutului (în cazul în care adresa datelor este un hash generat din conținutul său), ceea ce face modificarea neautorizată a conținutului practic imposibilă.IPFS Ethereum Swarm

Aceste sisteme au o altă caracteristică extrem de utilă: stochează conținutul în blocuri. Deoarece adresa unei bucăți de conținut este derivată din hash-ul său, dacă același bloc apare în mai multe fișiere, acesta trebuie să fie stocat doar o singură dată. În acest fel, atât IPFS, cât și Swarm funcționează similar cu un repository Git, unde versiunea este automată, iar forkingul este ieftin. Acest lucru este ideal în cazurile în care vrem să stocăm mai multe seturi de date care diferă doar ușor (de exemplu, cu mai puțin de 1%). Dacă cineva nu este de acord cu conținutul unui set de date, pot crea o nouă versiune fără a fi nevoie să facă o copie completă - doar schimbările sunt stocate. Exact ca atunci când forRepositorul Git
Cum blockchain poate sprijini crearea de seturi de date deschise
Blockchain și stocarea descentralizată se completează bine. Pe de o parte, stocarea descentralizată face posibilă stocarea unor cantități mari de date cu un nivel de securitate comparabil cu stocarea blockchain. Pe de altă parte, blockchain poate oferi sistemul de stimulare și stratul de guvernare pentru stocarea descentralizată. Un bun exemplu este Ethereum Swarm, care nu ar putea funcționa fără o blockchain, deoarece sistemul său de stimulare - esențial pentru funcționarea optimă a rețelei - este implementat prin contracte inteligente care rulează pe blockchain.

În cazul seturilor de date deschise, DAO-urile bazate pe blockchain ar putea decide ce este inclus într-un set de date.Sistemul ar putea funcționa similar cu Wikipedia, unde administratorii se asigură că informațiile false nu le introduc în enciclopedie.Desigur, de multe ori nu este clar ce contează ca informații false.Wikipedia nu are o soluție reală pentru această problemă - dar într-un sistem descentralizat, bazat pe blockchain, intră în joc furcile.

Dacă cineva nu este de acord cu conținutul unui set de date, își poate crea propriul fork și poate lansa un nou DAO pentru a gestiona versiunea alternativă.
Învățământ descentralizat
Dacă datele sunt noul cod sursă, atunci în cazul Software 2.0 (inteligență artificială), instruirea este echivalentă cu compilarea programului.În dezvoltarea tradițională a software-ului, această compilare este făcută local de către dezvoltatori pe propriile mașini.În sistemele AI, totuși, instruirea este o sarcină extrem de energetică și de calcul intensivă.

O opțiune este ca comunitatea să strângă fonduri și să închirieze puterea de calcul de la un furnizor de cloud pentru formare centralizată.O altă posibilitate este formarea descentralizată, în care membrii donă capacitatea de calcul fie gratuit (ca bun public), fie în schimbul unei compensații.

However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.
Exo Labs DiLoCo

O altă provocare – comună tuturor sistemelor descentralizate deschise (blockchain-uri, stocare descentralizată etc.) – este problema încrederii puternice.Deoarece oricine poate contribui liber propriile dispozitive la sistem, nu există nicio garanție că vor acționa onest.Un actor rău intenționat, de exemplu, ar putea folosi date neautorizate în locul setului de date aprobat de DAO, „contaminând” astfel modelul.încredere

În aceste sisteme, încrederea este înlocuită cu garanții computaționale.Cu cât vrem mai multă securitate într-o rețea de noduri neîncrezătoare, cu atât este nevoie de mai multă putere computațională.Un bun exemplu al acestui lucru este blockchain, unde fiecare nod care publică un nou bloc validă, de asemenea, toate calculele din lanțul care duce până la acesta.

Această abordare, totuși, nu funcționează pentru formarea AI, așa că trebuie să explorăm alte soluții.
Validarea bazată pe consens
O abordare este de a avea fiecare calcul efectuat de mai multe (de exemplu, trei) noduri selectate la întâmplare. Dacă rezultatele nu se potrivesc, nodul necinstit își pierde depozitul implicat.
Probe de cunoaștere zero
Cu tehnologia Zero-knowledge proof (ZKP), se poate dovedi că un calcul a fost efectuat – și se poate face într-un mod în care dovada în sine este ieftină de verificat. Această tehnică este utilizată în sisteme precum zkRollups, unde un zkSNARK dovedește că tranzacțiile valabile au fost executate pe un lanț Layer 2. Dezavantajul este că generarea dovezii este costisitoare din punct de vedere computațional, mai ales că numărul de multiplicări în calcul crește. Acest lucru înseamnă că, cu tehnologia actuală ZKP, instruirea modelelor AI în acest fel ar necesita mult mai multă putere de calcul.
Învățarea automată descentralizată optimistă
În practică, nodul de instruire înregistrează fiecare pas al procesului – inclusiv matricea inițială de greutate, datele de instruire și matricea de greutate rezultată.
Dacă înregistrarea înregistrează și semințele aleatorii, întregul calcul devine determinist și reproductibil.

Nodurile de validare pot apoi să eșantioneze aleatoriu segmente din jurnalul de instruire și să le verifice. Dacă se găsesc inconsecvențe, nodul de instruire își pierde interesul. Această metodă are cel mai mic cost de calcul: nu necesită generarea de dovezi costisitoare de cunoaștere zero și, spre deosebire de validarea bazată pe consens, numai părțile aleatorii ale calculului trebuie să fie re-verificate.

Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.
Aleph Cloud
Inferență descentralizată
Pentru modelele la scară largă, nu numai că formarea nu este trivială datorită cerințelor de calcul ridicate, dar și rularea modelului (inferența) este provocatoare. Acest lucru este valabil mai ales pentru modelele de raționament, unde rezultatele apar numai după mai multe treceri consecutive înainte - ceea ce înseamnă că puterea totală de calcul necesară pentru inferență poate depăși cu mult puterea de formare.

Deoarece rularea unei rețele neuronale funcționează în același mod ca și în timpul antrenamentului (inferența este fazele înainte, în timp ce antrenamentul implică multe faze înainte și înapoi), învățarea automată descentralizată optimistă poate fi, de asemenea, aplicată aici.

Principala provocare în acest context este confidențialitatea.Tehnologii precum criptarea omomorfică și calculul multipartit (MPC) pot ajuta la protejarea datelor private.În același timp, performanța hardware-ului continuă să crească exponențial, iar noile tehnici - cum ar fi rețelele neuronale de 1,5 biți și modelele MoE distilate, cum ar fi DeepSeek - fac din ce în ce mai posibilă rularea acestor rețele locală.

Cred că, pe termen lung, vom putea rula astfel de modele la nivel local - sau cel puțin, în medii de încredere închiriate privat.
Concluzie
Până acum, este clar pentru majoritatea oamenilor că IA va aduce schimbări revoluționare. va remodela lumea noastră în moduri pe care le putem imagina cu greu - și asta fără a menționa impactul roboților humanoizi.

Aceasta pune o întrebare centrală pentru viitorul nostru: va apărea cu adevărat AI descentralizată?

Construirea unui astfel de sistem necesită mai mult decât inovație tehnică - necesită seturi de date deschise, stocare descentralizată, guvernanță bazată pe blockchain și mecanisme de stimulare care să permită comunităților să contribuie și să colaboreze în mod liber.

Dacă vom reuși, nu vom democratiza doar IA – vom pune bazele unei noi comunități digitale, în care inteligența însăși este co-creată, transparentă și deschisă tuturor.

Nu îți deții datele, dar AI o face – și asta este problema

Prea lung; A citi

Valoarea deschisă ≠ sursă deschisă

Cine deține datele?

Cum blockchain poate sprijini crearea de seturi de date deschise

Învățământ descentralizat

Validarea bazată pe consens

Probe de cunoaștere zero

Învățarea automată descentralizată optimistă

Inferență descentralizată

Concluzie

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

Categories

Trending Topics

Nu îți deții datele, dar AI o face – și asta este problema

Prea lung; A citi

Valoarea deschisă ≠ sursă deschisă

Cine deține datele?

Cum blockchain poate sprijini crearea de seturi de date deschise

Învățământ descentralizat

Validarea bazată pe consens

Probe de cunoaștere zero

Învățarea automată descentralizată optimistă

Inferență descentralizată

Concluzie

About Author

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN...

POVEȘTI LEGATE

Categories

Trending Topics