Du ejer ikke dine data, men AI gør det - og det er problemet

Det er ikke kun, at vores værktøjer og software er blevet smartere – det er, at vi er begyndt at udvikle software på en helt ny måde.

Dette er selvfølgelig forståeligt, da der ikke er sket nogen dramatiske ændringer i hardware eller software.Vores programmer kører stadig på digitale CPU'er og GPU'er, og de er stadig skrevet i traditionelle programmeringssprog som Python.

Det er værd at tage et kig på kildekoden af store sprogmodeller somaf GPT-2, derGråEller målsætningenGræderSelv for en lekmann, er en slående ting, hvor kort og relativt enkel denne kode er - hvilket er overraskende, i betragtning af den store viden og problemløsning intelligens disse modeller besidder.

af
I et kunstig intelligens-system er køretidskoden kun en marginal del af systemet – den virkelige viden og intelligens kommer fra datasættet, der bruges til træning.
af

I et kunstig intelligens-system er køretidskoden kun en marginal del af systemet – den virkelige viden og intelligens kommer fra datasættet, der bruges til træning.

Det er netop derfor, at denne nye form for software er blevet kaldtSoftwaren 2.0af Andrej Karpathy – og jeg synes, det er et meget passende navn.

Åben vægt ≠ open source

Der er flere frit tilgængelige open source-modeller, som alle kan downloade, køre eller endda ændre. eksempler er LLaMA, Grok og den nyligt meget diskuterede kinesiske model DeepSeek.

Disse modeller består typisk af et par Python-filer og flere massive vægtmatrixer (hver flere gigabyte i størrelse).Selvom det er sandt, at disse modeller kan udvikles yderligere - finjusteret, kvantificeret, destilleret og så videre - kan de stadig ikke virkelig betragtes som open source i klassisk forstand.

Det er mere præcist at kalde disseopen-weight modelsi stedet for open source-modeller, da den virkelig værdifulde komponent – træningsdataene – forbliver i hænderne på udgivelsesvirksomhederne (Meta, xAI osv.).

af
Virkelig open source AI er bygget på åbne data.
af

Virkelig open source AI er bygget på åbne data.

Hvem ejer dataene?

Store sprogmodeller er typisk bygget ved først at oprette enStiftelsesmodel, som derefter er finjusteret til et bestemt formål (f.eks. chat, som med ChatGPT).Denne fundamentmodel er trænet på data produceret af menneskeheden og gjort offentligt tilgængeligt – gennem hjemmesider, bøger, YouTube-videoer og sociale medier.Da denne data rigdom er resultatet af vores kollektive arbejde, ville det være logisk at behandle disse datasæt som offentlige ressourcer, frit tilgængelige for alle.

Derfor har mange tjenester udtrykkeligt besluttet at forbyde udviklere af AI-modeller at bruge deres indhold.

Personligt er jeg ikke helt enig i denne tilgang, da jeg mener, at den hindrer fremskridt.fair-use modelsom gør det muligt at bruge offentligt tilgængelige data til AI-træning – på betingelse af at det resulterende datasæt og model skal gøres frit tilgængeligt til gengæld.

Da der i øjeblikket ikke findes nogen juridisk ramme som denne, og der ikke er nogen incitament for AI-virksomheder til at udvikle ægte open-source-modeller, falder dette ansvar på samfundet.

Decentraliseret lagring – det ideelle hjem for åbne datasæt

Det er langt fra et trivielt spørgsmål, da der er betydelige ideologiske og kulturelle forskelle mellem mennesker i forskellige regioner i verden. Af denne grund er det umuligt at oprette et enkelt datasæt fra offentligt tilgængelig global viden, som alle ville være enige om.

I betragtning af disse kriterier er det bedste valg et uforanderligt decentraliseret lagringssystem, såsomIPFSellerEthereum SwarmDisse løsninger bruger content-addressing (hvor adressen af dataene er en hash genereret fra dets indhold), hvilket gør uautoriseret indholdsændring praktisk taget umulig.

Disse systemer har en anden yderst nyttig funktion: de gemmer indhold i blokke. Da adressen på et stykke indhold er afledt fra dens hash, hvis den samme blok vises i flere filer, behøver den kun at blive gemt én gang.Git repository, hvor versionering er automatisk, og forking er billigt. Dette er ideelt i tilfælde, hvor vi vil gemme flere datasæt, der kun adskiller sig lidt (f.eks. med mindre end 1%). Hvis nogen er uenige med indholdet af et datasæt, kan de oprette en ny version uden at skulle lave en fuld kopi - kun ændringerne gemmes.

Hvordan blockchain kan understøtte oprettelsen af åbne datasæt

Blockchain og decentraliseret lagring supplerer hinanden godt. På den ene side gør decentraliseret lagring det muligt at lagre store mængder data med et sikkerhedsniveau sammenligneligt med blockchain lagring. På den anden side kan blockchain give incitamentssystemet og styringslagret til decentraliseret lagring. Et godt eksempel er Ethereum Swarm, som ikke kunne fungere uden en blockchain, da dets incitamentssystem - afgørende for netværkets optimale drift - implementeres gennem smarte kontrakter, der kører på blockchain.

I tilfælde af åbne datasæt kunne blockchain-baserede DAO'er bestemme, hvad der bliver inkluderet i et datasæt. Systemet kunne fungere på samme måde som Wikipedia, hvor administratorer sikrer, at falske oplysninger ikke kommer ind i encyklopædiet.

Hvis nogen er uenige med indholdet af et datasæt, kan de oprette deres egen fork og starte en ny DAO for at administrere den alternative version.

Decentraliseret uddannelse

Hvis data er den nye kildekode, så er træning i tilfælde af Software 2.0 (kunstig intelligens) det samme som at kompilere programmet.I traditionel softwareudvikling udføres denne kompilation lokalt af udviklere på deres egne maskiner.I AI-systemer er træning imidlertid en ekstremt energi- og beregningsintensiv opgave.Uddannelse af en stor sprogmodel kan koste millioner af dollars og kræver massive computerkluster - en stor udfordring for samfundsdrevne modeller.

En mulighed er for samfundet at samle midler og leje computing power fra en cloud-udbyder til centraliseret træning.En anden mulighed er decentraliseret træning, hvor medlemmer donerer computing kapacitet enten gratis (som et offentligt gods) eller i bytte for kompensation.

Desentraliseret træning er dog langt fra en triviel opgave. En udfordring er, at store modeller ikke kan trænes på en enkelt node – der kræves multi-node-træning, hvilket kræver høj kommunikation mellem noderne. Denne kommunikation skal optimeres for at træningen skal være effektiv. Heldigvis arbejder flere startups på dette problem.Udendørs Labssom har udviklet en protokol kaldetDeltog, designet til at muliggøre uddannelse over et internetforbundet netværk af noder.

En anden udfordring - fælles for alle åbne decentraliserede systemer (blockchains, decentraliseret lagring osv.) - er spørgsmålet omtrustDa alle frit kan bidrage med deres egne enheder til systemet, er der ingen garanti for, at de vil handle ærligt. En ondsindet aktør, for eksempel, kunne bruge uautoriserede data i stedet for DAO-godkendte datasæt, og dermed "forurene" modellen.

I disse systemer er tillid erstattet af beregningsmæssige garantier. Jo mere sikkerhed vi ønsker i et utroværdigt netværk af noder, jo mere beregningsmæssig kraft kræves. Et godt eksempel på dette er blockchain, hvor hver node, der udgiver en ny blok, også validerer alle beregninger i kæden, der fører op til den.

Denne tilgang virker dog ikke for AI-træning, så vi skal udforske andre løsninger.

Konsensusbaseret validering

En tilgang er at have hver beregning udført af flere (f.eks. tre) tilfældigt udvalgte knuder. Hvis resultaterne ikke matcher, mister den uærlige knude sit stakede depositum. Fordelen ved denne metode er, at den giver relativt høj sikkerhed. Ulempen er, at den tredobler den krævede beregningskraft.

Zero Knowledge Bevis

Med zero-knowledge proof (ZKP) teknologi, kan man bevise, at en beregning blev udført - og gøre det på en måde, at beviset selv er billigt at verificere. Denne teknik bruges i systemer som zkRollups, hvor en zkSNARK beviser, at gyldige transaktioner blev udført på en Layer 2 kæde. Ulempen er, at generering af beviset er beregningsmæssigt dyrt, især som antallet af multiplikationer i beregningen øges. Dette betyder, at med nuværende ZKP teknologi, træning AI modeller på denne måde ville kræve drastisk mere beregningskraft.

Optimistisk decentraliseret maskinindlæring

Optimistisk decentraliseret maskinindlæring fungerer på samme måde som optimistiske rollups. Beregning antages at være korrekt, medmindre nogen indsender et svindelbevis for at vise andet. I praksis logger træningsknoden hvert trin i processen – herunder den indledende vægtmatrix, træningsdata og den resulterende vægtmatrix. Hvis loggen også registrerer de tilfældige frø, bliver hele beregningen deterministisk og reproducerbar.

Validatornoder kan derefter tilfældigt prøve segmenter af træningsloggen og verificere dem. Hvis der opdages uoverensstemmelser, mister træningsknoden sin andel. Denne metode har den laveste beregningsomkostninger: den kræver ikke dyre nul-kundskabsbevisgenerering, og i modsætning til konsensusbaseret validering skal kun tilfældigt udvalgte dele af beregningen verificeres igen.

Endelig kræver decentraliseret træning en "node marketplace" - en platform, hvor tilgængelige computing-ressourcer kan opdages og udnyttes.af Aleph Cloud, som ligesom andre cloud-udbydere tilbyder beregningskapacitet - men det er en decentraliseret platform designet til at levere skalerbar lagring, beregning og databasetjenester gennem et netværk af distribuerede noder. Det bruger en ERC20 token til at betale for tjenesterne, så det kan nemt integreres med andre blockchain-baserede løsninger. Aleph noder bruger pålidelige udførelsesmiljøer, så validering er mindre relevant i dette tilfælde.

Decentraliseret indsigt

For store modeller er uddannelse ikke kun ikke-triviel på grund af de høje beregningsmæssige krav, men kørslen af modellen (inference) er også udfordrende.

Da kørsel af et neuralt netværk fungerer på samme måde som under træning (inference er fremadfaser, mens træning involverer mange fremad- og bagudfaser), kan optimistisk decentraliseret maskinindlæring også anvendes her.

Teknologier som Homomorphic Encryption og Multiparty Computation (MPC) kan hjælpe med at beskytte private data. Samtidig fortsætter hardwarepræstationen med at vokse eksponentielt, og nye teknikker – såsom 1,5-bitne neurale netværk og destillerede Mixture-of-Experts (MoE) modeller som DeepSeek – gør det i stigende grad muligt at køre disse netværk lokalt.

Jeg tror på, at vi på lang sigt vil være i stand til at køre sådanne modeller lokalt - eller i det mindste inden for privatlejede betroede miljøer.

Konklusionen

I øjeblikket er det klart for de fleste mennesker, at AI vil bringe revolutionerende ændringer. Det vil omforme vores verden på måder, vi næppe kan forestille os - og det er uden at nævne virkningen af humanoide robotter.

Dette gør et spørgsmål centralt for vores fremtid: Vil virkelig decentraliseret AI dukke op?

Opbygningen af et sådant system kræver mere end blot teknisk innovation - det kræver åbne datasæt, decentraliseret lagring, blockchain-baseret styring og incitamentsmekanismer, der giver lokalsamfundene mulighed for at bidrage og samarbejde frit.

Hvis vi lykkes, vil vi ikke bare demokratisere AI - vi vil lægge grundlaget for en ny digital fælles, hvor intelligens selv er medskabt, gennemsigtig og åben for alle.

Du ejer ikke dine data, men AI gør det - og det er problemet

For langt; At læse

Åben vægt ≠ open source

Hvem ejer dataene?

Decentraliseret lagring – det ideelle hjem for åbne datasæt

Hvordan blockchain kan understøtte oprettelsen af åbne datasæt

Decentraliseret uddannelse

Konsensusbaseret validering

Zero Knowledge Bevis

Optimistisk decentraliseret maskinindlæring

Decentraliseret indsigt

Konklusionen

About Author

HÆNG TAGS

DENNE ARTIKEL BLEV PRÆsenterET I...

Categories

Trending Topics

Du ejer ikke dine data, men AI gør det - og det er problemet

For langt; At læse

Åben vægt ≠ open source

Hvem ejer dataene?

Decentraliseret lagring – det ideelle hjem for åbne datasæt

Hvordan blockchain kan understøtte oprettelsen af åbne datasæt

Decentraliseret uddannelse

Konsensusbaseret validering

Zero Knowledge Bevis

Optimistisk decentraliseret maskinindlæring

Decentraliseret indsigt

Konklusionen

About Author

HÆNG TAGS

DENNE ARTIKEL BLEV PRÆsenterET I...

RELATEREDE HISTORIER

Categories

Trending Topics