Dette er forståeligt, selvfølgelig, da der ikke er sket nogen dramatiske ændringer i hverken hardware eller software.Vores programmer kører stadig på digitale CPU'er og GPU'er, og de er stadig skrevet i traditionelle programmeringssprog som Python.
It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.
GPT-2GrokLLaMA
I et kunstig intelligens-system er kildekoden kun en marginal del af systemet - den virkelige viden og intelligens kommer fra datasættet, der anvendes til træning. Data er den nye kildekode!
I et kunstig intelligens-system er køretidskoden kun en marginal del af systemet - den virkelige viden og intelligens kommer fra datasættet, der anvendes til træning. Data er den nye kildekode!
Data er den nye kilde kode!
Det er netop derfor, at denne nye form for software er blevet kaldt Software 2.0 af Andrej Karpathy - og jeg synes, at det er et meget passende navn.
Software 2.0Open vægt ≠ open source
Der er flere frit tilgængelige open source-modeller, som alle kan downloade, køre eller endda ændre. Eksempler er LLaMA, Grok og den nyligt meget diskuterede kinesiske model DeepSeek.
Disse modeller består typisk af et par Python-filer og flere massive vægtmatrixer (hver flere gigabyte i størrelse).Selvom det er rigtigt, at disse modeller kan udvikles yderligere - finjusteret, kvantificeret, destilleret og så videre - kan de stadig ikke virkelig betragtes som open-source i klassisk forstand.
Det er mere præcist at kalde disse åbne vægtmodeller i stedet for open-source-modeller, da den virkelig værdifulde komponent - uddannelsesdata - forbliver i hænderne på udgivelsesvirksomhederne (Meta, xAI osv.).
åbne vægtmodeller
True open-source AI er bygget på åbne data.
Sand åben kildekode AI er bygget på åbne data.
Hvem ejer dataene?
Store sprogmodeller er typisk bygget ved først at oprette en foundation model, som derefter finjusteres til et bestemt formål (f.eks. chat, som med ChatGPT).Denne foundation model er trænet på data produceret af menneskeheden og gjort offentligt tilgængelige – gennem hjemmesider, bøger, YouTube-videoer og sociale medier.grundlæggende model
Da der i øjeblikket ikke findes nogen juridisk ramme som denne, og der ikke er nogen incitament for AI-virksomheder til at udvikle ægte open-source-modeller, falder dette ansvar på samfundet.
Decentraliseret lagring – det ideelle hjem for åbne datasæt
Det er langt fra et trivielt spørgsmål, da der er betydelige ideologiske og kulturelle forskelle mellem mennesker i forskellige regioner i verden. Af denne grund er det umuligt at skabe et enkelt datasæt fra offentligt tilgængelig global viden, som alle ville være enige om.
I betragtning af disse kriterier er det bedste valg et uforanderligt decentraliseret lagersystem, såsom IPFS eller Ethereum Swarm. Disse løsninger bruger indholdsadresse (hvor adressen af dataene er en hash genereret fra dets indhold), hvilket gør uautoriseret indholdsmodifikation næsten umulig. Disse systemer har en anden yderst nyttig funktion: de gemmer indhold i blokke. Da adressen på et stykke indhold er afledt af dens hash, hvis den samme blok vises i flere filer, skal den kun gemmes én gang. På denne måde fungerer både IPFS og Swarm på samme måde som et Git repository, hvor versionering er automatisk, og forking er billig. Dette er ideelt i tilfælde, hvor vi ønsker at gemme flere datasæt, der kun adskiller sig lidt (f.eks. med mindre end 1%). Hvis nogen er uenige med indholdet af et datasæt, kan de oprette en ny version uden at skulle lave en fuld kopi - kun ændringerne gemmes.Git repository og I tilfælde af åbne datasæt kunne blockchain-baserede DAO'er bestemme, hvad der bliver inkluderet i et datasæt. Systemet kunne fungere på samme måde som Wikipedia, hvor administratorer sikrer, at falske oplysninger ikke bliver inkluderet i encyklopædiet. Hvis nogen er uenige med indholdet af et datasæt, kan de oprette deres egen fork og starte en ny DAO for at administrere den alternative version. Hvis data er den nye kildekode, så er træning i tilfælde af Software 2.0 (kunstig intelligens) det samme som at kompilere programmet.I traditionel softwareudvikling udføres denne kompilation lokalt af udviklere på deres egne maskiner.I AI-systemer er træning imidlertid en ekstremt energi- og beregningsintensiv opgave.Uddannelse af en stor sprogmodel kan koste millioner af dollars og kræver massive computerkluster - en stor udfordring for samfundsdrevne modeller. En mulighed er for samfundet at samle midler og leje computing power fra en cloud-udbyder til centraliseret træning.En anden mulighed er decentraliseret træning, hvor medlemmer donerer computing kapacitet enten gratis (som et offentligt gods) eller i bytte for kompensation. However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes. I disse systemer er tillid erstattet af beregningsmæssige garantier. Jo mere sikkerhed vi ønsker i et utroværdigt netværk af noder, jo mere beregningsmæssig kraft kræves. Et godt eksempel på dette er blockchain, hvor hver node, der udgiver en ny blok, også validerer alle beregninger i kæden, der fører op til den. Denne tilgang virker dog ikke for AI-træning, så vi skal udforske andre løsninger. En tilgang er at have hver beregning udført af flere (f.eks. tre) tilfældigt udvalgte knuder. Hvis resultaterne ikke matcher, mister den uærlige knude sit stakede depositum. Fordelen ved denne metode er, at den giver relativt høj sikkerhed. Ulempen er, at den tredobler den krævede beregningskraft. Med zero-knowledge proof (ZKP) teknologi kan man bevise, at en beregning blev udført – og gøre det på en måde, at beviset selv er billigt at verificere. Denne teknik bruges i systemer som zkRollups, hvor en zkSNARK beviser, at gyldige transaktioner blev udført på en Layer 2-kæde. Ulempen er, at generering af beviset er beregningsmæssigt dyrt, især som antallet af multiplikationer i beregningen øges. Dette betyder, at med nuværende ZKP teknologi, træning AI modeller på denne måde ville kræve drastisk mere beregningskraft. Optimistisk decentraliseret maskinindlæring fungerer på samme måde som optimistiske rollups. Beregninger antages at være korrekte, medmindre nogen indsender et svindelbevis for at vise det modsatte. I praksis logger træningsknoden hvert trin i processen – herunder den indledende vægtmatrix, træningsdata og den resulterende vægtmatrix. Hvis loggen også registrerer de tilfældige frø, bliver hele beregningen deterministisk og reproducerbar. Valideringsnoder kan derefter tilfældigt prøve segmenter af træningsloggen og verificere dem. Hvis der opdages uoverensstemmelser, mister træningsnoden sin indsats. Denne metode har den laveste beregningsomkostninger: den kræver ikke dyre nulkundskabsbevisgenerering, og i modsætning til konsensusbaseret validering skal kun tilfældigt udvalgte dele af beregningen verificeres igen. Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case. For store modeller er uddannelse ikke kun ikke-triviel på grund af de høje beregningsmæssige krav, men kørslen af modellen (inference) er også udfordrende. Da kørsel af et neuralt netværk fungerer på samme måde som under træning (inference er fremad faser, mens træning involverer mange fremad og bagud faser), optimistisk decentraliseret machine learning kan også anvendes her.
Hvordan blockchain kan støtte oprettelsen af åbne datasæt
På den ene side gør decentraliseret lagring det muligt at lagre store mængder data med et niveau af sikkerhed sammenligneligt med blockchain-lagring. På den anden side kan blockchain give incitamentssystemet og styringslagret til decentraliseret lagring. Et godt eksempel er Ethereum Swarm, som ikke kunne fungere uden en blockchain, da incitamentssystemet - afgørende for netværkets optimale drift - implementeres gennem smarte kontrakter, der kører på blockchain.
Decentraliseret uddannelse
Validering baseret på konsensus
Nul viden beviser
Optimistisk decentraliseret maskinindlæring
Den decentraliserede inference
Jeg tror på, at vi på lang sigt vil være i stand til at køre sådanne modeller lokalt - eller i det mindste inden for privatlejede betroede miljøer.
Konklusion
På nuværende tidspunkt er det klart for de fleste mennesker, at AI vil bringe revolutionerende ændringer. Det vil omforme vores verden på måder, vi næppe kan forestille os - og det er uden at nævne virkningen af humanoide robotter. Hvad er absolut afgørende er, hvem der har magten over AI. Vil det forblive centraliseret i hænderne på nogle få store virksomheder, eller vil det blive et fælles offentligt gode, der gavner hele menneskeheden?
Dette gør et spørgsmål centralt for vores fremtid: Vil virkelig decentraliseret AI dukke op?