Isto é comprensible, por suposto, xa que non houbo ningún cambio dramático en hardware ou software.Os nosos programas aínda se executan en CPUs e GPUs dixitais, e aínda están escritos en linguas de programación tradicionais como Python.
It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.
GPT-2GrokLLaMA
Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para a formación. Data é o novo código fonte!
Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para a formación. Data é o novo código fonte!
Os datos son o novo código fonte!
É precisamente por iso que esta nova forma de software foi chamada Software 2.0 por Andrej Karpathy - e creo que é un nome moi axeitado.
Software 2.0 Páxina webPeso aberto ≠ código aberto
Hai varios modelos de código aberto dispoñibles libremente que calquera pode descargar, executar ou mesmo modificar.Exemplos inclúen LLaMA, Grok, e o recentemente discutido modelo chinés DeepSeek.
Estes modelos adoitan consistir en algúns arquivos Python e varias matrices de peso masivo (cada un con varios gigabytes de tamaño).Aínda que é certo que estes modelos poden ser máis desenvolvidos -finamente axustados, cuantizados, destilados e así por diante- aínda non se poden considerar verdadeiramente de código aberto no sentido clásico.
É máis preciso chamar estes modelos de peso aberto en vez de modelos de código aberto, xa que o compoñente verdadeiramente valioso - os datos de formación - permanece nas mans das empresas editoriais (Meta, xAI, etc.).
Modelos de peso aberto
A verdadeira IA de código aberto está construída sobre datos abertos.
A verdadeira IA de código aberto está construída sobre datos abertos.
Quen é o propietario dos datos?
Os grandes modelos de linguaxe adoitan construírse creando primeiro un modelo de fundación, que é finamente axustado para un propósito específico (por exemplo, chat, como no caso de ChatGPT). Este modelo de fundación está adestrado en datos producidos pola humanidade e está dispoñible publicamente -a través de sitios web, libros, vídeos de YouTube e redes sociais.Modelo de fundación
Dado que actualmente non existe un marco legal como este, e non hai ningún incentivo para que as empresas de IA desenvolvan modelos verdadeiramente de código aberto, esta responsabilidade cae na comunidade.
Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos
Iso está lonxe de ser unha cuestión trivial, xa que hai diferenzas ideolóxicas e culturais significativas entre as persoas en diferentes rexións do mundo.Por esta razón, é imposible crear un único conxunto de datos a partir do coñecemento global dispoñible publicamente que todos estarían de acordo.
Estes sistemas teñen outra característica extremadamente útil: almacenan contido en bloques. Dado que a dirección dunha peza de contido é derivada do seu hash, se o mesmo bloque aparece en varios ficheiros, só necesita ser almacenado unha vez. Deste xeito, tanto IPFS como Swarm funcionan de forma similar a un repositorio Git, onde a versión é automática e o forking é barato. Isto é ideal nos casos en que queremos almacenar varios conxuntos de datos que só difiren lixeiramente (por exemplo, por menos do 1%). Se alguén non está de acordo co contido dun conxunto de datos, poden crear unha nova versión sen ter que facer unha copia completa - só se almacenan os cambios. Exactamente como cando forcamos un proxecto en GitHub para modificar algo.
O repositorio de GitComo a blockchain pode apoiar a creación de conxuntos de datos abertos
Por unha banda, o almacenamento descentralizado permite almacenar grandes cantidades de datos cun nivel de seguridade comparable ao almacenamento blockchain. Por outra banda, a blockchain pode proporcionar o sistema de incentivo e a capa de goberno para o almacenamento descentralizado. Un bo exemplo é Ethereum Swarm, que non podería funcionar sen unha blockchain, xa que o seu sistema de incentivo - esencial para o funcionamento óptimo da rede - é implementado a través de contratos intelixentes que funcionan na blockchain.
No caso de conxuntos de datos abertos, os DAO baseados en blockchain poderían decidir o que se inclúe nun conxunto de datos. O sistema podería funcionar de xeito similar a Wikipedia, onde os administradores aseguran que a información falsa non a faga entrar na enciclopedia.
Se alguén non está de acordo co contido dun conxunto de datos, pode crear a súa propia forca e lanzar un novo DAO para xestionar a versión alternativa.
Formación descentralizada
Se os datos son o novo código fonte, entón no caso do Software 2.0 (intelixencia artificial), o adestramento é equivalente á compilación do programa.No desenvolvemento de software tradicional, esta compilación faise localmente polos desenvolvedores nas súas propias máquinas.
However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.
Exo LabsDiLoCo
Nestes sistemas, a confianza é substituída por garantías computacionais.Canto máis seguridade queiramos nunha rede de nodos non confiables, máis poder computacional é necesario.Un bo exemplo disto é blockchain, onde cada nodo que publica un novo bloque tamén valida todos os cálculos na cadea que levan ata el.
Este enfoque, con todo, non funciona para a formación de IA, polo que debemos explorar outras solucións.
Validación baseada no consenso
Unha aproximación é ter cada cálculo realizado por múltiples (por exemplo, tres) nodos seleccionados aleatoriamente. Se os resultados non coinciden, o nodo deshonesto perde o seu depósito.A vantaxe deste método é que ofrece unha seguridade relativamente alta.
Probas de coñecemento cero
Con tecnoloxía de proba de coñecemento cero (ZKP), pódese probar que se realizou un cálculo - e facelo dun xeito que a proba en si é barata de verificar. Esta técnica é utilizada en sistemas como zkRollups, onde un zkSNARK demostra que as transaccións válidas foron executadas nunha cadea Layer 2. A desvantaxe é que xerar a proba é computacionalmente caro, especialmente como o número de multiplicacións na computación aumenta. Isto significa que coa tecnoloxía actual ZKP, o adestramento de modelos de IA desta forma requiriría moito máis poder de computación. Aínda así, os ZKPs son unha área activamente investigada, e no futuro, poden converterse en suficientemente eficientes para o adestramento distribuído.
Aprendizaxe automática optimista e descentralizada
A aprendizaxe automática descentralizada optimista funciona de xeito semellante aos rollups optimistas.A computación presúmese correcta a menos que alguén presente unha proba de fraude para demostrar o contrario.Na práctica, o nodo de adestramento rexistra cada paso do proceso -incluíndo a matriz de peso inicial, os datos de adestramento e a matriz de peso resultante.Se o rexistro tamén rexistra as sementes aleatorias, todo o cálculo faise determinista e reproducible.
Os nodos de validación poden, a continuación, mostrar aleatoriamente segmentos do rexistro de adestramento e verificalos. Se se atopan inconsistencias, o nodo de adestramento perde a súa aposta. Este método ten o menor custo de cálculo: non require xeración de probas de coñecemento cero caras e, a diferenza da validación baseada no consenso, só deben ser revertidas partes aleatoriamente seleccionadas da computación.
Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.
Aleph CloudInferencia descentralizada
Para modelos de gran escala, non só o adestramento non é trivial debido ás altas esixencias computacionais, senón que a execución do modelo (inferencia) tamén é desafiante. Isto é especialmente certo para modelos de razoamento, onde os resultados só aparecen despois de múltiples pases adiantados consecutivos - o que significa que o poder computacional total necesario para a inferencia pode exceder moito o adestramento.
Dado que a execución dunha rede neural funciona do mesmo xeito que durante o adestramento (a inferencia é fases adiante, mentres que o adestramento implica moitas fases adiante e atrás), aquí tamén se pode aplicar a aprendizaxe automática descentralizada optimista.
Creo que a longo prazo, poderemos executar tales modelos localmente - ou polo menos, dentro de ambientes de confianza alugados privadamente.
Conclusións
De momento, está claro para a maioría da xente que a IA vai traer cambios revolucionarios. vai reformular o noso mundo de maneiras que apenas podemos imaxinar - e iso sen mencionar o impacto dos robots humanoides.O que é absolutamente crucial é quen ten o poder sobre a IA. Quedará centralizado nas mans dunhas poucas grandes corporacións, ou se converterá nun ben público compartido que beneficia a toda a humanidade?
Isto fai que unha pregunta sexa central para o noso futuro: emerxerá realmente a IA descentralizada?