Non posúes os teus datos, pero a IA o fai -e ese é o problema

Poucas persoas entenden realmente o cambio revolucionario que se desenvolve diante dos seus ollos cando se trata de IA. Non é só que as nosas ferramentas e software se fixeron máis intelixentes - é que comezamos a desenvolver software dun xeito completamente novo.

Isto é comprensible, por suposto, xa que non houbo ningún cambio dramático en hardware ou software.Os nosos programas aínda se executan en CPUs e GPUs dixitais, e aínda están escritos en linguas de programación tradicionais como Python.

It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2 Grok LLaMA

Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para a formación. Data é o novo código fonte!

Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para a formación. Data é o novo código fonte!

Os datos son o novo código fonte!

É precisamente por iso que esta nova forma de software foi chamada Software 2.0 por Andrej Karpathy - e creo que é un nome moi axeitado.

Software 2.0 Páxina web

Peso aberto ≠ código aberto

Hai varios modelos de código aberto dispoñibles libremente que calquera pode descargar, executar ou mesmo modificar.Exemplos inclúen LLaMA, Grok, e o recentemente discutido modelo chinés DeepSeek.

Estes modelos adoitan consistir en algúns arquivos Python e varias matrices de peso masivo (cada un con varios gigabytes de tamaño).Aínda que é certo que estes modelos poden ser máis desenvolvidos -finamente axustados, cuantizados, destilados e así por diante- aínda non se poden considerar verdadeiramente de código aberto no sentido clásico.

É máis preciso chamar estes modelos de peso aberto en vez de modelos de código aberto, xa que o compoñente verdadeiramente valioso - os datos de formación - permanece nas mans das empresas editoriais (Meta, xAI, etc.).

Modelos de peso aberto

A verdadeira IA de código aberto está construída sobre datos abertos.

A verdadeira IA de código aberto está construída sobre datos abertos.

Quen é o propietario dos datos?

Os grandes modelos de linguaxe adoitan construírse creando primeiro un modelo de fundación, que é finamente axustado para un propósito específico (por exemplo, chat, como no caso de ChatGPT). Este modelo de fundación está adestrado en datos producidos pola humanidade e está dispoñible publicamente -a través de sitios web, libros, vídeos de YouTube e redes sociais.Modelo de fundación

Por esta razón, moitos servizos decidiron explicitamente prohibir aos desenvolvedores de modelos de IA usar o seu contido.

Persoalmente, non estou totalmente de acordo con este enfoque, xa que creo que impide o progreso. prefiro moito un modelo de uso xusto que permita que os datos dispoñibles publicamente sexan usados para a formación de IA - a condición de que o conxunto de datos e o modelo resultantes sexan liberalmente accesibles a cambio.

Modelo de uso xusto

Dado que actualmente non existe un marco legal como este, e non hai ningún incentivo para que as empresas de IA desenvolvan modelos verdadeiramente de código aberto, esta responsabilidade cae na comunidade.

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Iso está lonxe de ser unha cuestión trivial, xa que hai diferenzas ideolóxicas e culturais significativas entre as persoas en diferentes rexións do mundo.Por esta razón, é imposible crear un único conxunto de datos a partir do coñecemento global dispoñible publicamente que todos estarían de acordo.

Dados estes criterios, a mellor opción é un sistema de almacenamento descentralizado inmutable, como IPFS ou Ethereum Swarm. Estas solucións utilizan o enderezo de contido (onde o enderezo dos datos é un hash xerado a partir do seu contido), o que fai practicamente imposible a modificación non autorizada do contido.IPFS Páxina webEthereum Swarm Páxina oficial

Estes sistemas teñen outra característica extremadamente útil: almacenan contido en bloques. Dado que a dirección dunha peza de contido é derivada do seu hash, se o mesmo bloque aparece en varios ficheiros, só necesita ser almacenado unha vez. Deste xeito, tanto IPFS como Swarm funcionan de forma similar a un repositorio Git, onde a versión é automática e o forking é barato. Isto é ideal nos casos en que queremos almacenar varios conxuntos de datos que só difiren lixeiramente (por exemplo, por menos do 1%). Se alguén non está de acordo co contido dun conxunto de datos, poden crear unha nova versión sen ter que facer unha copia completa - só se almacenan os cambios. Exactamente como cando forcamos un proxecto en GitHub para modificar algo.

O repositorio de Git

Como a blockchain pode apoiar a creación de conxuntos de datos abertos

Por unha banda, o almacenamento descentralizado permite almacenar grandes cantidades de datos cun nivel de seguridade comparable ao almacenamento blockchain. Por outra banda, a blockchain pode proporcionar o sistema de incentivo e a capa de goberno para o almacenamento descentralizado. Un bo exemplo é Ethereum Swarm, que non podería funcionar sen unha blockchain, xa que o seu sistema de incentivo - esencial para o funcionamento óptimo da rede - é implementado a través de contratos intelixentes que funcionan na blockchain.

No caso de conxuntos de datos abertos, os DAO baseados en blockchain poderían decidir o que se inclúe nun conxunto de datos. O sistema podería funcionar de xeito similar a Wikipedia, onde os administradores aseguran que a información falsa non a faga entrar na enciclopedia.

Se alguén non está de acordo co contido dun conxunto de datos, pode crear a súa propia forca e lanzar un novo DAO para xestionar a versión alternativa.

Formación descentralizada

Se os datos son o novo código fonte, entón no caso do Software 2.0 (intelixencia artificial), o adestramento é equivalente á compilación do programa.No desenvolvemento de software tradicional, esta compilación faise localmente polos desenvolvedores nas súas propias máquinas.

Outra posibilidade é a formación descentralizada, onde os membros doan capacidade de computación gratuíta (como un ben público) ou a cambio de compensación.

However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.

Exo Labs DiLoCo

Outro desafío - común a todos os sistemas descentralizados abertos (blockchains, almacenamento descentralizado, etc.) - é a cuestión de trust. Como calquera pode contribuír libremente os seus propios dispositivos ao sistema, non hai garantía de que actuarán honestamente.confianza

Nestes sistemas, a confianza é substituída por garantías computacionais.Canto máis seguridade queiramos nunha rede de nodos non confiables, máis poder computacional é necesario.Un bo exemplo disto é blockchain, onde cada nodo que publica un novo bloque tamén valida todos os cálculos na cadea que levan ata el.

Este enfoque, con todo, non funciona para a formación de IA, polo que debemos explorar outras solucións.

Validación baseada no consenso

Unha aproximación é ter cada cálculo realizado por múltiples (por exemplo, tres) nodos seleccionados aleatoriamente. Se os resultados non coinciden, o nodo deshonesto perde o seu depósito.A vantaxe deste método é que ofrece unha seguridade relativamente alta.

Probas de coñecemento cero

Con tecnoloxía de proba de coñecemento cero (ZKP), pódese probar que se realizou un cálculo - e facelo dun xeito que a proba en si é barata de verificar. Esta técnica é utilizada en sistemas como zkRollups, onde un zkSNARK demostra que as transaccións válidas foron executadas nunha cadea Layer 2. A desvantaxe é que xerar a proba é computacionalmente caro, especialmente como o número de multiplicacións na computación aumenta. Isto significa que coa tecnoloxía actual ZKP, o adestramento de modelos de IA desta forma requiriría moito máis poder de computación. Aínda así, os ZKPs son unha área activamente investigada, e no futuro, poden converterse en suficientemente eficientes para o adestramento distribuído.

Aprendizaxe automática optimista e descentralizada

A aprendizaxe automática descentralizada optimista funciona de xeito semellante aos rollups optimistas.A computación presúmese correcta a menos que alguén presente unha proba de fraude para demostrar o contrario.Na práctica, o nodo de adestramento rexistra cada paso do proceso -incluíndo a matriz de peso inicial, os datos de adestramento e a matriz de peso resultante.Se o rexistro tamén rexistra as sementes aleatorias, todo o cálculo faise determinista e reproducible.

Os nodos de validación poden, a continuación, mostrar aleatoriamente segmentos do rexistro de adestramento e verificalos. Se se atopan inconsistencias, o nodo de adestramento perde a súa aposta. Este método ten o menor custo de cálculo: non require xeración de probas de coñecemento cero caras e, a diferenza da validación baseada no consenso, só deben ser revertidas partes aleatoriamente seleccionadas da computación.

Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.

Aleph Cloud

Inferencia descentralizada

Para modelos de gran escala, non só o adestramento non é trivial debido ás altas esixencias computacionais, senón que a execución do modelo (inferencia) tamén é desafiante. Isto é especialmente certo para modelos de razoamento, onde os resultados só aparecen despois de múltiples pases adiantados consecutivos - o que significa que o poder computacional total necesario para a inferencia pode exceder moito o adestramento.

Dado que a execución dunha rede neural funciona do mesmo xeito que durante o adestramento (a inferencia é fases adiante, mentres que o adestramento implica moitas fases adiante e atrás), aquí tamén se pode aplicar a aprendizaxe automática descentralizada optimista.

As tecnoloxías como a encriptación homomórfica e a computación multiparte (MPC) poden axudar a protexer os datos privados. Ao mesmo tempo, o rendemento do hardware continúa crecendo exponencialmente, e as novas tecnoloxías -como as redes neurais de 1,5 bits e os modelos de mestura de expertos (MoE) destilados como DeepSeek- están facendo cada vez máis posible executar estas redes localmente.

Creo que a longo prazo, poderemos executar tales modelos localmente - ou polo menos, dentro de ambientes de confianza alugados privadamente.

Conclusións

De momento, está claro para a maioría da xente que a IA vai traer cambios revolucionarios. vai reformular o noso mundo de maneiras que apenas podemos imaxinar - e iso sen mencionar o impacto dos robots humanoides.O que é absolutamente crucial é quen ten o poder sobre a IA. Quedará centralizado nas mans dunhas poucas grandes corporacións, ou se converterá nun ben público compartido que beneficia a toda a humanidade?

Isto fai que unha pregunta sexa central para o noso futuro: emerxerá realmente a IA descentralizada?

A construción dun sistema como este require máis que simplemente innovación técnica: require conxuntos de datos abertos, almacenamento descentralizado, gobernanza baseada en blockchain e mecanismos de incentivo que permitan ás comunidades contribuír e colaborar libremente.

Se logramos, non só democratizaremos a IA - poñeremos as bases para un novo común dixital, onde a propia intelixencia é co-creada, transparente e aberta a todos.

Non posúes os teus datos, pero a IA o fai -e ese é o problema

Demasiado longo; Ler

Peso aberto ≠ código aberto

Quen é o propietario dos datos?

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Como a blockchain pode apoiar a creación de conxuntos de datos abertos

Formación descentralizada

Validación baseada no consenso

Probas de coñecemento cero

Aprendizaxe automática optimista e descentralizada

Inferencia descentralizada

Conclusións

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

Non posúes os teus datos, pero a IA o fai -e ese é o problema

Demasiado longo; Ler

Peso aberto ≠ código aberto

Quen é o propietario dos datos?

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Como a blockchain pode apoiar a creación de conxuntos de datos abertos

Formación descentralizada

Validación baseada no consenso

Probas de coñecemento cero

Aprendizaxe automática optimista e descentralizada

Inferencia descentralizada

Conclusións

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics