Non posúes os teus datos, pero a IA o fai -e ese é o problema

Poucas persoas entenden realmente o cambio revolucionario que se desenvolve diante dos seus ollos cando se trata de IA. Non é só que as nosas ferramentas e software se fixeron máis intelixentes - é que comezamos a desenvolver software dun xeito completamente novo.

Isto é comprensible, por suposto, xa que non houbo ningún cambio dramático en hardware ou software.Os nosos programas aínda se executan en CPUs e GPUs dixitais, e aínda están escritos en linguas de programación tradicionais como Python.

Vale a pena botar unha ollada ao código fonte de grandes modelos de linguaxe comoFP-2,Grúas, or Meta’s LáminaMesmo para un laico, unha cousa sorprendente é o curto e relativamente sinxelo que é este código, o que é sorprendente, considerando o amplo coñecemento e intelixencia de resolución de problemas que posúen estes modelos.

que
Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para a formación.
que

Nun sistema de intelixencia artificial, o código de execución é só unha parte marxinal do sistema - o coñecemento e a intelixencia reais veñen do conxunto de datos usado para o adestramento.Data is the new source code!

É precisamente por iso que esta nova forma de software foi chamadaSoftware 2.0 Páxinapor Andrej Karpathy - e creo que é un nome moi axeitado.

Peso aberto ≠ Open Source

Hai varios modelos de código aberto dispoñibles gratuitamente que calquera pode descargar, executar ou mesmo modificar. Exemplos inclúen LLaMA, Grok e o recentemente discutido modelo chinés DeepSeek.

Estes modelos adoitan consistir en algúns arquivos de Python e varias matrices de peso masivo (cada un con varios gigabytes de tamaño).Aínda que é certo que estes modelos poden ser máis desenvolvidos -finamente axustados, cuantizados, destilados e así por diante- aínda non se poden considerar verdadeiramente de código aberto no sentido clásico.

É máis correcto chamarllesopen-weight modelsmáis que modelos de código aberto, xa que o compoñente verdadeiramente valioso -os datos de formación- permanece en mans das empresas editoriais (Meta, xAI, etc.).

que
A verdadeira IA de código aberto está construída sobre datos abertos.
que

A verdadeira IA de código aberto está construída sobre datos abertos.

Quen é o propietario dos datos?

Os grandes modelos de linguaxe son tipicamente construídos creando primeiro unhamodelo de fundaciónEste modelo de fundación está adestrado en datos producidos pola humanidade e feito dispoñible publicamente - a través de sitios web, libros, vídeos de YouTube e redes sociais. dado que esta riqueza de datos é o resultado do noso traballo colectivo, sería lóxico tratar estes conxuntos de datos como recursos de dominio público, accesibles libremente para todos.

For this reason, many services have explicitly decided to prohibit AI model developers from using their content.

Persoalmente, non estou totalmente de acordo con este enfoque, xa que creo que impide o progreso.fair-use modelque permite que os datos dispoñibles publicamente sexan utilizados para a formación de IA, a condición de que o conxunto de datos e o modelo resultantes sexan liberalmente accesibles a cambio.

Dado que actualmente non existe un marco legal como este, e non hai ningún incentivo para que as empresas de IA desenvolvan modelos verdadeiramente de código aberto, esta responsabilidade cae na comunidade.

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Pero como sería realmente un conxunto de datos aberto construído por unha comunidade global? iso está lonxe de ser unha cuestión trivial, xa que hai diferenzas ideolóxicas e culturais significativas entre as persoas en diferentes rexións do mundo. Por esta razón, é imposible crear un único conxunto de datos a partir do coñecemento global dispoñible publicamente que todos estarían de acordo.

Dados estes criterios, a mellor opción é un sistema de almacenamento descentralizado inmutable, comoIPFSouEthereum SwarmEstas solucións utilizan o enderezo de contido (onde o enderezo dos datos é un hash xerado a partir do seu contido), o que fai que a modificación non autorizada do contido sexa practicamente imposible.

Estes sistemas teñen outra característica extremadamente útil: almacenan contido en bloques. Xa que a dirección dunha peza de contido é derivada do seu hash, se o mesmo bloque aparece en varios ficheiros, só necesita ser almacenado unha vez.Git repository, onde a versión é automática, e forking é barato. Isto é ideal nos casos en que queremos almacenar varios conxuntos de datos que só difiren lixeiramente (por exemplo, por menos de 1%). Se alguén non está de acordo co contido dun conxunto de datos, poden crear unha nova versión sen ter que facer unha copia completa - só os cambios son almacenados. Exactamente como cando forcamos un proxecto en GitHub para modificar algo.

Como o blockchain pode apoiar a creación de conxuntos de datos abertos

Blockchain e almacenamento descentralizado complementan ben. Por unha banda, o almacenamento descentralizado permite almacenar grandes cantidades de datos cun nivel de seguridade comparable ao almacenamento blockchain. Por outra banda, a blockchain pode proporcionar o sistema de incentivo e a capa de goberno para o almacenamento descentralizado. Un bo exemplo é Ethereum Swarm, que non podería funcionar sen unha blockchain, xa que o seu sistema de incentivo - esencial para o funcionamento óptimo da rede - é implementado a través de contratos intelixentes que funcionan na blockchain.

No caso de conxuntos de datos abertos, os DAO baseados en blockchain poderían decidir o que se inclúe nun conxunto de datos. O sistema podería funcionar de xeito similar a Wikipedia, onde os administradores aseguran que a información falsa non a faga entrar na enciclopedia.

Se alguén non está de acordo co contido dun conxunto de datos, pode crear a súa propia forca e lanzar un novo DAO para xestionar a versión alternativa.

Formación descentralizada

Se os datos son o novo código fonte, entón no caso do Software 2.0 (intelixencia artificial), o adestramento é equivalente á compilación do programa.No desenvolvemento de software tradicional, esta compilación faise localmente polos desenvolvedores nas súas propias máquinas.

Outra posibilidade é a formación descentralizada, onde os membros doan capacidade de computación gratuíta (como un ben público) ou a cambio de compensación.

Con todo, o adestramento descentralizado está lonxe de ser unha tarefa trivial. Un desafío é que os grandes modelos non poden ser adestrados nun só nodo - require adestramento multi-nodo, o que require unha comunicación de alto volume entre os nodos. Esta comunicación debe ser optimizada para que o adestramento sexa eficiente. Afortunadamente, varias startups están a traballar neste problema.Exo Labs, que desenvolveu un protocolo chamadodióxido, deseñado para permitir a formación sobre unha rede conectada a Internet de nodos.

Outro desafío - común a todos os sistemas descentralizados abertos (blockchains, almacenamento descentralizado, etc.) - é a cuestión detrustDado que calquera pode contribuír libremente os seus propios dispositivos ao sistema, non hai garantía de que actuarán de forma honesta.Un actor malicioso, por exemplo, podería usar datos non autorizados en lugar do conxunto de datos aprobado polo DAO, "contaminando" o modelo.

Nestes sistemas, a confianza é substituída por garantías computacionais.Canto máis seguridade queiramos nunha rede de nodos non confiables, máis poder computacional é necesario.Un bo exemplo disto é blockchain, onde cada nodo que publica un novo bloque tamén valida todos os cálculos na cadea que o conduce.

Este enfoque, con todo, non funciona para a formación de IA, polo que debemos explorar outras solucións.

Validación baseada no consenso

Un enfoque é ter cada cálculo realizado por múltiples (por exemplo, tres) nodos seleccionados aleatoriamente. Se os resultados non coinciden, o nodo deshonesto perde o seu depósito. A vantaxe deste método é que ofrece unha seguridade relativamente alta.

Probas de coñecemento cero

Coa tecnoloxía de proba de coñecemento cero (ZKP), pódese probar que se realizou un cálculo - e facelo dun xeito que a proba en si é barata de verificar. Esta técnica utilízase en sistemas como zkRollups, onde un zkSNARK demostra que as transaccións válidas foron executadas nunha cadea Layer 2. A desvantaxe é que xerar a proba é computacionalmente caro, especialmente como o número de multiplicacións na computación aumenta. Isto significa que coa tecnoloxía actual ZKP, o adestramento de modelos de IA desta forma requiriría moito máis poder de computación. Aínda así, os ZKPs son unha área activamente investigada, e no futuro, poden chegar a ser suficientemente eficientes para o adestramento distribuído.

Aprendizaxe automática descentralizada

A aprendizaxe automática descentralizada optimista funciona de forma semellante aos rollups optimistas. A computación presúmese correcta a menos que alguén presente unha proba de fraude para demostrar o contrario. Na práctica, o nodo de adestramento rexistra cada paso do proceso, incluíndo a matriz de peso inicial, os datos de adestramento e a matriz de peso resultante. Se o rexistro tamén rexistra as sementes aleatorias, todo o cálculo convértese en determinista e reproducible.

Os nodos de validación poden, a continuación, mostrar aleatoriamente segmentos do rexistro de adestramento e verificalos. Se se atopan inconsistencias, o nodo de adestramento perde a súa aposta. Este método ten o menor custo computacional: non require xeración de probas de coñecemento cero caras e, a diferenza da validación baseada no consenso, só deben ser revertidas partes aleatoriamente seleccionadas do cálculo.

Finalmente, a formación descentralizada require un "mercado de nódulos" - unha plataforma onde os recursos de computación dispoñibles poden ser descubertos e utilizados.A nube de Aleph, que, como outros provedores de nube, ofrece capacidade de computación - pero é unha plataforma descentralizada deseñada para proporcionar servizos de almacenamento, computación e base de datos escalables a través dunha rede de nodos distribuídos. usa un token ERC20 para pagar os servizos, polo que se pode integrar facilmente con outras solucións baseadas en blockchain. nodos Aleph usan ambientes de execución de confianza, polo que a validación é menos relevante neste caso.

Inferencia descentralizada

Para modelos de gran escala, non só o adestramento non é trivial debido ás altas esixencias computacionais, senón que a execución do modelo (inferencia) tamén é desafiante. Isto é especialmente certo para modelos de razoamento, onde os resultados só aparecen despois de múltiples pases adiantados consecutivos - o que significa que o poder computacional total necesario para a inferencia pode exceder moito o adestramento.

Dado que a execución dunha rede neural funciona do mesmo xeito que durante o adestramento (a inferencia é fases adiantadas, mentres que o adestramento implica moitas fases adiante e atrás), aquí tamén se pode aplicar a aprendizaxe automática descentralizada optimista.

Ao mesmo tempo, o rendemento do hardware segue crecendo exponencialmente, e as novas tecnoloxías -como redes neurais de 1,5 bits e modelos de mestura de expertos (MoE) destilados como DeepSeek - están facendo cada vez máis posible executar estas redes localmente.

Creo que a longo prazo, poderemos executar tales modelos localmente - ou polo menos, dentro de ambientes de confianza alugados privadamente.

Conclusión

Polo de agora, está claro para a maioría da xente que a IA vai traer cambios revolucionarios. vai reformular o noso mundo de maneiras que apenas podemos imaxinar - e iso sen nin sequera mencionar o impacto dos robots humanoides.O que é absolutamente crucial é quen ten o poder sobre a IA. Será que permanece centralizado en mans dunhas poucas grandes corporacións, ou será un ben público compartido que beneficia a toda a humanidade?

Isto fai que unha pregunta central para o noso futuro: ¿Estará verdadeiramente descentralizada AI?

A construción dun sistema como este require máis que simplemente innovación técnica: require conxuntos de datos abertos, almacenamento descentralizado, gobernanza baseada en blockchain e mecanismos de incentivo que permitan ás comunidades contribuír e colaborar libremente.

Se logramos, non só democratizaremos a IA, senón que poñeremos as bases para un novo común dixital, onde a propia intelixencia é co-creada, transparente e aberta a todos.

Non posúes os teus datos, pero a IA o fai -e ese é o problema

Demasiado longo; Ler

Peso aberto ≠ Open Source

Quen é o propietario dos datos?

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Como o blockchain pode apoiar a creación de conxuntos de datos abertos

Formación descentralizada

Validación baseada no consenso

Probas de coñecemento cero

Aprendizaxe automática descentralizada

Inferencia descentralizada

Conclusión

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

Categories

Trending Topics

Non posúes os teus datos, pero a IA o fai -e ese é o problema

Demasiado longo; Ler

Peso aberto ≠ Open Source

Quen é o propietario dos datos?

Almacenamento descentralizado - o fogar ideal para conxuntos de datos abertos

Como o blockchain pode apoiar a creación de conxuntos de datos abertos

Formación descentralizada

Validación baseada no consenso

Probas de coñecemento cero

Aprendizaxe automática descentralizada

Inferencia descentralizada

Conclusión

About Author

Etiquetas colgantes

ESTE ARTIGO FOI PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics