Usted no posee sus datos, pero la IA lo hace, y ese es el problema

Poco gente entiende realmente el cambio revolucionario que se desarrolla frente a sus ojos cuando se trata de IA. No solo nuestras herramientas y software se han vuelto más inteligentes, sino que hemos comenzado a desarrollar software de una manera completamente nueva.

Esto es comprensible, por supuesto, ya que no ha habido ningún cambio dramático en el hardware o el software.Nuestros programas todavía se ejecutan en CPUs y GPUs digitales, y todavía están escritos en lenguajes de programación tradicionales como Python.

It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2 Grok LLaMA

En un sistema de inteligencia artificial, el código de tiempo de ejecución es sólo una parte marginal del sistema - el conocimiento real y la inteligencia provienen del conjunto de datos utilizado para la formación. Data es el nuevo código fuente!

En un sistema de inteligencia artificial, el código de tiempo de ejecución es sólo una parte marginal del sistema: el conocimiento real y la inteligencia provienen del conjunto de datos utilizado para la formación. Los datos son el nuevo código fuente!

Los datos son el nuevo código fuente!

Es precisamente por eso que esta nueva forma de software ha sido llamada Software 2.0 por Andrej Karpathy - y creo que es un nombre muy adecuado.

Software 2.0 Peso abierto ≠ código abierto
Hay varios modelos de código abierto disponibles libremente que cualquier persona puede descargar, ejecutar o incluso modificar.Ejemplos incluyen LLaMA, Grok y el recientemente ampliamente discutido modelo chino DeepSeek.

Estos modelos suelen consistir en unos pocos archivos de Python y varias matrices de peso masivo (cada uno de varios gigabytes de tamaño).Aunque es cierto que estos modelos pueden ser desarrollados más adelante —finamente ajustados, cuantizados, destilados, y así sucesivamente— todavía no pueden ser verdaderamente considerados código abierto en el sentido clásico.

Es más preciso llamar a estos modelos de peso abierto en lugar de modelos de código abierto, ya que el componente verdaderamente valioso - los datos de formación - permanece en manos de las empresas de publicación (Meta, xAI, etc.).
Modelos de peso abierto

La verdadera IA de código abierto se basa en datos abiertos.

La verdadera IA de código abierto se basa en datos abiertos.

¿Quién es el propietario de los datos?
Los grandes modelos de lenguaje suelen ser construidos creando primero un modelo de fundación, que luego se ajusta a un propósito específico (por ejemplo, el chat, como con ChatGPT). Este modelo de fundación está entrenado en datos producidos por la humanidad y se hace público —a través de sitios web, libros, vídeos de YouTube y redes sociales.Modelo de fundación

Por esta razón, muchos servicios han decidido explícitamente prohibir a los desarrolladores de modelos de IA usar su contenido.

Personalmente, no estoy totalmente de acuerdo con este enfoque, ya que creo que obstaculiza el progreso. preferiría mucho un modelo de uso justo que permita que los datos disponibles públicamente se utilicen para la capacitación de IA - a condición de que el conjunto de datos y el modelo resultante se hagan libres de acceso a cambio.
Modelo de uso justo

Dado que actualmente no existe un marco legal como este, y no hay ningún incentivo para que las empresas de IA desarrollen modelos verdaderamente de código abierto, esta responsabilidad pertenece a la comunidad.
Almacenamiento descentralizado: el hogar ideal para los conjuntos de datos abiertos
Pero, ¿qué sería realmente un conjunto de datos abiertos construido por una comunidad global? eso está lejos de ser una pregunta trivial, ya que hay diferencias ideológicas y culturales significativas entre las personas en diferentes regiones del mundo. Por esta razón, es imposible crear un conjunto de datos único a partir de conocimientos globales disponibles públicamente que todos estén de acuerdo.

Teniendo en cuenta estos criterios, la mejor opción es un sistema de almacenamiento descentralizado inmutable, como IPFS o Ethereum Swarm. Estas soluciones utilizan la dirección de contenido (donde la dirección de los datos es un hash generado a partir de su contenido), lo que hace que la modificación de contenido no autorizada sea prácticamente imposible.IPFS Ethereum Swarm Contenido

Estos sistemas tienen otra característica extremadamente útil: almacenan contenido en bloques. Dado que la dirección de una pieza de contenido se deriva de su hash, si el mismo bloque aparece en varios archivos, sólo necesita ser almacenado una vez. De esta manera, tanto IPFS como Swarm funcionan de manera similar a un repositorio Git, donde la versión es automática, y el forking es barato. Esto es ideal en casos donde queremos almacenar múltiples conjuntos de datos que difieren sólo ligeramente (por ejemplo, por menos de 1%). Si alguien no está de acuerdo con el contenido de un conjunto de datos, pueden crear una nueva versión sin tener que hacer una copia completa - sólo se almacenan los cambios. Exactamente como cuando forcamos un proyecto en GitHub para modificar algo.
Repositorio de Git
Cómo la blockchain puede apoyar la creación de conjuntos de datos abiertos
Blockchain y almacenamiento descentralizado se complementan bien. Por un lado, el almacenamiento descentralizado permite almacenar grandes cantidades de datos con un nivel de seguridad comparable al almacenamiento en blockchain. Por otro lado, el blockchain puede proporcionar el sistema de incentivos y la capa de gobernanza para el almacenamiento descentralizado. Un buen ejemplo es Ethereum Swarm, que no podría funcionar sin un blockchain, ya que su sistema de incentivos - esencial para el funcionamiento óptimo de la red - se implementa a través de contratos inteligentes que funcionan en el blockchain.

En el caso de los conjuntos de datos abiertos, los DAO basados en blockchain podrían decidir qué se incluye en un conjunto de datos.El sistema podría funcionar de manera similar a Wikipedia, donde los administradores aseguran que la información falsa no la haga entrar en la enciclopedia.

Si alguien no está de acuerdo con el contenido de un conjunto de datos, puede crear su propio fork y lanzar un nuevo DAO para administrar la versión alternativa.
Formación descentralizada
Si los datos son el nuevo código fuente, entonces en el caso de Software 2.0 (inteligencia artificial), el entrenamiento es equivalente a compilar el programa.En el desarrollo de software tradicional, esta compilación es realizada localmente por los desarrolladores en sus propias máquinas.

Una opción es para que la comunidad reúna fondos y alquile energía de computación de un proveedor de nube para la capacitación centralizada.Otra posibilidad es la capacitación descentralizada, donde los miembros donan capacidad de computación de forma gratuita (como un bien público) o a cambio de una compensación.

However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.
Exo Labs DiLoCo

Otro desafío - común a todos los sistemas descentralizados abiertos (blockchains, almacenamiento descentralizado, etc.) - es el problema de la confianza . Dado que cualquiera puede contribuir libremente sus propios dispositivos al sistema, no hay garantía de que actuarán de forma honesta.confianza

En estos sistemas, la confianza se sustituye por garantías computacionales.Cuanto más seguridad queremos en una red de nodos no confiables, más potencia computacional se requiere.Un buen ejemplo de esto es blockchain, donde cada nodo que publica un nuevo bloque también valida todos los cálculos en la cadena que lo conduce.

Este enfoque, sin embargo, no funciona para la formación de IA, por lo que debemos explorar otras soluciones.
Validación basada en el consenso
Un enfoque es tener cada cálculo realizado por múltiples (por ejemplo, tres) nodos seleccionados aleatoriamente. Si los resultados no coinciden, el nodo deshonesto pierde su depósito.La ventaja de este método es que proporciona una seguridad relativamente alta.
Pruebas de conocimiento cero
Con la tecnología de prueba de conocimiento cero (ZKP), uno puede probar que se realizó un cálculo —y hacerlo de una manera que la prueba en sí es barata de verificar. Esta técnica se utiliza en sistemas como zkRollups, donde un zkSNARK demuestra que se ejecutaron transacciones válidas en una cadena de capa 2. La desventaja es que generar la prueba es computacionalmente costosa, especialmente a medida que aumenta el número de multiplicaciones en la computación. Esto significa que con la tecnología actual de ZKP, el entrenamiento de modelos de IA de esta manera requeriría mucho más poder de computación.
Optimismo en el aprendizaje automático descentralizado
El aprendizaje automático descentralizado optimista funciona de manera similar a los rollups optimistas.La computación se asume correcta a menos que alguien presente una prueba de fraude para demostrar lo contrario.En la práctica, el nodo de entrenamiento registra cada paso del proceso, incluyendo la matriz de peso inicial, los datos de entrenamiento y la matriz de peso resultante.Si el registro también registra las semillas aleatorias, todo el cálculo se vuelve determinista y reproducible.

Los nodos de validación pueden luego obtener muestras aleatorias de segmentos del registro de entrenamiento y verificarlos. Si se encuentran inconsistencias, el nodo de entrenamiento pierde su participación. Este método tiene el menor coste de cálculo: no requiere una generación de prueba de conocimiento cero costosa, y a diferencia de la validación basada en consenso, solo se deben volver a verificar partes aleatoriamente seleccionadas del cálculo.

Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.
Aleph Cloud
Inferencia descentralizada
Para los modelos a gran escala, no sólo el entrenamiento no es trivial debido a las altas exigencias computacionales, sino que también es desafiante ejecutar el modelo (inferencia). Esto es especialmente cierto para los modelos de razonamiento, donde los resultados surgen sólo después de múltiples pases adicionales consecutivos, lo que significa que el poder computacional total requerido para la inferencia puede superar en gran medida el del entrenamiento.

Dado que la ejecución de una red neural funciona de la misma manera que durante el entrenamiento (la inferencia es fases adelante, mientras que el entrenamiento involucra muchas fases adelante y atrás), el aprendizaje automático descentralizado optimista también se puede aplicar aquí.

El principal desafío en este contexto es la privacidad.Tecnologías como la encriptación homomórfica y la computación multiparte (MPC) pueden ayudar a proteger los datos privados.Al mismo tiempo, el rendimiento del hardware continúa creciendo exponencialmente, y las nuevas técnicas -como las redes neuronales de 1,5 bits y los modelos de Mixture-of-Experts (MoE) destilados como DeepSeek - están haciendo cada vez más posible ejecutar estas redes localmente.

Creo que a largo plazo, podremos ejecutar tales modelos localmente - o al menos, dentro de entornos de confianza alquilados en privado.
Conclusiones
Por ahora, es claro para la mayoría de la gente que la IA va a traer cambios revolucionarios. ¿reformará nuestro mundo de maneras que difícilmente podemos imaginar —y eso sin mencionar el impacto de los robots humanoides. Lo que es absolutamente crucial es quién tiene el poder sobre la IA. ¿Quedará centralizado en manos de unas pocas grandes corporaciones, o se convertirá en un bien público compartido que beneficia a toda la humanidad?

Esto hace que una pregunta sea central para nuestro futuro: ¿va a surgir realmente la IA descentralizada?

La construcción de un sistema de este tipo requiere más que simplemente innovación técnica: requiere conjuntos de datos abiertos, almacenamiento descentralizado, gobernanza basada en blockchain y mecanismos de incentivo que permitan a las comunidades contribuir y colaborar libremente.

Si logramos, no solo democratizaremos la IA, sino que pondremos las bases para un nuevo común digital, donde la inteligencia misma es co-creada, transparente y abierta a todos.

Usted no posee sus datos, pero la IA lo hace, y ese es el problema

Demasiado Largo; Para Leer

Peso abierto ≠ código abierto

¿Quién es el propietario de los datos?

Almacenamiento descentralizado: el hogar ideal para los conjuntos de datos abiertos

Cómo la blockchain puede apoyar la creación de conjuntos de datos abiertos

Formación descentralizada

Validación basada en el consenso

Pruebas de conocimiento cero

Optimismo en el aprendizaje automático descentralizado

Inferencia descentralizada

Conclusiones

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

Categories

Trending Topics

Usted no posee sus datos, pero la IA lo hace, y ese es el problema

Demasiado Largo; Para Leer

Peso abierto ≠ código abierto

¿Quién es el propietario de los datos?

Almacenamiento descentralizado: el hogar ideal para los conjuntos de datos abiertos

Cómo la blockchain puede apoyar la creación de conjuntos de datos abiertos

Formación descentralizada

Validación basada en el consenso

Pruebas de conocimiento cero

Optimismo en el aprendizaje automático descentralizado

Inferencia descentralizada

Conclusiones

About Author

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN...

HISTORIAS RELACIONADAS

Categories

Trending Topics