Bài viết mới

Bạn không sở hữu dữ liệu của bạn, nhưng AI làm – và đó là vấn đề

từ tác giả Laszlo Fazekas8m2025/04/14
Read on Terminal Reader

dài quá đọc không nổi

Khám phá cách blockchain có thể giúp phân quyền và dân chủ hóa AI thông qua dữ liệu mở, lưu trữ phi tập trung và quản trị dựa trên cộng đồng.
featured image - Bạn không sở hữu dữ liệu của bạn, nhưng AI làm – và đó là vấn đề
Laszlo Fazekas HackerNoon profile picture

Rất ít người thực sự hiểu sự thay đổi cách mạng diễn ra trước mắt họ khi nói đến AI.Không chỉ là các công cụ và phần mềm của chúng tôi đã trở nên thông minh hơn - đó là chúng tôi đã bắt đầu phát triển phần mềm theo một cách hoàn toàn mới.


Điều này là dễ hiểu, tất nhiên, vì không có bất kỳ thay đổi đáng kể nào trong phần cứng hoặc phần mềm. các chương trình của chúng tôi vẫn chạy trên CPU và GPU kỹ thuật số, và chúng vẫn được viết bằng các ngôn ngữ lập trình truyền thống như Python.


It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2GrokLLaMA


Trong một hệ thống trí tuệ nhân tạo, mã thời gian chạy chỉ là một phần nhỏ của hệ thống - kiến thức và trí tuệ thực sự đến từ bộ dữ liệu được sử dụng để đào tạo. Data là mã nguồn mới!

Trong một hệ thống trí tuệ nhân tạo, mã thời gian chạy chỉ là một phần nhỏ của hệ thống - kiến thức và thông minh thực sự đến từ bộ dữ liệu được sử dụng để đào tạo. Data là mã nguồn mới!

Data là mã nguồn mới!


Đó chính xác là lý do tại sao loại phần mềm mới này được đặt tên là Software 2.0 bởi Andrej Karpathy – và tôi nghĩ đó là một cái tên rất phù hợp.

Phần mềm 2.0

Trọng lượng mở ≠ nguồn mở

Có một số mô hình mã nguồn mở có sẵn miễn phí mà bất cứ ai cũng có thể tải xuống, chạy hoặc thậm chí sửa đổi. ví dụ bao gồm LLaMA, Grok, và mô hình DeepSeek Trung Quốc gần đây được thảo luận nhiều.


Những mô hình này thường bao gồm một vài tập tin Python và một số ma trận trọng lượng lớn (mỗi có kích thước vài gigabyte).Mặc dù đúng là những mô hình này có thể được phát triển hơn nữa - tinh chỉnh, định lượng, chưng cất, v.v. - chúng vẫn không thể thực sự được coi là mã nguồn mở theo nghĩa cổ điển.


Nó là chính xác hơn để gọi những mô hình mở trọng lượng hơn là các mô hình mã nguồn mở, vì các thành phần thực sự có giá trị - dữ liệu đào tạo - vẫn còn trong tay của các công ty xuất bản (Meta, xAI, v.v.).

các mô hình trọng lượng mở


AI nguồn mở thực sự được xây dựng trên dữ liệu mở.

True open-source AI được xây dựng trên dữ liệu mở.


Ai sở hữu dữ liệu?

Các mô hình ngôn ngữ lớn thường được xây dựng bằng cách tạo ra một mô hình nền tảng, sau đó được điều chỉnh tốt cho một mục đích cụ thể (ví dụ, trò chuyện, như với ChatGPT). mô hình nền tảng này được đào tạo dựa trên dữ liệu do nhân loại tạo ra và được cung cấp công khai - thông qua các trang web, sách, video YouTube và phương tiện truyền thông xã hội.mô hình nền tảng


Vì lý do này, nhiều dịch vụ đã quyết định cấm các nhà phát triển mô hình AI sử dụng nội dung của họ.



Cá nhân, tôi không hoàn toàn đồng ý với cách tiếp cận này, vì tôi tin rằng nó cản trở sự tiến bộ. tôi sẽ rất thích một mô hình sử dụng công bằng cho phép dữ liệu có sẵn công khai được sử dụng cho đào tạo AI - với điều kiện rằng tập hợp dữ liệu và mô hình kết quả phải được cung cấp miễn phí để đổi lấy.

Mô hình sử dụng công bằng


Kể từ khi không có khuôn khổ pháp lý như thế này hiện nay, và không có động lực cho các công ty AI phát triển các mô hình nguồn mở thực sự, trách nhiệm này thuộc về cộng đồng.

Cơ sở lưu trữ phi tập trung – ngôi nhà lý tưởng cho các tập dữ liệu mở

Nhưng một tập dữ liệu mở được xây dựng bởi một cộng đồng toàn cầu thực sự trông như thế nào? Đó là một câu hỏi tầm thường, vì có những khác biệt ý thức hệ và văn hóa đáng kể giữa mọi người ở các khu vực khác nhau trên thế giới. Vì lý do này, không thể tạo ra một tập dữ liệu duy nhất từ kiến thức toàn cầu có sẵn công khai mà mọi người sẽ đồng ý.


Với những tiêu chí này, lựa chọn tốt nhất là một hệ thống lưu trữ phi tập trung không thay đổi, chẳng hạn như IPFS hoặc Ethereum Swarm. Các giải pháp này sử dụng địa chỉ nội dung (nơi địa chỉ của dữ liệu là một hash được tạo ra từ nội dung của nó), làm cho việc sửa đổi nội dung không được ủy quyền hầu như không thể.IPFS Cập nhậtTrang chủ » Ethereum Swarm


Những hệ thống này có một tính năng cực kỳ hữu ích khác: chúng lưu trữ nội dung trong các khối. Vì địa chỉ của một phần nội dung được lấy từ hash của nó, nếu cùng một khối xuất hiện trong nhiều tệp, nó chỉ cần được lưu trữ một lần. Bằng cách này, cả IPFS và Swarm hoạt động tương tự như một kho lưu trữ Git, nơi phiên bản hóa là tự động, và forking là rẻ. Điều này là lý tưởng trong trường hợp chúng ta muốn lưu trữ nhiều tập dữ liệu chỉ khác nhau một chút (ví dụ, ít hơn 1%). Nếu ai đó không đồng ý với nội dung của một tập dữ liệu, họ có thể tạo ra một phiên bản mới mà không cần phải làm một bản sao đầy đủ - chỉ những thay đổi được lưu trữ. Cũng giống như khi chúng ta fork một dự án trênDịch vụ lưu trữ Git

Làm thế nào blockchain có thể hỗ trợ việc tạo ra các tập dữ liệu mở

Blockchain và lưu trữ phi tập trung bổ sung tốt cho nhau. Một mặt, lưu trữ phi tập trung cho phép lưu trữ một lượng lớn dữ liệu với mức độ bảo mật tương đương với lưu trữ blockchain. mặt khác, blockchain có thể cung cấp hệ thống khuyến khích và lớp quản trị cho lưu trữ phi tập trung. Một ví dụ tốt là Ethereum Swarm, không thể hoạt động mà không có blockchain, vì hệ thống khuyến khích của nó - cần thiết cho hoạt động tối ưu của mạng - được thực hiện thông qua các hợp đồng thông minh chạy trên blockchain.


Trong trường hợp các tập dữ liệu mở, các DAO dựa trên blockchain có thể quyết định những gì được bao gồm trong một tập dữ liệu. Hệ thống có thể hoạt động tương tự như Wikipedia, nơi các quản trị viên đảm bảo rằng thông tin giả không đưa nó vào bách khoa. Tất nhiên, nó thường không rõ ràng những gì được tính là thông tin giả. Wikipedia không có giải pháp thực sự cho vấn đề này - nhưng trong một hệ thống phi tập trung, dựa trên blockchain, rãnh đi vào chơi.


Nếu ai đó không đồng ý với nội dung của một tập dữ liệu, họ có thể tạo fork của riêng họ và khởi động một DAO mới để quản lý phiên bản thay thế.

Giáo dục phi tập trung

Nếu dữ liệu là mã nguồn mới, thì trong trường hợp phần mềm 2.0 (tính năng trí tuệ nhân tạo), đào tạo tương đương với việc biên soạn chương trình.Trong phát triển phần mềm truyền thống, việc biên soạn này được thực hiện tại địa phương bởi các nhà phát triển trên máy tính của họ.Tuy nhiên, trong các hệ thống AI, đào tạo là một nhiệm vụ cực kỳ năng lượng và đòi hỏi nhiều tính toán.


Một lựa chọn là cộng đồng có thể huy động tiền và cho thuê năng lượng tính toán từ nhà cung cấp điện toán đám mây để đào tạo tập trung.Một khả năng khác là đào tạo phi tập trung, nơi các thành viên quyên góp năng lực tính toán miễn phí (như một lợi ích công cộng) hoặc để đổi lấy bồi thường.


However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.

Exo LabsDiLoCo


Một thách thức khác - phổ biến cho tất cả các hệ thống phi tập trung mở (blockchains, lưu trữ phi tập trung, v.v.) - là vấn đề trust. Vì bất cứ ai có thể tự do đóng góp các thiết bị của riêng họ vào hệ thống, không có gì đảm bảo rằng họ sẽ hành động một cách trung thực.Lời bài hát: Trust


Trong các hệ thống này, sự tin tưởng được thay thế bằng các bảo đảm tính toán.Chúng ta càng muốn có nhiều bảo mật trong một mạng lưới các nút không đáng tin cậy, sức mạnh tính toán được yêu cầu nhiều hơn.Một ví dụ tốt về điều này là blockchain, nơi mỗi nút phát hành một khối mới cũng xác nhận tất cả các tính toán trong chuỗi dẫn đến nó.


Tuy nhiên, cách tiếp cận này không hoạt động cho đào tạo AI, vì vậy chúng ta phải khám phá các giải pháp khác.

Xác nhận dựa trên sự đồng thuận

Một cách tiếp cận là có mỗi tính toán được thực hiện bởi nhiều (ví dụ, ba) các nút được chọn ngẫu nhiên. Nếu kết quả không phù hợp, nút không trung thực mất tiền gửi của nó. Ưu điểm của phương pháp này là nó cung cấp bảo mật tương đối cao. Nhược điểm là nó tăng gấp ba lần sức mạnh tính toán cần thiết.

Bằng chứng Zero-Knowledge

Với công nghệ Zero-knowledge proof (ZKP), người ta có thể chứng minh rằng một tính toán đã được thực hiện - và làm như vậy theo cách mà bản thân bằng chứng là rẻ để xác minh. Kỹ thuật này được sử dụng trong các hệ thống như zkRollups, nơi một zkSNARK chứng minh rằng các giao dịch hợp lệ đã được thực hiện trên một chuỗi Layer 2. Nhược điểm là việc tạo ra bằng chứng là tốn kém về mặt tính toán, đặc biệt là khi số lần nhân trong tính toán tăng lên. Điều này có nghĩa là với công nghệ ZKP hiện tại, đào tạo các mô hình AI theo cách này sẽ đòi hỏi sức mạnh tính toán lớn hơn.

Tối ưu hóa học máy phi tập trung

Học máy phi tập trung lạc quan hoạt động tương tự như các rollup lạc quan. Máy tính được giả định là chính xác trừ khi ai đó gửi bằng chứng gian lận để chứng minh khác. Trong thực tế, nút đào tạo ghi lại từng bước của quá trình - bao gồm ma trận trọng lượng ban đầu, dữ liệu đào tạo và ma trận trọng lượng kết quả. Nếu nhật ký cũng ghi lại các hạt giống ngẫu nhiên, toàn bộ tính toán trở nên xác định và có thể tái tạo.


Các nút xác thực sau đó có thể lấy mẫu ngẫu nhiên các phân đoạn của nhật ký đào tạo và xác minh chúng. Nếu bất kỳ sự không nhất quán nào được tìm thấy, nút đào tạo mất vai trò của nó. Phương pháp này có chi phí tính toán thấp nhất: nó không đòi hỏi phải tạo ra bằng chứng kiến thức không tốn kém, và không giống như xác nhận dựa trên sự đồng thuận, chỉ những phần được lựa chọn ngẫu nhiên của tính toán cần được xác minh lại.


Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.

Aleph Cloud

Dân trí phân cấp

Đối với các mô hình quy mô lớn, không chỉ việc đào tạo không phải là tầm thường do nhu cầu tính toán cao mà việc chạy mô hình (lập luận) cũng là một thách thức.Điều này đặc biệt đúng đối với các mô hình lý luận, nơi kết quả chỉ xuất hiện sau nhiều bước tiếp theo - có nghĩa là tổng công suất tính toán cần thiết cho kết luận có thể vượt xa công suất đào tạo.


Kể từ khi chạy một mạng lưới thần kinh hoạt động theo cách tương tự như trong quá trình đào tạo (định nghĩa là giai đoạn phía trước, trong khi đào tạo liên quan đến nhiều giai đoạn phía trước và phía sau), học máy phi tập trung lạc quan cũng có thể được áp dụng ở đây.


Thách thức chính trong bối cảnh này là quyền riêng tư.Các công nghệ như mã hóa đồng tính và tính toán đa phần (MPC) có thể giúp bảo vệ dữ liệu cá nhân.Tuy nhiên, hiệu suất phần cứng tiếp tục tăng lên theo cấp số nhân, và các kỹ thuật mới - chẳng hạn như mạng thần kinh 1.5 bit và mô hình phân tán Mixture-of-Experts (MoE) như DeepSeek - đang ngày càng làm cho các mạng này có thể chạy tại địa phương.


Tôi tin rằng trong dài hạn, chúng tôi sẽ có thể chạy các mô hình như vậy tại địa phương - hoặc ít nhất là trong các môi trường đáng tin cậy được thuê tư nhân.

Đề tài

Bây giờ, nó rõ ràng với hầu hết mọi người rằng AI sẽ mang lại những thay đổi mang tính cách mạng. Nó sẽ định hình lại thế giới của chúng ta theo những cách mà chúng ta khó có thể tưởng tượng - và đó là mà không kể đến tác động của robot nhân tạo. Điều hoàn toàn quan trọng là ai nắm quyền lực trên AI. Liệu nó sẽ vẫn tập trung trong tay một vài tập đoàn lớn, hoặc nó sẽ trở thành một lợi ích công cộng chung có lợi cho toàn nhân loại?


Điều này làm cho một câu hỏi trung tâm cho tương lai của chúng ta: AI phi tập trung thực sự sẽ xuất hiện?


Xây dựng một hệ thống như vậy đòi hỏi nhiều hơn chỉ là đổi mới kỹ thuật - nó đòi hỏi các bộ dữ liệu mở, lưu trữ phi tập trung, quản trị dựa trên blockchain, và các cơ chế khuyến khích cho phép cộng đồng đóng góp và cộng tác tự do.


Nếu chúng tôi thành công, chúng tôi sẽ không chỉ dân chủ hóa AI - chúng tôi sẽ đặt nền tảng cho một cộng đồng kỹ thuật số mới, nơi mà bản thân trí tuệ được tạo ra, minh bạch và mở cho tất cả mọi người.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks