You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

AIに関して目の前で起こっている革命的な転換を本当に理解している人は少ないが、私たちのツールとソフトウェアがよりスマートになっただけでなく、私たちはまったく新しい方法でソフトウェアを開発し始めた。

もちろん、ハードウェアやソフトウェアに劇的な変化はなかったので、これは理解可能です。私たちのプログラムはまだデジタルCPUやGPUで動作し、Pythonのような伝統的なプログラミング言語で書かれています。

It’s worth taking a look at the source code of large language models like GPT-2, Grok, or Meta’s LLaMA. Even to a layperson, one striking thing is how short and relatively simple this code is — which is surprising, considering the vast knowledge and problem-solving intelligence these models possess. This is when we begin to truly grasp why this is a real revolution, and why we can say that the way we develop software has fundamentally changed.

GPT-2 Grok LLaMA

人工知能システムでは、ランタイムコードはシステムの限られた部分にすぎません - 実際の知識とインテリジェンスは、トレーニングに使用されるデータセットから来ています。
人工知能システムでは、ランタイムコードはシステムの限られた部分にすぎません - 実際の知識とインテリジェンスは、トレーニングに使用されるデータセットから来ています。Data is the new source code!

それこそが、この新しい形式のソフトウェアがAndrej Karpathyによって「ソフトウェア 2.0」と名付けられた理由であり、それは非常に適切な名前だと思う。ソフトウェア 2.0
Open weight ≠オープンソース
誰でもダウンロード、実行、または修正できるいくつかの自由に利用可能なオープンソースモデルがあります。

これらのモデルは通常、いくつかのPythonファイルといくつかの巨大な重量マトリックス(それぞれ数ギガバイトのサイズ)で構成されています。これらのモデルがさらに開発できるのは事実ですが - フィンタウンディング、量子化、蒸留など - 彼らはまだ古典的な意味でのオープンソースとはみなされません。

オープンソースのモデルではなく、これらのオープンソースモデルを「強力な」モデルと呼ぶほうが正確ですが、本当に貴重なコンポーネントであるトレーニングデータは、出版社(Meta、xAIなど)の手に残ります。open-weight モデル

True open-source AI is built on open data.

True open-source AI is built on open data.

データの所有者は誰ですか?
大規模な言語モデルは通常、最初に「基礎モデル」を作成して構築され、その後、特定の目的(たとえばChatGPTと同様にチャット)に精密に調整されます。この基礎モデルは、人類が生み出したデータに基づいて訓練され、ウェブサイト、書籍、YouTubeビデオ、ソーシャルメディアを通じて公開されます。foundation モデル

このため、多くのサービスは、AIモデルの開発者がコンテンツを使用することを明示的に禁止することを決定しました。

個人的には、私はこのアプローチに完全に同意しませんが、それは進歩を妨げていると考えています. 私は、結果として得られるデータセットとモデルが自由にアクセスできるようにする条件で、公的に利用可能なデータをAIトレーニングに使用できるようにする フェア・ユーザ・モデルを好むでしょう.
フェア・ユーザモデル

現在、このような法的枠組みが存在しないため、AI企業が真にオープンソースのモデルを開発する動機がないため、この責任はコミュニティにかかっている。
分散型ストレージ - オープンデータセットのための理想的なホーム
しかし、グローバルなコミュニティによって構築されたオープンデータセットは実際にはどう見えるだろうか? それは、世界のさまざまな地域にわたる人々の間で重要なイデオロギーと文化の違いがあるため、微妙な質問とは程遠い。このため、誰もが同意するように公開されているグローバルな知識から単一のデータセットを作成することは不可能である。

これらの基準を考慮して、最良の選択肢は、IPFSまたはEthereum Swarmなどの不変な分散ストレージシステムです。これらのソリューションは、コンテンツアドレス(データのアドレスがコンテンツから生成されたハッシュ)を使用し、許可されていないコンテンツの変更をほぼ不可能にします。IPFS Ethereum Swarm

これらのシステムにはもう一つの非常に有用な機能があります: コンテンツをブロックに保存します. コンテンツの一部のアドレスがハッシュから由来するので、同じブロックが複数のファイルに表示される場合、それは一度だけ保存する必要があります. この方法で、IPFSとSwarmの両方が Gitリポジトリに似て機能します、バージョニングは自動的で、フォーキングは安価です. これは、わずかに異なる複数のデータセット(例えば、1%未満)を保存したい場合に理想的です。Gitリポジトリ
ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか
ブロックチェーンと分散式ストレージは互いによく補完します。一方で、分散式ストレージは、ブロックチェーンストレージに類似するレベルのセキュリティレベルで大量のデータをストレージすることを可能にします。他方で、ブロックチェーンは、分散式ストレージのための奨励システムとガバナンス層を提供することができます。良い例は、ブロックチェーンなしでは機能できないEthereum Swarmです。

オープンデータセットの場合、ブロックチェーンベースのDAOは、データセットに何が含まれるかを決定することができる。システムはウィキペディアと同様に機能することができ、管理者は、偽情報が百科事典に含まれないことを保証します。もちろん、ウィキペディアにはこの問題の本当の解決策はありませんが、分散型、ブロックチェーンベースのシステムでは、フォークが登場します。

誰かがデータセットのコンテンツに同意しない場合は、独自のフォークを作成し、代替バージョンを管理するために新しいDAOを起動できます。
分散型トレーニング
データが新しいソースコードである場合、ソフトウェア2.0(人工知能)の場合、トレーニングはプログラムのコンパイルに等しいものである。従来のソフトウェア開発では、このコンパイルは開発者が独自のマシンでローカルで行う。

One option is for the community to raise funds and rent computing power from a cloud provider for centralized training. Another possibility is decentralized training, where members donate computing capacity either for free (as a public good) or in exchange for compensation.
コミュニティが資金調達し、クラウドプロバイダーから集中的なトレーニングのためのコンピューティングパワーをレンタルすることもできます。

However, decentralized training is far from a trivial task. One challenge is that large models cannot be trained on a single node — multi-node training is required, which demands high-volume communication between nodes. This communication must be optimized for training to be efficient. Fortunately, several startups are working on this issue. One notable example is Exo Labs, which has developed a protocol called DiLoCo, designed to enable training over an internet-connected network of nodes.
Exo Labs DiLoCo

もう一つの課題 - すべてのオープン分散システム(ブロックチェーン、分散ストレージなど)に共通する - は、強力な信頼の問題です
. 誰もがシステムに独自のデバイスを自由に貢献できるので、彼らが誠実に行動する保証はありません。トップ > 信頼 > 強力

これらのシステムでは、信頼はコンピュータの保証によって置き換えられます。信頼されていないノードのネットワークでより多くのセキュリティを望むほど、より多くのコンピュータパワーが必要になります。

しかし、このアプローチはAIトレーニングでは機能しませんので、他のソリューションを探る必要があります。
コンセンサスベースの検証
One approach is to have each calculation performed by multiple (e.g., three) randomly selected nodes. If the results don't match, the dishonest node loses its staked deposit. この方法の利点は、比較的高いセキュリティを提供することである。
ゼロ知識の証拠
ゼロ知識証明(ZKP)テクノロジーを使用すると、計算が実行されたことを証明することができ、その証明自体が検証するのに安価な方法で行うことができます。 zkRollups のようなシステムで、 zkSNARK が有効な取引が Layer 2 チェーンで実行されたことを証明しています。欠点は、証明の生成が計算的に高価であること、特に計算における倍数が増加しているためです。
Optimistic Decentralized Machine Learning
Optimistic decentralized machine learning works similar to optimistic rollups. Computation is assumed to be correct unless someone submits a fraud-proof to show otherwise. In practice, the training node logs each step of the process — including the initial weight matrix, training data, and resulting weight matrix. If the log also records the random seeds, the entire computation becomes deterministic and reproducible. トレーニングノードは、オリジナルの重量マトリックス、トレーニングデータ、および結果の重量マトリックスを含むプロセスの各ステップをログします。

Validator ノードは、トレーニングログのセグメントをランダムにサンプル化して検証することができます。不一致が発見された場合、トレーニングノードはその関与を失います。この方法は、最も低い計算コストを持っています:それは高価なゼロ知識の証明生成を必要としませんし、コンセンサスベースの検証とは異なり、ランダムに選択されたコンピューティングの部分のみを再検証する必要があります。

Finally, decentralized training requires a “node marketplace” — a platform where available computing resources can be discovered and utilized. An example is Aleph Cloud, which, like other cloud providers, offers computational capacity — but it is a decentralized platform designed to provide scalable storage, computing, and database services through a network of distributed nodes. It uses an ERC20 token to pay for the services, so it can be easily integrated with other blockchain-based solutions. Aleph nodes use trusted execution environments, so validation is less relevant in this case.
Aleph Cloud
Decentralized Inference
大規模なモデルでは、トレーニングは高計算要件のためだけでなく、モデル(推定)の実行も挑戦的です。これは、トレーニングの結果が複数の連続的な前進パス後にのみ現れる推理モデルの場合に特に当てはまります - つまり推定に必要な総計算力はトレーニングをはるかに上回ることができます。

ニューラルネットワークの実行はトレーニング中と同じように機能するため(推定は前進段階であり、トレーニングには前進段階と後退段階が多く含まれている)、楽観的な分散型機械学習もここで適用できます。

この文脈における主な課題はプライバシーです。Homomorphic EncryptionやMultiparty Computation(MPC)などのテクノロジーは、プライベートデータを保護するのに役立ちます。同時に、ハードウェアのパフォーマンスは急速に増加し続け、1.5ビットのニューラルネットワークやDeepSeekのようなDestilled Mixture-of-Experts(MoE)モデルなどの新しいテクノロジーは、これらのネットワークをローカルで実行することをますます可能にしています。

私は、長期的には、私たちはそのようなモデルを現地で実行することができると信じています - 少なくとも、プライベートでレンタルされた信頼できる環境の中で。
結論
今では、AIが革命的な変化をもたらすことになることはほとんどの人々にとって明らかです.それは私たちが想像できない方法で私たちの世界を再構築します - そしてそれはヒューマノイドロボットの影響をさえ言わずに。

これは、私たちの未来に中心的な1つの質問を生み出します:真に分散型AIが現れるでしょうか。

そのようなシステムを構築するには、技術的なイノベーション以上のものが必要です - 開かれたデータセット、分散型ストレージ、ブロックチェーンベースのガバナンス、コミュニティが自由に貢献し、協力することを可能にする奨励メカニズムを必要とします。

もし成功すれば、AIを民主化するだけでなく、インテリジェンス自体が共同創造され、透明で、すべての人に開かれる新しいデジタル共通の基礎を築くでしょう。

You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

長すぎる; 読むには

Open weight ≠オープンソース

データの所有者は誰ですか?

分散型ストレージ - オープンデータセットのための理想的なホーム

ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか

分散型トレーニング

コンセンサスベースの検証

ゼロ知識の証拠

Optimistic Decentralized Machine Learning

Decentralized Inference

結論

About Author

ラベル

この記事は...

Categories

Trending Topics

You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

長すぎる; 読むには

Open weight ≠オープンソース

データの所有者は誰ですか?

分散型ストレージ - オープンデータセットのための理想的なホーム

ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか

分散型トレーニング

コンセンサスベースの検証

ゼロ知識の証拠

Optimistic Decentralized Machine Learning

Decentralized Inference

結論

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics