You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

AIに関して目の前で起こっている革命的な転換を本当に理解している人はほとんどいません。私たちのツールとソフトウェアがより賢くなっただけでなく、私たちはまったく新しい方法でソフトウェアを開発し始めたのです。

もちろん、ハードウェアやソフトウェアのどちらにも劇的な変化はなかったので、これは理解できるでしょう。私たちのプログラムはまだデジタルCPUやGPUで動作し、Pythonのような伝統的なプログラミング言語で書かれています。

大規模な言語モデルのソースコードを見てみる価値があります。GPT2で、グロックあるいはMETAの泣く世俗主義者にとっても、このコードがどれほど短く、比較的単純なものであるかは、驚くべきことですが、これらのモデルが持っている膨大な知識と問題解決のインテリジェンスを考慮して、これがなぜ本当の革命なのか、そしてなぜ私たちがソフトウェアを開発する方法が根本的に変わったのかを真に理解し始めます。

♪
人工知能システムでは、ランタイムコードはシステムの限られた部分にすぎません - 実際の知識とインテリジェンスは、トレーニングに使用されるデータセットから来ています。
♪

人工知能システムでは、ランタイムコードはシステムの限られた部分にすぎません - 実際の知識と知能は、トレーニングに使用されるデータセットから来ています。Data is the new source code!

だからこそ、この新しいソフトウェアが呼ばれるようになったのです。ソフトウェア 2.0アンドレイ・カルパティー(Andrej Karpathy) - and I think that's a very suitable name.

オープンソース ≠ Open Source

誰でもダウンロード、実行、または修正できるいくつかの自由に利用可能なオープンソースモデルがあります。

これらのモデルは通常、いくつかのPythonファイルといくつかの巨大な重量マトリックス(それぞれ数ギガバイトの大きさ)で構成されています。これらのモデルがさらに開発可能であることは事実です - 細かい調節、量子化、蒸留、およびその他 - 彼らはまだ古典的な意味でオープンソースと見なされることはできません。

これらを呼ぶほうが正確です。open-weight modelsオープンソースモデルではなく、本当に貴重なコンポーネントであるトレーニングデータは、出版社(Meta、xAIなど)の手に残っている。

♪
真のオープンソースAIは、オープンデータに基づいています。
♪

真のオープンソースAIは、オープンデータに基づいています。

データは誰が所有する?

大規模な言語モデルは、通常、最初にAを生成することによって構築されます。財団モデルこのファウンダードモデルは、人類が生み出したデータに基づいて訓練され、ウェブサイト、書籍、YouTubeビデオ、ソーシャルメディアを通じて公開されます。

このため、多くのサービスは、AIモデルの開発者がコンテンツを使用することを明示的に禁止することを決定しました。

個人的には、私はこのアプローチに完全に同意しません、それは進歩を妨げると信じています。fair-use modelAIトレーニングのための公開データの使用を可能にする - 結果として得られたデータセットとモデルが無料で利用可能になることを条件に。

このような法的枠組みが現在存在しないため、AI企業が真にオープンソースのモデルを開発する動機がないため、この責任はコミュニティにかかっている。

分散型ストレージ - オープンデータセットのための理想的な家

しかし、グローバルなコミュニティによって構築されたオープンデータセットは実際にはどう見えるでしょうか? それは、世界のさまざまな地域の人々の間で重要なイデオロギーと文化の違いがあるため、微妙な質問とは遠いものです。このため、誰もが同意するように公開されているグローバルな知識から単一のデータセットを作成することは不可能です。それ以上に、そのようなデータセットが誰にも所有されていないこと、アクセスが制限されないこと、データがリターテクティブに変更されないこと、そして誰もそれを検閲する権限を持っていないことが重要です。

これらの基準を考慮して、最良の選択は、不変な分散型ストレージシステムである。IPFSまたはEthereum Swarmこれらのソリューションでは、コンテンツアドレス化(データのアドレスがコンテンツから生成されたハッシュ)を使用し、許可されていないコンテンツの変更をほぼ不可能にします。

これらのシステムには、コンテンツをブロックに保存するというもう一つの非常に有用な機能があります。コンテンツの一部のアドレスがハッシュから引き出されるので、同じブロックが複数のファイルに表示される場合は、一度だけ保存する必要があります。Git repository, where versioning is automatic, and forking is cheap. This is ideal in cases where we want to store multiple datasets that differ only slightly (e.g., by less than 1%). If someone disagrees with the content of a dataset, they can create a new version without having to make a full copy — only the changes are stored. Exactly as when we fork a project on GitHub to modify something. 誰かがデータセットのコンテンツに同意しない場合、彼らは完全なコピーを作成する必要なしに新しいバージョンを作成することができます - ただ、変更が保存されます。

ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか

ブロックチェーンと分散式ストレージは互いをよく補完します。一方で、分散式ストレージは、ブロックチェーンストレージと同等のセキュリティレベルで大量のデータをストレージすることを可能にします。他方で、ブロックチェーンは、分散式ストレージのための奨励システムとガバナンス層を提供することができます。良い例は、ブロックチェーンなしでは機能し得ないEthereum Swarmです。

オープンデータセットの場合、ブロックチェーンベースのDAOは、何がデータセットに含まれるかを決定することができる。システムはウィキペディアと同様に機能することができ、管理者は偽情報が百科事典に入らないことを保証します。もちろん、それはしばしば偽情報として何をカウントするかを明確にカットしません。ウィキペディアにはこの問題の本当の解決策はありません - しかし、分散型、ブロックチェーンベースのシステムでは、フォークが登場します。

データセットのコンテンツに同意しない場合は、独自のフォークを作成し、代替バージョンを管理するために新しい DAO を起動できます。

decentralized トレーニング

もしデータが新しいソースコードであるならば、ソフトウェア2.0(人工知能)の場合、トレーニングはプログラムのコンパイルに等しい。従来のソフトウェア開発では、このコンパイルは開発者が独自のマシンでローカルで行う。

もう一つの選択肢は、コミュニティが資金を調達し、クラウドプロバイダーから集中型トレーニングのためのコンピューティングパワーをレンタルすることです。

しかし、分散型トレーニングは極めて微妙な課題ではありません。一つの課題は、大きなモデルを単一のノードでトレーニングすることはできないこと、つまり、ノード間のコミュニケーションの大容量を必要とする複数のノードトレーニングが必要です。EXOラボと呼ばれるプロトコルを開発した。ディロコ, ノードのインターネット接続ネットワーク上のトレーニングを可能にするように設計されています。

すべてのオープンな分散システム(ブロックチェーン、分散型ストレージなど)に共通するもう一つの課題は、trust誰もが自らのデバイスをシステムに自由に貢献できるので、彼らが誠実に行動する保証はありません。悪意のある行為者は、例えば、DAOが承認したデータセットの代わりに許可されていないデータを使用し、モデルを「汚染」することがあります。

In these systems, trust is replaced by computational guarantees. The more security we want in an untrusted network of nodes, the more computational power is required. A good example of this is blockchain, where each node publishing a new block also validates all computations in the chain leading up to it.

しかし、このアプローチはAIトレーニングでは機能しませんので、他のソリューションを探る必要があります。

コンセンサスベースの認証

ひとつのアプローチは、それぞれの計算を複数の(例えば、3つ)ランダムに選択されたノードによって行うことである。結果が一致しない場合、不誠実なノードはそのストッキングを失う。

ゼロ知識の証拠

ゼロ知識証明(ZKP)テクノロジーでは、計算が実行されたことを証明することができ、その証明自体が検証するのに安い方法で行うことができます。 zkRollups のようなシステムでは、zkSNARK が有効なトランザクションがレイヤー 2 チェーンで実行されたことを証明しています。欠点は、証明の生成が計算的に高価であること、特に計算における倍数が増加しているためです。これは現在の ZKP テクノロジーで、AI モデルの訓練はこの方法で大幅により多くのコンピューティングパワーを必要とすることを意味します。それでも、ZKP は積極的に研究されている領域であり、将来、分散訓練に十分に効率的になる可能性があります。

オリジナルタイトル: Optimistic Decentralized Machine Learning

Optimistic decentralized machine learning works similar to optimistic rollups. Computing is assumed to be correct unless someone submits a fraud-proof to show otherwise. In practice, the training node logs each step of the process — including the initial weight matrix, training data, and resulting weight matrix. If the log also records the random seeds, the entire computation becomes deterministic and reproducible. トレーニングノードは、オリジナルの重量マトリックス、トレーニングデータ、および結果の重量マトリックスを含むプロセスの各ステップをログします。

認証ノードはその後、トレーニングログのセグメントをランダムにサンプル化し、それらを検証することができます。不一致が発見された場合、トレーニングノードはその賭けを失います。この方法は、最も低い計算コストを持っています:それは高価なゼロ知識証明の生成を必要としません、そして合意に基づく検証とは異なり、計算のランダムに選択された部分のみを再検証する必要があります。

最後に、分散型トレーニングには「ノードマーケットプラットフォーム」が必要です - 利用可能なコンピューティングリソースを発見し、利用できるプラットフォームです。Aleph Cloud他のクラウドプロバイダーと同様に、計算能力を提供していますが、分散型ノードのネットワークを通じてスケーラブルなストレージ、コンピューティング、データベースサービスを提供するように設計された分散型プラットフォームです。

DECENTRAL INFERENCE

大規模なモデルでは、トレーニングは高計算要件のせいだけでなく、モデル(推定)を実行することも挑戦的です。これは、トレーニングの結果が複数の連続的な前進経過後にのみ現れる推理モデルの場合に特に当てはまります - つまり推定に必要な総計算力は、トレーニングをはるかに上回ることができます。

ニューラルネットワークの実行はトレーニング中と同じように機能するため(推定は前進段階であり、トレーニングには前進段階と後退段階が多く含まれている)、楽観的な分散型機械学習もここで適用できます。

同時に、ハードウェアのパフォーマンスは膨大に増加し続け、1.5ビットのニューラルネットワークやDeepSeekのような分散型Mixure-of-Experts(MoE)モデルなど、これらのネットワークをローカルに実行することをますます可能にしている。

長期的には、私たちはそのようなモデルを現地で実行することができると信じています - 少なくとも、プライベートで賃貸された信頼できる環境の中で。

結論

今のところ、ほとんどの人にとっては、AIが革命的な変化をもたらすことになることは明らかです. それは私たちが想像できない方法で私たちの世界を再構築します - それは、ヒューマノイドロボットの影響をさえ言わずに。

これにより、私たちの未来に中心的な1つの疑問が生じます:真に分散型AIが現れるだろうか。

このようなシステムを構築するには、単なる技術革新以上のものが必要です - 開かれたデータセット、分散型ストレージ、ブロックチェーンベースのガバナンス、コミュニティが自由に貢献し、協力することを可能にする奨励メカニズムを必要とします。

私たちが成功すれば、AIを民主化するだけでなく、インテリジェンス自体が共同創造され、透明性があり、すべての人に開かれている新しいデジタルコモンズの基礎を築くでしょう。

You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

長すぎる; 読むには

オープンソース ≠ Open Source

データは誰が所有する?

分散型ストレージ - オープンデータセットのための理想的な家

ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか

decentralized トレーニング

コンセンサスベースの認証

ゼロ知識の証拠

オリジナルタイトル: Optimistic Decentralized Machine Learning

DECENTRAL INFERENCE

結論

About Author

ラベル

この記事は...

Categories

Trending Topics

You Don't Own Your Data, But AI Does - And That's the Problem あなたはあなたのデータを所有していないが、AIはそうします。

長すぎる; 読むには

オープンソース ≠ Open Source

データは誰が所有する?

分散型ストレージ - オープンデータセットのための理想的な家

ブロックチェーンがどのようにオープンデータセットの作成をサポートできるか

decentralized トレーニング

コンセンサスベースの認証

ゼロ知識の証拠

オリジナルタイトル: Optimistic Decentralized Machine Learning

DECENTRAL INFERENCE

結論

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics