paint-brush
トレーニング データがダメなら AI もダメ@mytiki
756 測定値
756 測定値

トレーニング データがダメなら AI もダメ

mytiki.com5m2023/05/31
Read on Terminal Reader

長すぎる; 読むには

大量のトレーニングデータはクソだ。トレーニング データの吸い出しとジレットのカミソリの売り上げとの相関関係を調べたわけではありませんが、何かがあるのではないかと思います。最悪な上に、高価です。
featured image - トレーニング データがダメなら AI もダメ
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

男性は不眠症になり、午前 4 時 30 分にベッドから起き上がります。太陽が毎日昇るまであと数時間だが、この男にとってはそんなことは問題ではない。剃る必要はありません。彼は4日間来ていない。彼はすぐにタバコに火をつけます。(あなたにとっては)起源が不明の手巻きタバコです。彼はラジオをつけます。すぐに電源を切ります。この瞬間は沈黙に値します。鏡を見つめます。裸。裸のバック。自分自身を見つめます。自分自身の奥深くに。タバコを手の甲に当ててトイレに投げ込む。最後に、彼の脳内でガラガラと音を立てていた言葉が、憤慨したつぶやきとなって唇をすり抜けた――「我々のトレーニングデータはクソだ」。


そして高価でもあります!


ほら、誰もが、そして彼らの祖母は、AI が巨大であることを知っています。もしかしたら、あなたのおばあちゃんはあなたと話すよりも Snapchat AI と話すほうが多いかもしれません。いずれにせよ、AI は確かにエンターテイメント要素を提供しますが、何よりも実に便利です。そして企業は前例のないペースで AI イニシアチブを導入しています。 AI の成長に関する別のブログが世界に必要ないことはわかっていますが、すぐに内容を混同してしまいます。


まず、これを理解してください。1923 年には、人工知能が組織にとって優先度が高いと考えていた企業はわずか 0% でした。おお。 2020 年までに、調査対象の IT プロフェッショナルの 54% が AI を非常に優先していました。 2022 年末までに、その数字は 69% (素晴らしい) に上昇し、わずか 2 年間で 15% 増加しました。


しかし、AI/ML ユーザーの半数近く (47%) は過去 2 年間に取り組みを開始しており、調査対象者の 78% はアイデアの段階を過ぎて実行に移っていました。これは何を意味するのでしょうか?統計的に言えば、AI プログラムやイニシアチブを実行している企業は、この分野に関してはまったくの初心者で、何をしているのか全く分かっていない可能性が高い企業がたくさんあります。 47% のうち、老犬化学者のミームは何パーセントでしょうか?そうですね、私はそれには答えることができません。私が言えることは、企業の AI/ML の取り組みにおいて報告されている最大の課題は、熟練した人材の不足 (67%) であり、次にアルゴリズムとモデルの失敗 (61%) であるということです。 AI の導入に関して最も報告されている障壁は導入コストです。 AI 予算の最大の部分を占めるのは何でしょうか?トレーニング データを調達して実装し、予算の 13% をチェックインします。


多くのデータは完全に不良です。これは信頼性が低く、管理が難しく、AI がロンダリングされたデータでトレーニングされる可能性が十分にあります。つまり、モデルのトレーニングに使用されるデータは、すでに大まかなデータでトレーニングされた別の AI モデルから供給されます。この用語の概要については、 Olga Mackに問い合わせてください。


つまり、データは粗悪で高価で、リサイクル ショップで購入したタイプミスのある T シャツに相当する可能性があり (友人のノマー“ガルシアパラ” レッドソックス シャツに大声で叫びます)、そして AI を導入する膨大な数の企業は新しいものです。そして、物事をうまく機能させるためのリソースや才能が不足しており、ましてやそれを持続可能に保つことはできません。


この目的を達成するために、なんと 87% の経営幹部が、 より高品質のトレーニング データに対してより多くの費用を支払うことをいとわない一方、66% はトレーニング データの必要性が増加すると予測しているのに対し、トレーニング データの必要性は減少すると予測しているのは 0% です。これは、私が行った 1923 年の架空調査からの 0% の増加です。


もっと数字を言いますか?さらに多くの番号が届きます。 2022 年の世界の人工知能への支出は約 1,180 億ドルでした。 2026 年までに、その額は 3,000 億ドルに達すると予想されています。 3,000億ドルの13%は…390億ドルです。これが統計の正確な仕組みではないことはわかっていますので、怒らないでください。しかし簡単に言うと、AI のトレーニング データに対する世界的な支出は数十億ドル規模の産業です。これらの幹部の 66% がトレーニング データの必要性が高まると予想しており、87% がより高品質なデータのためにより多くの費用を費やしても構わないと考えていることを考慮に入れてください…まあ、おわかりでしょう。

その他の要素

これに加えて、2023 年には信頼できるデータを入手することが以前よりもはるかに困難になります。 GDPR や CCPA などのプライバシー イニシアチブは、消費者データの保護を目的としています。 Google や Apple などの大手テクノロジー企業は、サードパーティのデータ収集をますます困難にしています。現在進行中の法廷闘争では、AI トレーニング データが最前線にあり、Web データをスクレイピングして AI をトレーニングし、それを「フェアユース」と主張することは過去のものになる危険にさらされているというのが一般的な感情です。適切な比較は、2000 年代初頭の Napster の余波かもしれません。 Napster が著作権で保護された素材と知的財産の違法な共有によって動かされていることは当時から明らかでしたが、AI を使用する企業は同様の軌跡を考慮する必要があります。砂は砂時計を通してろ過される可能性があり、メタリカの「誰に鐘は鳴る」は、 AIへの取り組みを将来に向けて保証する努力をしていない人たちに流れる可能性があります。

新しいSpotify

それで、解決策は何でしょうか?うーん、複雑ですね。しかし、Napster、Kazaa、Limewire の残骸の中から、「著作権侵害よりも優れた」ものを構築するという前提で運営された Spotify が誕生しました。これには、Spotify プラットフォームでストリーミングされるコンテンツのライセンスを適切に取得するために、レコード レーベルや代理店との協定を急遽締結することが含まれていました。 AIでも同じことが可能でしょうか?私たちはそう思います。消費者の 85% はクーポンや割引のためにデータを交換します。これにより、ユーザーの参加を促すデータ取得モデルへの道が開かれ、AI のトレーニングなどさまざまな用途に使用できる貴重なゼロパーティ データが生成されます。私たちはゼロパーティ データをライセンスするための機能を構築し、Snowflake と提携して企業がライセンスされたゼロパーティ データを再リストできる機能も構築しました。より高品質のトレーニング データに対する要望に基づくと、これは、顧客ロイヤルティの構築にもつながる追加の収益源の巨大な機会となる可能性があります。しかし、ブランドっぽいものは十分です。詳細については、こちらをご覧ください。

要約すれば…

大量のトレーニングデータはクソだ。トレーニングデータの吸い出しとジレットのカミソリの売り上げとの相関関係は調べていませんが、何かがあるのではないかと思います。最悪な上に、高価です。 AI の実装に時間とリソースを費やす企業が増えていますが、その多くは AI に不慣れで、取り組みを最適化するための適切なチーム、インフラストラクチャ、質の高いデータが不足しています。法廷闘争により、AI トレーニング データの調達と収集の「古いやり方」に亀裂が生じ、プライバシーへの取り組みにより、企業がビジネスを推進するために必要なデータを収集することがますます困難になっています。 Spotify のような企業にインスピレーションを求めれば、法的な側面を克服できることが知られています。データ共有に対する消費者の感情と、ブランド エクスペリエンスのさらなるパーソナライズとカスタマイズへの要望を考慮すると、(他の多くのユースケースの中でも) 再販売用にゼロパーティ データのライセンスを取得する巨大な市場が存在することがわかりました。ねえ、また 3,000 億ドルの 13% って何ですか?


共同創設者 @TIKI の Shane Faria が執筆