AI の時代において、 ChatGPTのようなツールは多くの組織にとって頼りになるソリューションとなり、効率と生産性の向上をもたらしました。データは嘘をつきません。おそらく、あなたまたはあなたの従業員は、電子メールの下書き、コンテンツの生成、データ分析の実行、さらにはコーディングの支援にも ChatGPT を使用しているでしょう。
ただし、これらのツールを適切に使用しないと、GPT-3.5、GPT-4、そして最終的には GPT-5 などの将来の生成 AI モデルで会社の知的財産 (IP) が誤って公開される可能性があります。つまり、ChatGPT ユーザーであれば誰でもその情報にアクセスできることになります。
Samsung のエンジニアは、ソース コードのチェックを支援するために ChatGPT を使用していましたが、The Economist Korea は、Samsung の従業員がこのツールを介して機密情報を意図せず漏洩した3 件の個別の事例を報告しました。これにより、機密のソース コードと記録された会議の内容がパブリック ドメインになり、ChatGPT の将来の反復で使用できるようになりました ( Source )。
お客様が当社の非 API コンシューマ サービス ChatGPT または DALL-E を使用する場合、当社はモデルを改善するためにお客様から提供されたデータを使用することがあります。
この投稿では、社内データで ChatGPT と OpenAI の API を使用する場合の潜在的なリスクと、会社のリスクを可能な限り軽減する方法について説明します。 ChatGPT の機能を複製する独自の言語モデルのトレーニングやオープンソース モデルの使用など、会社向けの他のオプションについても説明します。これらのオプションは両方とも、OpenAI にデータを送信せずに ChatGPT の生産性の利点を得る手段を提供します。
OpenAI の Completion API は、開発者がアプリケーションを作成し、ChatGPT を強化するモデルである GPT-3 や GPT-4 などの OpenAI の最先端の言語モデルを使用するために使用されます。これらの API は、すぐに使える追加レベルの保護を提供します。 ChatGPT とは異なり、データは契約したモデレーション チームによってのみ表示され、将来の OpenAI モデルのトレーニングにリサイクルされることはありません。同社の API は、送信された情報を将来のモデルのトレーニングに使用することを許可しないデータ ポリシーに従っています ( API のデータ使用ポリシーでは、データは悪用と悪用の監視のために 30 日間のみ保持され、その後削除されると規定されています)。
ただし、API に送信されるデータの性質によっては、OpenAI の API を使用するのは依然としてリスクが高すぎると判断する場合があります。最終的に、OpenAI の従業員または請負業者は、API に送信されたデータの一部を確認することになります。そのデータに機密情報、個人を特定できる情報、または個人の健康情報が含まれている場合、それは多くの問題を意味する可能性があります。
2023 年 4 月末、 ChatGPT はデータを管理する方法、ChatGPT 設定の [チャット履歴とトレーニング] ボタンをリリースしました。この機能をオフにすると、プラットフォーム上で共有されるデータは将来のモデルのトレーニングに使用されなくなります。ボタンの下には、「保存されていないチャットは 30 日以内にシステムから削除されます」という注記があります。この30日間のメモは、おそらく乱用と悪用の監視ポリシーに言及していると思われます。これには、上で述べた OpenAI の API を使用する場合と同じリスクが伴います。
一部の企業は、サムスンがデータ漏洩事件後に着手したと伝えられている道に倣い、代替案として自社モデルのトレーニングを検討するかもしれない。このアプローチは特効薬のように思えるかもしれません。データを完全に制御し、IP 漏洩の可能性を回避し、特定のニーズに合わせたツールを入手できるようになります。
しかし、少し立ち止まってみましょう。独自の言語モデルをトレーニングするのは簡単な作業ではありません。これはリソースを大量に消費し、高度な専門知識、計算能力、高品質のデータを必要とします。モデルを開発した後でも、モデルを維持、改善し、進化するニーズに適応させるという継続的な課題に直面することになります。
さらに、言語モデルの品質は、トレーニングの対象となるデータの量と多様性に大きく依存します。 OpenAI のような企業がモデルのトレーニングに使用する膨大なデータセットを考えると、個々の企業がそのレベルの洗練さと汎用性に匹敵することは困難です。実際に成功している企業は、40 年間の財務データと文書から BloombergGPT を作成した Bloomberg のような企業です ( Source )。場合によっては、優位性を確立しようとしている中小企業にとっては、データが入手できないこともあります。
オープンソース モデルの最先端技術は急速に進歩しています。オープンソース モデルをダウンロードしてマシン上で実行できるため、自己ホスト可能となり、OpenAI のような企業が関与する必要がなくなります。
Open Assistantのような組織によってトレーニングされたモデルは、顕著な結果を生み出しており、完全にオープンソースです。彼らのコミュニティは、OpenAI が ChatGPT で利用したのと同じ強化学習ヒューマン フィードバック (RLHF) ループに参加するためのデータを積極的に収集しています。このモデルのパフォーマンスは、特にオープンソース コミュニティ (私自身の貢献を含む) への依存を考慮すると、印象的です。ただし、Open Assistant は、データが 26 歳の男性の人口統計に偏っていることを認識しており、モデルの限界については透明性を持っています。彼らは、研究環境でモデルを使用することのみを推奨し、これらの人口統計を開示する際の責任ある行動を示しています。 Open Assistant に敬意を表します!
Orca は、Microsoft によってトレーニングされた、有望な未リリースのオープンソース モデルです。 GPT-3 よりも小さいですが、GPT-3 と同等、場合によっては GPT-3 よりも優れた結果が得られます。 Orca に AI による素晴らしいビデオが解説されていますので、興味があればご覧ください。ただし、OpenAI のサービス利用規約に違反するため、OpenAI のモデルを使用して独自のモデルをトレーニングすることはできません。 Orca は GPT-3.5 および GPT-4 の出力で明示的にトレーニングされているため、Microsoft はこのモデルを「研究」目的でのみリリースすると主張しています。
これらのモデルはどちらも研究目的に特化して設計されているため、ビジネス アプリケーションには適していません。代替案として他のオープンソース モデルを検討したところ、そのほとんどが Meta の LLAMA モデルから派生したものであるか (したがって、同じ「研究」制限の対象となる)、または大きすぎて効率的に実行できないことがわかりました。
有力なオプションは、 MosaicMLなどの会社を利用して推論をプライベートにホストすることです。 MosaicML は、数少ない商用利用可能なオープンソース言語モデルの 1 つとして際立っています。彼らは、MPT-30b モデルが GPT-3 と同等の品質を達成していると主張しています。彼らは具体的なベンチマークを提供していませんが、友人と私は彼らの小型モデル (MPT-7b) の 1 つをテストし始めたので、私は彼らの主張を信頼する傾向にあり、最初の結果は有望です。
データの性質やユースケースによっては、ChatGPT や OpenAI の API の使用が会社に適さない場合があります。あなたの会社に ChatGPT で送信または保存できるデータに関するポリシーがない場合は、今こそそのような会話を始める時期です。
プライベートなビジネス環境でこれらのツールを悪用すると、IP 漏洩につながる可能性があります。このようなリスクにさらされると、競争上の優位性の喪失から潜在的な法的問題に至るまで、甚大な影響が生じます。
MosaicML のモデルのさらなる探究に興味がある場合は、オープンソースであり、大規模な言語モデルとして市販されている限られたオプションの 1 つですので、お知らせください。私たちは同じ関心を共有しており、このトピックを一緒にさらに探求することに興奮しています。
自社データを使用した安全な検索拡張生成を提供するソリューションに興味がある場合は、SOC2 準拠でデータを保護し、SSO プロバイダーと統合し、組織内での会話共有を可能にし、データ入力にポリシーを適用します。私たちの最終的な目標は、IP 漏洩のリスクなしに、ChatGPT 品質のデータを提供することです。このようなツールに興味がある場合は、 アンケートに回答するか、 mindfuldataai.comにアクセスすることをお勧めします。
この投稿をお読みいただきありがとうございます。