paint-brush
OpenAI の Web クローラーの内部と FTC の連続する失敗を振り返る@viggybala
1,160 測定値
1,160 測定値

OpenAI の Web クローラーの内部と FTC の連続する失敗を振り返る

Viggy Balagopalakrishnan11m2023/08/18
Read on Terminal Reader

長すぎる; 読むには

OpenAIはデフォルトのオプトイン・クローラーを起動してインターネットをスクレイピングする一方、FTCは不透明な消費者詐欺調査を追求している
featured image - OpenAI の Web クローラーの内部と FTC の連続する失敗を振り返る
Viggy Balagopalakrishnan HackerNoon profile picture
0-item
1-item

OpenAIはデフォルトのオプトインクローラを起動してインターネットをスクレイピングする一方、FTCは不透明な消費者詐欺調査を追求している

先週、Open AI (ChatGPT のメーカー) は、 Web クローラーを正式に発表しました。これは、インターネット上のすべての Web サイトからコンテンツを収集し、AI モデルのトレーニングに使用するソフトウェアです。


クローラーの存在は驚くべきことではなく、インターネット全体のインデックスを作成する Google のクローラーなど、現在いくつかの正規の Web クローラーが存在します。


ただし、OpenAI がその存在を明示的に発表し、Web サイトがスクレイピングをオプトアウトするメカニズムを提供したのはこれが初めてです。


クローラーはデフォルトでオプトインであることに注意してください。つまり、データをスクレイピングしないようクローラーに依頼するには、Web サイト上のコードを明示的に変更する必要があります。ほとんどの人はデフォルトを変更する努力をしないため、オプトイン/アウトのデフォルトは固定的であり、多くの場合、多数派の動作が決定されます。


Apple の iOS14 のプライバシー変更がデジタル広告業界に大きな影響を与えたのと同じ理由です。


OpenAI Web クローラー (出典: OpenAI)


では、なぜオプトアウトを提供するのでしょうか?これはおそらく、コンテンツ所有者の著作権が侵害されたと主張する同社に対する最近の訴訟に応じたOpenAIの先制的な動きである(さらに詳しく知りたい場合は、データスクレイピングに関する詳細な記事を参照)。


ChatGPT の競合企業である Google Bard も同様の課題に直面していますが、Google はまだ同等の解決策を発表していません。Google は、この問題に対処するためにrobots.txtをアップグレードする方法についてコメントを求めました (巧妙な PR の筆致で書かれています)。


この記事では、以下について詳しく説明します。


  • OpenAI のクローラーがコンテンツ所有者に与える影響


  • OpenAIに対するFTCの現在の調査


  • 私たちが活動する今日の法的状況


  • OpenAIを追及するFTCのアプローチが(またしても)間違いである理由

OpenAI のクローラーがコンテンツ所有者に与える影響

この発表では、広告主が OpenAI のクローラーによるデータのスクレイピングをブロックするオプションが提供されていますが、いくつかの点が良くありません。


  1. これはデフォルトでオプトインになっており、サイトが明示的にスクレイピングをしないように指示するまで、OpenAI はスクレイピングを続けることができます。


  2. 同意なしにモデルトレーニングのためにデータがスクレイピングされた場合のコンテンツ所有者の権利について、何らかの形で明確な法的判決はありません(これは基本的に、デフォルトのオプトインを強制されている人に当てはまります)


現在、言語モデルがこのすべてのデータを同意なしに取得することが許可されているかどうかを決定する 2 つの法的概念、つまり、 著作権とフェアユースが存在します。


著作権は特定の種類のコンテンツに保護を提供しますが、カーブアウト/例外もあります。


このタイトルに従って、著作権保護は、現在知られている、または今後開発されるあらゆる有形の表現媒体に固定された著作物のオリジナルの作品に存在し、そこから直接または媒体の助けを借りて認識、複製、またはその他の方法で伝達することができます。機械または装置。


著作物には次のカテゴリが含まれます。(1) 文学作品。 (2) 音楽作品(付随する言葉を含む)。 (3) 劇的な作品(付随音楽を含む)。 (4) パントマイムおよび振付作品。 (5) 絵画、グラフィック、彫刻作品。 (6) 映画およびその他の視聴覚作品。 (7) 音声録音。 (8) 建築作品。


(b) いかなる場合においても、オリジナルの著作物の著作権保護は、その記述、説明、図示の形式に関係なく、アイデア、手順、プロセス、システム、操作方法、概念、原則、または発見には適用されません。 、またはそのような作品に体現されています


たとえば、著作権はほとんどのオリジナルの作品を保護します (たとえば、あなたがそのトピックについてオリジナルのブログ記事や本を書いた場合) が、広範なアイデアは保護しません(たとえば、AI がデータの権利にどのような影響を与えるかについて書いた最初の人物であると主張することはできません)したがって、そのアイデアはあなたのものです)。


著作権保護からのもう 1 つのカーブアウト/例外はフェアユースです。


批評、コメント、ニュース報道、教育(教室で使用するための複数のコピーを含む)、学術、または研究は著作権の侵害ではありません。


特定の場合において作品の使用がフェアユースであるかどうかを判断する際に考慮すべき要素には、(1) 使用の目的と性質(そのような使用が商業的な性質のものであるか、非営利の教育目的であるかなど) が含まれます。 ; (2) 著作権で保護された作品の性質。 (3) 著作物全体に関連して使用される部分の量および実質性。 (4) 著作権で保護された作品の潜在的な市場または価値に対する使用の影響。


たとえば、研究論文からコンテンツを選択してそれについて批評を書いた場合、それは問題ありません。コンテンツ所有者の著作権を侵害しているわけではありません。このページから別の記事にリンクし、その記事からの引用テキストを追加する場合も同じ状況です。


これらの概念は両方とも、特に教育、研究、批評の文脈において、コンテンツ所有者の権利を保護しながら、情報の自由な流れを可能にするために作成されました。


私は法律の専門家ではありませんが、上記の文言についての私の調査/理解に基づくと、 AI モデルのスクレイピング トレーニング コンテンツで曖昧になる箇所は次のとおりです。


  • AI 企業は通常、コンテンツ所有者の Web サイトから全文を収集し (これは著作権で保護されています)、モデルをトレーニングして「アイデア」/「コンセプト」/「原則」(これは著作権で保護されていません) を学習させ、最終的にモデルを学習させます。別のテキストを吐き出します。この場合、コンテンツ所有者は著作権保護を受けられるのでしょうか?


  • トレーニングされた言語モデルは最終的に商業目的で使用されるようになったので (たとえば、ChatGPT Plus は有料製品です)、これはコンテンツ所有者の著作権の侵害になりますか (フェアユースの例外は適用されなくなったため)?


これに関する裁判所の判決はまだ出ていないため、この問題がどこに着地するかを予測するのは困難です。弁護士ではない私の見解は、おそらく 2 番目の解決策のほうが簡単であるということです。OpenAI はデータをスクレイピングし、それを使用して商用製品を作成したため、フェアユースの例外は認められません。


最初のもの (モデルは「アイデア」に基づいて訓練されたのか、それとも単にオリジナルのテキストに基づいて訓練されたのか) は誰にも推測できないと思います。


コンテンツ所有者が勝つためには、これらの箇条書きの両方がコンテンツ所有者に有利である必要があることに注意してください。つまり、コンテンツ所有者が勝つのは、上記の両方の例外 (「アイデア」例外またはフェアユース例外) が OpenAI に適用されない場合のみです。


私がこのニュアンスを取り上げたのは、コンテンツ所有者の権利から不正行為の拡大、仕事の自動化からAGI/人類の破壊に至るまで、AIリスクの範囲(すべてを網羅しているわけではない)の中で、最も差し迫った短期的な問題はコンテンツ所有者の権利であるためである。相次ぐ訴訟やコンテンツプラットフォームへの影響( StackOverflowの話など)からも明らかだ。


FTC のような規制当局は、非常に長期的な問題について熟考し、これらのリスクに対処するための仮説的または創造的な方法を考え出すことができますが、実際の短期的な可能性は、5 ~ 10 年間に影響を与えるリスクに対処できることにあります。地平線。著作権侵害みたいな。


ここから、FTC がそれに対して何をしているのかがわかります。

FTC による OpenAI に対する現在の調査

7月中旬、FTCはOpenAIを調査していると発表した。これが興味深い (そしてイライラする) のは、FTC が を調査している理由です。


ChatGPT の作成者は、個人の評判やデータを危険にさらして消費者保護法に違反していないかどうかを評価するために調査されています。


意味が分かりませんか?あなたは一人じゃない。これがどのようにして生まれたのかについて、もう少し背景を説明しましょう。


AI規制に対するFTCの最も声高な立場は4月に発表されたもので、「法律上はAIの適用除外はなく、FTCは不当または欺瞞的な慣行や不当な競争方法と闘うために法律を精力的に施行する」とした。


その後、名誉毀損に関連した問題がいくつか発生しました。ラジオ司会者のマーク・ウォルターズ氏は、ChatGPT が非営利団体を詐欺したとして告発した後、OpenAI を訴えました。また、法学教授がChatGPT からセクハラで不当に告発されました。


これらのシナリオはどちらも関係者にとって最悪であり、私もそれに共感します。ただし、言語モデル (GPT など) とその上に構築された製品 (ChatGPT など) が「幻覚を起こし」、多くの場合間違っていることは周知の事実です。


FTC の調査の前提の前半は、ChatGPT は幻覚を起こし、したがって風評被害を引き起こすというものです。


白熱した議会公聴会の中で、ある代表者が(当然のことながら) FTCに対し、通常は州法で取り扱われる名誉毀損や名誉毀損をなぜ追及するのかを尋ねた。 FTC委員長のリナ・カーンは複雑な議論を展開する:


カーン氏は、名誉毀損や名誉毀損はFTCの執行の焦点ではないが、AIトレーニングにおける個人情報の悪用はFTC法に基づく詐欺や欺瞞の一形態となる可能性があると答えた。


「私たちは『人に大きな怪我はないか』に焦点を当てています。怪我にはさまざまな種類があります」とカーンは語った。


議論全体をまとめると、FTCは、ChatGPT の幻覚が誤った情報 (名誉毀損を含む) を生み出し、それが消費者を欺く可能性があると言っている。


さらに、機密性の高いユーザーの個人情報が使用または漏洩された可能性があります (OpenAI がすぐに修正した1 つのバグに基づく)。


調査の一環として、FTCはOpenAIに対し、モデルのトレーニング方法の詳細から、使用するデータソース、製品を顧客にどのように紹介するか、次のような理由でモデルリリースが一時停止されている状況に至るまで、長いリストを要求した。特定されたリスクの。


問題は、特に現在の法的状況を考慮すると、おそらく最大規模の AI 企業の 1 つとなるであろう企業を規制するための FTC にとって最善のアプローチなのかということです。

私たちが事業を行う今日の法的状況

OpenAI を使用した FTC の戦略を批判するには、今日私たちが活動している法的状況を理解することが役立ちます。あまり詳しくは説明しませんが、例として独占禁止法の歴史を簡単に見てみましょう。


  • 1900 年代に大規模なコングロマリット (「トラスト」) が誕生し、官民の力のバランスはこれらの企業に移りました。


  • これに応じて、私的権力に対するチェックを追加し、競争を維持するために 1890 年のシャーマン法が可決されました。この法律は、反競争的行為(略奪的な価格設定、カルテル取引、流通独占)に関与した「信託」を訴訟し、打ち破るために使用されました。


  • 1960 年代頃、裁判官は法の文言ではなく法の精神に基づいて判決を下したため、多くの反発に直面しました。たとえば、一連の企業が「不当に貿易を制限」しているかどうかを判断するためのシャーマン法の解釈には主観が含まれており、裁判官は司法活動に関与したとして非難された。


  • 客観性を導入するために、シカゴ学派は消費者福祉基準の先駆者であり、「裁判所はもっぱら消費者福祉によって導かれるべきである」(例えば、独占が露骨な方法で価格をつり上げることは間違っているが、他の活動については、立証責任は規制当局にある)消費者被害を証明する。)


  • これは今日でも標準であり、FTC と司法省が大手テクノロジー企業を排除するのが難しい理由の 1 つです。たとえば、Google の製品のほとんどは無料であるため、FTC は、たとえGoogle は他の反競争的行為にも取り組んでいます。


このことからわかることは、私たちは今日も、「法の精神」ではなく「法の文言」に基づいて訴訟が重く行われている状況の中で活動を続けているということです。これは、今日の米国最高裁判所の構成と相まって、法律のかなり保守的な解釈をもたらしました。


これが FTC にとって意味することは、この状況の現実を受け入れ、訴訟を勝ち取る方法を見つけ出すことです。 FTC と司法省の運営モデルは (当然のことながら)、少数の大きな事件を追及し、ロングテールの企業が法律を犯す前によく考えるように厳しい法執行を課すことです。


それを実現するには、 FTC がいくつかの問題で大きな勝利を収める必要があり、現在の法的状況の制約内で勝利を収める戦略が必要です。

OpenAIを追及するFTCのアプローチが(またしても)間違いである理由

FTCはビッグテックに対して連敗を続けており、その損失はすべて「ビッグテックはすべて嫌いだ」という、メスではなくハンマーでこれらの企業に対抗する戦略が失敗したことに起因すると私は主張したい。


たとえば、FTC は 690 億ドルの Microsoft-Activision 買収を阻止するために強引な手段を講じましたが、 敗北しました(かなりひどいことだと思います)。 FTCは、MicrosoftがActivisionを買収するとゲーム市場の競争が失われると主張した。


裁判官はFTCの主張をすべて無視するかなり率直な判決を下した。審査員のコメントの一つは次のとおりです。


Call of Duty を Xbox コンソール専用にしないという Microsoft の表明された意図に矛盾する内部文書、電子メール、チャットは存在しません。 100万件近くの文書の作成と30件の証言録取書作成を含む、FTCの行政手続きにおける広範な証拠開示が完了したにもかかわらず、FTCはコール オブ デューティをPlayStation(およびNintendo Switch)で利用可能にするというマイクロソフトの公約に矛盾する文書を1つも特定していない。 )。


もう一つの強引な事件は、Meta による VR 会社 Within の買収を阻止しようとした FTC の試みであり、彼らは敗訴しました。なぜ彼らはこれを追求したのでしょうか?彼らは、特定の市場が大きくなる前に、買収を阻止する意欲があるかどうかを確認するために水域をテストしたいと考えていましたが、現在の法的状況を考慮すると、当然のことながら、それは放棄されました。


FTC による OpenAI の調査の問題も同様です。

  1. 彼らが追求しているのは(私の意見では)非常に些細な問題であり、言語モデルの既知の限界である幻覚です。代わりに、著作権など、5 ~ 10 年後に重要となる実際の AI 問題に焦点を当てる必要があります。


  2. 現在の法的状況では複数の「創造的な」法的アプローチが投げかけられているにもかかわらず、彼らは幻覚→名誉毀損→消費者欺瞞という別の創造的な議論を試みている。


彼らの行動を寛大に解釈すると、彼らは「AI は既存の法律から免除されない」という立場の前例を作りたいと考えており、この雁の追跡によって OpenAI から大量の自己申告データが得られたということです (FTC は20 ページの文書を発行しています) と尋ねます)。


しかし、総当たり攻撃やビッグテクノロジーはすべて競争力のないアプローチを繰り返し追求し、それらを創造的な議論と組み合わせて法廷で繰り返し棄却されてきた実績を考慮すると、FTC はこの件で疑惑の利益を得ていないと私は信じています。

結論

私はOpenAIは規制されるべきだと絶対に思います。彼らのLLMが幻覚を起こしているからではなく(もちろん実際にそうなっているのですが)、彼らがクリエイターのコンテンツを許可なくあからさまに使用しているからです。それは過去を変えるからではなく、コンテンツ所有者が著作権をあからさまに侵害されない健全な未来を築くのに役立つからです。


しかし、FTC はメスではなくハンマーのアプローチで失敗を繰り返しています。メスのアプローチで大手テクノロジー企業を相手に成功した明確な前例があり、最も注目に値するのは英国の競争市場庁だ。


彼らが Google に対して勝訴した 2 つの大きな訴訟は、特定の反競争メカニズムに焦点を当てています。つまり、 Google が AdTech スタック内の自社製品に優遇措置を提供することを阻止し他の決済プロバイダーにアプリ内支払いを許可することです。


もしFTCが現在のやり方を続ければ、その連敗は法廷で勝てると知っているテクノロジー企業に勇気を与えて、やりたいことをやり続けることになるだろう。 FTCが自らの失敗を反省し、他の規制当局の成功から学び、軌道修正する時期が来た。


🚀 この記事が気に入った場合は、週刊ニュースレターの購読を検討してください。私は毎週、現在の技術トピック/製品戦略に関する詳細な分析を10 分間の読み物として公開しています。


最高だよ、ヴィギー。


ここでも公開されています