About the LevelUp series: At The Markup, we are committed to doing everything we can to protect our readers from digital harm, write about the processes we develop, and share our work. We are constantly working on improving digital security, respecting reader privacy, creating ethical and responsible user experiences, and making sure our site and tools are accessible.
About the レベルアップシリーズ:About the レベルアップシリーズ:LevelUpシリーズAt The Markup, we are committed to doing everything we can to protect our readers from digital harm, write about the processes we develop, and share our work. We are constantly working on improving digital security, respecting reader privacy, creating ethical and responsible user experiences, and making sure our site and tools are accessible. 私たちは、読者のプライバシーを尊重し、倫理的で責任あるユーザー体験を作成し、私たちのサイトとツールがアクセス可能であることを確実にします。
The Markupでは、従来のジャーナリズム技術とデータ分析を組み合わせて、統計的に有意義な証拠に基づく結論に達するのに役立ちますが、そのような結論を出すのに十分なデータを見つけて収集することは課題です。
Web scraping is a process of automatically taking online content meant to be viewed by human users, extracting specific information from it, and then storing that information in a form that is readily usable by a computer program. For example, this could be downloading a county court's webpage of recent rulings and turning it into a sequence of data tables, each containing the name of a court case, a list of plaintiffs, a list of defendants, the date of the ruling, and the URL for the ruling text. 例えば、これは、近年の裁判所のウェブページをダウンロードし、それをデータテーブルの連続に変データテーブル
Scrapingはコンピュータによって行われているため、膨大な量の情報を収集するために使用することができ、それはジャーナリストだけでなく、学者、研究者、弁護団体の間でも人気があります。ジャーナリストの間だけでなく、人気がある
スクラップは法的に灰色の領域で長い間存在しており、ジャーナリストや他の研究者は慎重にそれに接近する傾向があります。
The Markupでは、私たちのデータジャーナリストのいくつかは最近、欧州連合(EU)でホストされているウェブサイトのスカイプに関連する法的リスクについて質問をしました。私たちはこの質問に答えるために独自の研究を行い、以下に学んだことの概要を提供しました。
私たちが始める前に、米国でのスキャンについての短い言葉:米国でのスキャンの法的地位は、EUと比較してかなり明確です。長年にわたり、その合法性は不確実でした、特にそれがウェブサイトのサービス条件(ToS)に違反したときです。これらの条件を侵害することは、コンピュータ詐欺と虐待法(CFAA)に潜在的に違反するように見えました。
2022年4月、第9回控訴裁判所は、単にウェブサイトを削除することなく他の損害を引き起こすことのできない個人が法律に基づいて起訴されないことを確認し、状況を明確にした。第9回控訴裁判所は、2021年の最高裁判所の判決を「Buren v. アメリカ合衆国」として適用し、削除を含まないが、サービス規約違反はCFAAの下で犯罪ではないと判断した。9th Circuit Court of Appealsは状況を明確にしたイギリス / アメリカ合衆国イギリス v. アメリカ合衆国
EUベースのウェブサイトをスキャンする方法を戦略化する最初のステップは、あなたのプロジェクトに必要なデータについて慎重に考えることです。EUにおけるスキャンの法的地位は、あなたが収集しているデータの性質に大きく依存します。広く言えば、インターネット上のデータは2つのカテゴリーに分けられます:個人または非個人、それぞれに異なるルールが適用されます。
ヨーロッパの一般データ保護規則(GDPR)では、個人データは「識別可能な自然人」に関連する情報(企業ではなく人間を意味します)です。ドライバーライセンスのような名前、写真、識別番号はすべて個人データですが、位置情報などのデータの種類は明らかではありません。
1.クリエイティブな権利と「重要な投資」
1 クリエイティブな権利と「重大な投資」これらのデータベースは、EUのデータベースの原則に従い、EUが1996年に採択したデータベース指令に基づいて何らかの権利を含むものとみなされていないため、最も直接的に関連する法則は「a href="https://eur-peter-europa.eu/legal-content/EN/TXT/21=celex%A31996Lantiantidatum9」である。ブロードバンドインターネットの価格情報データベース指令sui generis最近の決定
2 研究機関には特別な許可があります
2 研究機関には特別な許可があるThe デジタル単一市場指令研究開発のための枠組みプログラム
3 企業は、サービス条件におけるスキャンダルを制限することができる
3 企業はサービス条件でスキャンを制限することができるデータベース指令の限られた範囲は、多くのEUデータが法令によって保護されていないことを意味し、理論的にはスカッピングのための公正なゲームです。しかし、Ryanair Ltd v. PR Aviation BV、PR Aviationは、Kayak.comのようなフライトの集計サービスであり、Ryanairが自身の検索結果でそのフライトを表示するためにスカッピングしていました。 Ryanairはこの実践を止めるように命じました。 法廷は、Ryanairのデータが著作権またはsuiの権利の下で保護Ryanair Ltd v. PR Aviation BVRyanair Ltd v. PR Aviation BVsui generisレート制限
彼らはまた、裁判所にスカッピング行動を禁止するように依頼する可能性があります。これは上記のRyanairのケースで起こったことです。あなたがウェブサイトをスカッピングしたい場合は、そのTOSはスカッピングを禁止し、例外は適用されません、あなたの正確な状況について弁護士に相談し、あなたのリスク容忍性を評価するのが最善かもしれません。
4 サイバー犯罪を起こさないでください
4 Don't do cybercrime サイバー犯罪をしないでください。もちろん、あなたのスキャン活動が他の方法でウェブサイトを害する場合、例えば あなたのスキャンパーがウェブサイトを過載するように頻繁に訪問する場合、あなたは非常にうまくEUのサイバー犯罪法あなたのスクラッパーがウェブサイトを過載するように頻繁に訪問するEUのサイバー犯罪法
概要として、あなたがEUのソースから非個人データをスキャンするとき、あなたはデータベース指令の保護を引き起こす可能性がありますが、それらの保護はしばしばかなり制限されています。 指令が適用されていない場合、あなたはサービス条件からの制限とそれらの制限を執行するために使用するいかなる反スキャンテクニックにもかかわる可能性があります。 あなたが大学のような研究機関と提携している場合、あなたはデータベースの権利を回避することができますが、アンチスキャンテク技術はまだ実用的な障壁を構成する可能性があります。 例外がない場合、民事訴訟のリスクがありますので、弁護士に相談するのが最善です。
個人データの収集:GDPRはスキャンダルを大きなコンプライアンストラブルに変えることができます
もちろん、部屋の800キロのゴリラはGDPRです。EUのデータ保護法は、あなたが個人データをスキャンしている場合にのみ、ウェブスキャンに含まれています。参考として、GDPRは個人データを以下のように定義します。個人個人データ 識別された又は識別可能な自然人(「データ主体」)に関するあらゆる情報;識別可能な自然人とは、直接又は間接に、特に、名称、識別番号、位置データ、オンライン識別子又はその自然人の物理的、生理学的、遺伝的、精神的、経済的、文化的又は社会的アイデンティティーに特有の要因の1つ又は複数の要因を参照して識別することができるもの。 識別された又は識別可能な自然人に関するあらゆる情報(「データ主体」):識別可能な自然人とは、直接又は間接的に識別できるものであり、特に、その名称、識別番号、位置データ、オンライン識別子又はその自然人の物理的、生理学的、遺伝的、精神的、経済的、文化的又は社会的アイデンティティに特有の要因の1つ又は複数の要因を参照して識別できるものである。 いくつかのデータを削除する必要があるとしますが、それは個人データを含む - たとえば、あなたは時には、家屋やマネージャーの名前や連絡先情報を含むレンタルリストを調査しています。その場合、あなたは「データ管理者」として行動し、GDPRの規定が個人データの収集と処理に適用されます。 まず、あなたは、データの収集をGDPRによって定義された6つの法的根拠の1つとして正当化する必要があります。 ジャーナリストや研究者として、あなたは「公共の利益」を論じることは効果的であると考えるかもしれないが、この規定は主に加盟国の法律を執行している政府機関または民間組織に留保されています。6つの法的根拠 最も安全な賭けは、あなたの「正当な利益」に基づいてデータを収集および分析することですが、この権限さえも、すべての個人データを収集するための空白のチェックではありません。ジャーナリズムまたは非営利の弁護調査は、おそらく正当な利益として資格を有するが、それはプライバシーとデータ保護に対するデータの主体の基本的な権利とバランスをとらなければなりません。 あなたが個人データの収集を開始すると、あなたはGDPRの データ処理の原則、データの最小化、合理的なデータ保存、および セキュリティを遵守しなければならない.データ管理者として、あなたは、データの保存および処理のための一定の遵守義務、およびそれらを第三者に転送する場合のさらなる義務を含む セキュリティの原則を有します。あなたはまた、あなたが彼らのデータを処理しているデータの主体にプライバシーに関する通知を通知しデータ処理の原則セキュリティーコンプライアンス義務データ保護影響評価pseudonymization GDPRはまた national lawsこれらのnational lawsが、表現の自由とデータ処理の自由とを調和させる法律を実施することを要求します。これらのnational lawsが劇的に異なり、それらをどのように閲覧するかに関するガイドrequires国内法 これらすべてが多すぎるように見えるなら、それはそうであるべきだからです! GDPRは個人情報を保護するための強力な枠組みを作成しますので、あなたが本当にそれを必要とする場合にのみそのようなデータを収集するべきです。 2022年に、EUは、2023年9月に効力を生ずる「データ管理法(Data Governance Act)」を制定し、政府が保有するデータの開放を目的としているが、主に「データ仲介者」を設立し、政府が関与する独占的なデータ共有協定を禁止している。 いくつかの州や地域が米国で採択したオープンデータ法の少し複雑なバージョンであるように見える。 それは新しいので、ウェブスカッピングがどのように影響するかはまだ明らかではないが、もしあなたがソース政府をスカッピングするつもりなら、この発展に注意を払データ管理法データ中間者 EU議会は現在、新しい ePrivacy Regulationの提案を検討しているので、今後数年で法律が変更される可能性があります。提案されたデータ法の言語のいくつかは sui generisの権利を変更しますが、詳細はまだ議論中です。現在のところ、欧州連合(EU)では著作権やプライバシー法に適用されていない公的商業データのウェブスカッピングは法的です。最後に、私たちが議論したデジタルシンクマーケット指令には、トーストの研究者が完全にスカッピングを妨げることもないかもしれないという規定が、裁判所データ保護法eプライバシー規則sui generis EUにおけるウェブスカッピングの法的地位は驚くほど複雑で微妙な話題です. 二次的リソースのほとんどと適用可能な裁判の大部分は、ビジネス上の利益を促進するためにインターネットをスカッピングする企業をターゲットにしています. これらの企業は、ほとんどのジャーナリスト、研究者、または弁護士よりも異なるリソースとリスク容忍性を持っている可能性があります. EUでウェブスカッピングを検討しているジャーナリストや研究者であれば、以下のことを覚えておいてください。 We are assuming, too, that fellow journalists and researchers are more interested in data that would be protected by the Database Directive or GDPR, rather than text that is protected by copyright. OpenAIのような企業は、機械学習モデルを養うために大量のテキストを摂取し、既存の法律の多くをtestに置く。テスト We hope this overview of EU scraping law will prove useful to data journalists and other researchers trying to gather information in the public interest. これを使用して、この分野の可能性の宇宙を理解するのに役立ちます-しかし、あなたがあなたの特定の状況に関するガイドラインを必要とする場合、弁護士に尋ねる-これらのいずれも法的アドバイスではありません。 このストーリーは、ジャーナリズム目的のための個人データの処理に関する国内法に関する情報で更新されました。「hr」
We know. It’s complicated
2023年8月24日アップデート
Update, 2023年8月24日クレジット
ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム >
イラスト
コミットメント
コピー編集と制作
テクニカルレビュー
編集 Ryan Tate
Sisi Wei
また掲載されました here
また掲載されました hereここ
Krakograff Textures on Unsplash
写真 Krakograff Textures on UplashKrakograff TexturesUnsplash