درباره سری LevelUp : در The Markup، ما متعهد هستیم که هر کاری که می توانیم انجام دهیم تا از خوانندگان خود در برابر آسیب های دیجیتال محافظت کنیم، در مورد فرآیندهایی که توسعه می دهیم بنویسیم و کار خود را به اشتراک بگذاریم. ما دائماً در حال کار بر روی بهبود امنیت دیجیتال، احترام به حریم خصوصی خواننده، ایجاد تجربیات اخلاقی و مسئولانه برای کاربر، و اطمینان از در دسترس بودن سایت و ابزارهایمان هستیم.
در اینجا در The Markup، ما اغلب تکنیکهای روزنامهنگاری سنتی را با تجزیه و تحلیل دادهها ترکیب میکنیم، که به ما کمک میکند به نتایجی بر اساس شواهد آماری معنادار دست یابیم. اما یافتن و جمعآوری دادههای کافی برای رسیدن به چنین نتایجی میتواند یک چالش باشد. اینجاست که scraping وب وارد می شود.
خراش دادن وب فرآیندی است که به طور خودکار محتوای آنلاینی را که قرار است توسط کاربران انسانی مشاهده شود، استخراج می کند، اطلاعات خاصی را از آن استخراج می کند و سپس آن اطلاعات را به شکلی ذخیره می کند که به راحتی توسط یک برنامه رایانه ای قابل استفاده باشد. به عنوان مثال، این می تواند دانلود صفحه وب دادگاه شهرستانی از احکام اخیر و تبدیل آن به دنباله ای از جداول داده ها باشد که هر کدام شامل نام پرونده دادگاه، فهرستی از شاکیان، فهرستی از متهمان، تاریخ صدور حکم، و نشانی اینترنتی متن حکم است.
از آنجایی که خراش دادن توسط کامپیوتر انجام می شود، می توان از آن برای جمع آوری مقادیر زیادی اطلاعات استفاده کرد و این امر باعث محبوبیت آن نه تنها در میان روزنامه نگاران ، بلکه در میان دانشگاهیان، محققان و گروه های مدافع نیز می شود.
خراش دادن مدتهاست که در یک منطقه خاکستری قانونی وجود داشته است، بنابراین روزنامهنگاران و سایر محققان تمایل دارند با احتیاط به آن نزدیک شوند.
در The Markup، برخی از روزنامهنگاران داده ما اخیراً سؤالاتی در مورد خطرات قانونی موجود در خراش دادن وبسایتهای میزبانی شده در اتحادیه اروپا داشتند. ما تحقیقات خود را برای پاسخ به این سوال انجام دادیم و خلاصه ای از آنچه را که در زیر آموختیم ارائه می دهیم. هدف ما کمک به سایر روزنامهنگاران، محققان و مدافعان این است که یک استراتژی کمخطر برای خراشیدن در اتحادیه اروپا ارائه دهند.
قبل از شروع یک کلمه کوتاه در مورد خراش دادن در ایالات متحده: وضعیت قانونی خراش دادن در ایالات متحده در مقایسه با اتحادیه اروپا کاملاً واضح است. برای سالهای متمادی، قانونی بودن آن نامشخص بود، بهویژه زمانی که با شرایط خدمات وبسایتها (ToS) برخورد میکرد. به نظر میرسید که نقض این شرایط به طور بالقوه قانون کلاهبرداری و سوء استفاده رایانهای (CFAA) را نقض میکند، یک قانون ضد هک که نه تنها نفوذ به رایانه بلکه «بیش از دسترسی مجاز» به رایانه را جرم میداند.
در آوریل 2022، دادگاه تجدیدنظر ناحیه نهم وضعیت را روشن کرد و تأیید کرد که افرادی که صرفاً وب سایتها را بدون ایجاد آسیب دیگری خراش میدهند، نمیتوانند تحت این قانون تحت پیگرد قانونی قرار گیرند. آن پرونده حوزه نهم، تصمیم دادگاه عالی سال 2021 را به نام ون بورن علیه ایالات متحده اعمال کرد که شامل خراش دادن نبود، اما بر این باور بود که نقض شرایط خدمات طبق CFAA جرم نیست.
اولین قدم شما در راهبرد نحوه خراش دادن وب سایت های مبتنی بر اتحادیه اروپا باید این باشد که به دقت در مورد داده هایی که برای پروژه خود نیاز دارید فکر کنید. وضعیت قانونی خراش دادن در اتحادیه اروپا تا حد زیادی به ماهیت داده هایی که شما جمع آوری می کنید بستگی دارد. به طور کلی، شما میتوانید دادههای موجود در اینترنت را به دو دسته تقسیم کنید: شخصی یا غیر شخصی، که قوانین متفاوتی برای هر کدام اعمال میشود.
بر اساس مقررات حفاظت از دادههای عمومی اروپا (GDPR)، دادههای شخصی اطلاعاتی هستند که به یک «شخص حقیقی قابل شناسایی» (به معنای یک انسان، نه یک شرکت) مربوط میشود. نامها، تصاویر و شمارههای شناسایی مانند گواهینامههای رانندگی همگی دادههای شخصی هستند، اما انواع دادههایی مانند اطلاعات موقعیت مکانی کمتر آشکار هستند. در مقابل، دادههای غیرشخصی به شخص حقیقی شناساییشده مربوط نمیشوند. همچنین پیچیدگی کمتری دارد، بنابراین ابتدا با توضیح داده های غیر شخصی شروع می کنیم.
1. حقوق خلاقانه و "سرمایه گذاری قابل توجه".
در تحقیقات اخیر خود در مورد نابرابریهای اینترنتی، مقادیر زیادی اطلاعات قیمت اینترنت پهن باند در محلههای ایالات متحده جمعآوری کردیم. اگر به جای آن دادههای مربوط به محلههای اتحادیه اروپا را جمعآوری کرده بودیم، این اطلاعات غیرشخصی تلقی میشد، زیرا به هیچ فرد شناساییشده مربوط نمیشود. بنابراین، مستقیمترین قانون مربوطه، دستورالعمل پایگاه داده نامیده میشود، که اتحادیه اروپا در سال 1996 تصویب کرد. دستورالعمل پایگاهداده از پایگاههای دادهای محافظت میکند که «محصول فکری نویسنده هستند». خلاقیت می تواند شامل نحوه سازماندهی پایگاه داده، نوع ستون هایی که نگهداری می کند یا نحوه نمایه سازی آن باشد. این دستورالعمل همچنین چیزی به نام sui generis (یا منحصربفرد) را در پایگاههای داده ایجاد میکند که شامل «سرمایهگذاری قابل توجهی در به دست آوردن، تأیید یا ارائه محتوا» است، حتی اگر هیچ اصالتی در آن پایگاه داده وجود نداشته باشد. حقوق سرمایه گذاری خلاقانه و اساسی گاهی اوقات به طور جمعی به عنوان حقوق پایگاه داده نامیده می شود. به نظر می رسد که این حقوق در عمل بسیار محدود است. واقعاً خلاق بودن با یک طرح پایگاه داده دشوار است، و دادگاه ها آستانه بسیار بالایی برای "سرمایه گذاری قابل توجه" تعیین می کنند. به عنوان مثال، تصمیم اخیر دیوان دادگستری اتحادیه اروپا (عمدتاً دادگاه عالی آنها) اعلام کرد که خراش دادن تنها در صورتی نیاز به سرمایه گذاری قابل توجه را برآورده می کند که با توانایی وب سایت برای جمع آوری درآمد و جبران سرمایه خود رقابت کند یا در غیر این صورت به خطر بیفتد.
2. مؤسسات تحقیقاتی دارای مجوزهای ویژه هستند
دستورالعمل بازار واحد دیجیتال (که با قانون خدمات دیجیتال و قانون بازارهای دیجیتال متفاوت است) در سال 2021 اجرایی شد و دستورالعمل پایگاه داده را اصلاح کرد. این پایگاههای امن برای متن و دادهکاوی توسط مؤسسات تحقیقاتی یا «سازمانهای میراث فرهنگی» ایجاد کرد. یک مؤسسه تحقیقاتی میتواند شامل نهادی باشد که «بر اساس یک مأموریت منافع عمومی به رسمیت شناخته شده توسط یک کشور عضو» تحقیقات علمی انجام میدهد. مؤسسات تحقیقاتی و سازمانهای میراث فرهنگی همچنان باید «دسترسی قانونی» به دادهها داشته باشند، به عنوان مثال، سازمان هزینه اشتراک را پرداخت میکند، یا دادهها به صورت عمومی در اینترنت در دسترس هستند. مشخص نیست که آیا روزنامه نگاران در اینجا واجد شرایط هستند، حتی اگر برای یک سازمان غیرانتفاعی مانند The Markup کار کنند. یکی از راههای ممکن برای رسیدگی به این موضوع ممکن است مشارکت با یک موسسه تحقیقاتی مانند برخی از دانشگاهها باشد، زیرا شراکتهای دولتی و خصوصی طبق قانون مجاز به انجام تحقیقاتی هستند که با یکی از برنامههای چارچوب اتحادیه اروپا برای تحقیق و توسعه فناوری مطابقت دارد.
3. شرکت ها می توانند خراش دادن را در شرایط خدمات خود محدود کنند
محدوده محدود دستورالعمل پایگاه داده به این معنی است که بسیاری از داده های اتحادیه اروپا توسط قانون محافظت نمی شوند و از نظر تئوری یک بازی منصفانه برای خراش دادن است. با این حال یک گرفتاری وجود دارد. در Ryanair Ltd v. PR Aviation BV ، PR Aviation یک سرویس تجمیع پرواز مانند Kayak.com بود و Ryanair را خراش می داد تا پروازهای خود را در نتایج جستجوی خود نشان دهد. رایان ایر برای توقف این رویه شکایت کرد. دادگاه حکم داد که دادههای رایان ایر واجد شرایط حفاظت از حقوق کپی رایت یا حق اختصاصی نیستند، اما این شرکت میتواند از طریق شرایط خدمات خود خراش را محدود کند. البته، همانطور که در جریان ساخت مجموعه دادههای قیمتگذاری ارائهدهنده خدمات اینترنتی (ISP) متوجه شدیم، اپراتورهای وبسایت همچنین میتوانند از اقدامات فنی مانند محدود کردن نرخ برای جلوگیری از خراش استفاده کنند، حتی زمانی که از حقوق پایگاه داده قانونی ذکر شده استفاده نمیکنند.
شرایطی که در آن خراشیدن توسط شرایط خدمات یک پلت فرم محدود می شود، از نظر قانونی مبهم ترین موارد هستند. خبر خوب این است که در اتحادیه اروپا نقض شرایط خدمات یک وب سایت جرم نیست ، چیزی که در ایالات متحده تا زمان تصمیم دادگاه عالی ون بورن در سال 2021 وجود داشت. اگر یک ToS وجود داشته باشد که خراشیدن را ممنوع می کند، تجزیه و تحلیل با "شما نمی توانید به زندان بروید، بنابراین چیز مهمی نیست" خاتمه نمی یابد. این وبسایت میتواند دعوای مدنی را برای تخلف یا نقض قرارداد مطرح کند، اگرچه احتمالاً در این نوع موارد در اثبات خسارت مشکل خواهند داشت.
آنها همچنین ممکن است از دادگاه بخواهند که رفتار خراشیدن را ممنوع کند. این همان چیزی است که در پرونده Ryanair در بالا رخ داد. اگر میخواهید یک وبسایت را خراش دهید، و ToS آن خراشیدن را ممنوع میکند و هیچ استثنایی اعمال نمیشود، احتمالاً بهتر است در مورد وضعیت دقیق خود با یک وکیل مشورت کنید و میزان تحمل ریسک خود را ارزیابی کنید.
4. جرایم سایبری انجام ندهید
البته، اگر فعالیت خراش دادن شما به روش دیگری به وبسایت آسیب میرساند، مانند بازدید مکرر از آن به طوری که اسکراپر شما وبسایت را بیش از حد بارگیری میکند ، ممکن است طبق قانون جرائم سایبری اتحادیه اروپا مسئول باشید، بنابراین این کار را نکنید.
به طور خلاصه، وقتی دادههای غیر شخصی را از یک منبع اتحادیه اروپا حذف میکنید، به طور بالقوه محافظتهای دستورالعمل پایگاه داده را فعال میکنید، اما این محافظتها اغلب کاملاً محدود هستند. در مواردی که دستورالعمل اعمال نمی شود، ممکن است با محدودیت هایی در شرایط خدمات و هر تکنیک ضد خراشیدنی که برای اجرای این محدودیت ها استفاده می کنند، مواجه شوید. اگر با یک موسسه تحقیقاتی مانند یک دانشگاه همکاری کنید، ممکن است بتوانید حقوق پایگاه داده را دور بزنید، اگرچه فناوری ضد خراش همچنان ممکن است یک مانع عملی باشد. اگر هیچ استثنایی اعمال نشود، ممکن است خطر دعوای مدنی وجود داشته باشد، بنابراین بهتر است با یک وکیل مشورت کنید.
جمعآوری دادههای شخصی: GDPR میتواند خراشیدن را به یک دردسر بزرگ برای انطباق تبدیل کند
البته گوریل 800 کیلوگرمی در اتاق GDPR است. قانون حفاظت از دادههای مهم اتحادیه اروپا تنها در صورتی که دادههای شخصی را خراش میدهید در حذف وب نقش دارد. برای مرجع، GDPR داده های شخصی را اینگونه تعریف می کند:
هر گونه اطلاعات مربوط به یک شخص حقیقی شناسایی شده یا قابل شناسایی («موضوع داده ها»). شخص حقیقی قابل شناسایی شخصی است که به طور مستقیم یا غیرمستقیم، به ویژه با ارجاع به یک شناسه مانند نام، شماره شناسایی، داده های مکان، شناسه آنلاین یا یک یا چند عامل خاص به هویت فیزیکی، فیزیولوژیکی، ژنتیکی، روانی، اقتصادی، فرهنگی یا اجتماعی آن شخص حقیقی قابل شناسایی است.
برای « دستههای خاص » دادههای شخصی از جمله نژاد، مذهب، و گرایش جنسی، تدابیر امنیتی دیگری وجود دارد که GDPR آنها را بهویژه حساس میداند. دادههای نام مستعار، که اطلاعاتی هستند با برخی از شناسههای حذف شده، هنوز هویتبخش و در نتیجه شخصی در نظر گرفته میشوند، اما دادههای ناشناس به این دلیل نیست که یک فرد را شناسایی نمیکنند. با این حال باید مراقب بود که داده ها واقعاً ناشناس باشند زیرا داده های ناشناس ضعیف ممکن است واجد شرایط این استثنا نباشند.
فرض کنید باید برخی از دادهها را پاک کنید، و حاوی دادههای شخصی است - برای مثال، شما در حال بررسی لیستهای اجارهای هستید که گاهی اوقات شامل نام و اطلاعات تماس صاحبخانهها یا مدیران است. در آن صورت، شما بهعنوان «کنترلکننده داده» عمل میکنید و مفاد GDPR حاکم بر جمعآوری و پردازش در مورد دادههای شخصی اعمال میشود. ابتدا، باید جمع آوری داده ها را به عنوان یکی از شش پایه قانونی تعریف شده توسط GDPR توجیه کنید. به عنوان یک روزنامه نگار یا محقق، ممکن است بر این باور باشید که بحث "در راستای منافع عمومی" کارساز خواهد بود، اما این ماده عمدتاً برای سازمان های دولتی یا سازمان های خصوصی که قوانین یک کشور عضو را اجرا می کنند، محفوظ است.
مطمئنترین شرط جمعآوری و تجزیه و تحلیل دادهها بر اساس «منافع قانونی» شماست، اما حتی این اختیار نیز یک چک سفید برای جمعآوری تمام دادههای شخصی نیست. تحقیقات دفاعی روزنامه نگاری یا غیرانتفاعی احتمالاً به عنوان یک منفعت قانونی واجد شرایط است، اما باید با حقوق اساسی داده های موضوع حریم خصوصی و حفاظت از داده ها متعادل شود. حذف دادههای شخصی تنها زمانی قانونی خواهد بود که منافع کنترلکننده داده (در این مورد شما) بر منافع موضوع دادهها بیشتر باشد. تجزیه و تحلیل باید با دقت انجام شود و به طور رسمی مستند شود، بنابراین بهتر است قبل از ادامه این مسیر، نظر حرفه ای را جویا شوید.
هنگامی که شروع به جمعآوری دادههای شخصی میکنید، باید از اصول GDPR برای پردازش دادهها ، از جمله به حداقل رساندن دادهها، نگهداری معقول دادهها، و امنیت پیروی کنید. بهعنوان یک کنترلکننده داده، شما تعهدات انطباق خاصی برای ذخیره و مدیریت دادهها خواهید داشت و در صورت انتقال آن به اشخاص ثالث، تعهدات بیشتری خواهید داشت. همچنین باید به موضوع دادهها اطلاع دهید که دادههای آنها را با اعلامیه حفظ حریم خصوصی پردازش میکنید و به آنها حقوق خاصی مانند حق پاک کردن یا اعتراض به پردازش را بدهید. در نهایت، ممکن است نیاز به انجام یک ارزیابی تاثیر حفاظت از داده (DPIA) داشته باشید، اگر پردازش شامل "خطر بالا" برای موضوع باشد. استفاده از تکنیک هایی مانند نام مستعار می تواند به برآورده کردن الزامات انطباق شما کمک کند.
GDPR همچنین هر کشور عضو را ملزم به اجرای قوانینی میکند که حق حفظ حریم خصوصی را با آزادی بیان و پردازش دادهها برای اهداف روزنامهنگاری مطابقت میدهد. این قوانین ملی می توانند به طور چشمگیری متفاوت باشند، و اغلب راهنمایی های کمتری در مورد نحوه هدایت آنها وجود دارد. همچنین تشخیص اینکه قوانین کدام کشور هنگام در نظر گرفتن محل ثبت وبسایت، مکان سرورها و شهروندی سوژههای دادهها، میتواند بسیار مشکل باشد. اگر فکر می کنید این استثنا برای شما صدق می کند، بهتر است با یک وکیل مشورت کنید.
اگر همه اینها زیاد به نظر می رسد، خوب است زیرا قرار است اینطور باشد! GDPR یک چارچوب قوی برای محافظت از اطلاعات شخصی ایجاد می کند، بنابراین شما فقط در صورت نیاز باید چنین داده هایی را جمع آوری کنید. با بازگشت به مثال لیست اجاره ما، در نظر بگیرید که آیا نام و اطلاعات تماس برای جمع آوری ضروری است یا خیر، و اگر تصادفاً داده های شخصی را جمع آوری می کنید، سعی کنید در اسرع وقت آنها را حذف کنید.
در سال 2022، اتحادیه اروپا قانون حاکمیت داده را تصویب کرد که در سپتامبر 2023 اجرایی خواهد شد. این قانون در جهت باز کردن داده های دولتی است که عمدتاً از طریق ایجاد " واسطه های داده " و ممنوع کردن توافق نامه های اشتراک گذاری انحصاری داده ها شامل دولت است. به نظر میرسد نسخه پیچیدهتری از قوانین دادههای باز است که برخی از ایالتها و مناطق در ایالات متحده به تصویب رساندهاند، زیرا بسیار جدید است، هنوز مشخص نیست که این عمل چگونه بر روی وبسایت تأثیر میگذارد، اما اگر میخواهید منبع دولتی را حذف کنید، خوب است که به این پیشرفت توجه داشته باشید.
پارلمان اتحادیه اروپا همچنین در حال بررسی پیشنهادهایی برای قانون داده ها و مقررات جدید حریم خصوصی الکترونیکی است، بنابراین ممکن است این قانون در چند سال آینده تغییر کند. برخی از زبانهای موجود در قانون دادههای پیشنهادی، حق sui generis را اصلاح میکنند، اما جزئیات هنوز مورد بحث است. با این حال، همانطور که در حال حاضر وجود دارد، حذف وب داده های تجاری عمومی که مشمول قوانین کپی رایت یا حریم خصوصی نیستند در اتحادیه اروپا قانونی است. در نهایت، دستورالعمل بازار واحد دیجیتال که در بالا مورد بحث قرار گرفتیم حاوی مقرراتی است که نشان میدهد حتی ToS ممکن است به طور کامل مانع از خراش دادن محققان نشود، اما دامنه آن نامشخص است و احتمالاً باید در دادگاه آزمایش شود.
می دانیم. این پیچیده است
وضعیت حقوقی خراش دادن وب در اتحادیه اروپا موضوعی به طرز شگفت انگیزی پیچیده و ظریف است. بیشتر منابع ثانویه و بسیاری از قوانین قضایی قابل اجرا متوجه شرکتهایی هستند که اینترنت را برای پیشبرد منافع تجاری مورد استفاده قرار میدهند. این کسبوکارها احتمالاً نسبت به اکثر روزنامهنگاران، پژوهشگران یا طرفداران، منابع و ریسکهای متفاوتی دارند.
اگر روزنامه نگار یا محققی هستید که به دنبال خراش دادن وب در اتحادیه اروپا است، به یاد داشته باشید:
- شرایط خدمات محتمل ترین مانع برای حذف داده های غیر شخصی است.
- اگر باید دادههای شخصی را جمعآوری کنید، آنها را تا حد امکان به حداقل برسانید و دور بریزید.
ما همچنین فرض میکنیم که روزنامهنگاران و محققان همکار بیشتر به دادههایی که توسط دستورالعمل پایگاه داده یا GDPR محافظت میشوند، علاقهمند هستند تا متنهایی که توسط حق چاپ محافظت میشوند. شرکتهایی مانند OpenAI مقادیر زیادی متن را برای تغذیه مدلهای یادگیری ماشینی خود مصرف میکنند و بسیاری از قوانین موجود را مورد آزمایش قرار میدهند.
ما امیدواریم که این مرور کلی از قانون حذف اتحادیه اروپا برای روزنامه نگاران داده و سایر محققانی که سعی در جمع آوری اطلاعات در جهت منافع عمومی دارند مفید باشد. از آن برای کمک به درک همه امکانات در این زمینه استفاده کنید - اما اگر در مورد موقعیت خاص خود به راهنمایی نیاز دارید از یک وکیل بخواهید - زیرا هیچ یک از اینها مشاوره حقوقی نیست.
به روز رسانی، 24 آگوست 2023
این داستان با اطلاعاتی در مورد قوانین ملی مربوط به پردازش داده های شخصی برای اهداف روزنامه نگاری به روز شده است.
اعتبارات
تصویرسازی
نامزدی
ویرایش و تولید کپی
بررسی فنی
در حال ویرایش
همچنیندر اینجا منتشر شده است
عکس نوشته Krakograff Textures در Unsplash