حول سلسلة LevelUp : في The Markup، نلتزم ببذل قصارى جهدنا لحماية قرائنا من الأضرار الرقمية، والكتابة عن العمليات التي نطورها، ومشاركة أعمالنا. نعمل باستمرار على تحسين الأمن الرقمي، واحترام خصوصية القراء، وتوفير تجارب مستخدم أخلاقية ومسؤولة، وضمان سهولة الوصول إلى موقعنا وأدواتنا.
في "ذا مارك أب"، نجمع باستمرار بين أساليب الصحافة التقليدية وتحليل البيانات، مما يساعدنا على التوصل إلى استنتاجات مبنية على أدلة إحصائية ذات دلالة. لكن العثور على بيانات كافية وجمعها لاستخلاص هذه الاستنتاجات قد يكون تحديًا. وهنا يأتي دور استخلاص البيانات من الإنترنت.
استخراج بيانات الويب هو عملية جمع تلقائي لمحتوى إلكتروني مُعدّ لمشاهدته من قِبل المستخدمين، واستخراج معلومات مُحددة منه، ثم تخزين هذه المعلومات في صيغة يُمكن لبرنامج حاسوبي استخدامها بسهولة. على سبيل المثال، يُمكن أن يتم ذلك عن طريق تنزيل صفحة ويب لمحكمة مقاطعة تتضمن الأحكام الأخيرة، وتحويلها إلى سلسلة من جداول البيانات ، يحتوي كل منها على اسم القضية، وقائمة المُدّعين، وقائمة المُدّعى عليهم، وتاريخ الحكم، ورابط نصه.
وبما أن عملية الكشط تتم بواسطة جهاز كمبيوتر، فمن الممكن استخدامها لجمع كميات كبيرة من المعلومات، مما يجعلها شائعة ليس فقط بين الصحفيين ، بل وأيضاً بين الأكاديميين والباحثين وجماعات المناصرة.
لقد كان الكشط موجودًا منذ فترة طويلة في منطقة رمادية من الناحية القانونية، لذا يميل الصحفيون وغيرهم من الباحثين إلى التعامل معه بحذر.
في "ذا مارك أب"، طرح بعض صحفيي البيانات لدينا مؤخرًا أسئلة حول المخاطر القانونية المرتبطة باستخراج البيانات من المواقع الإلكترونية المُستضافة في الاتحاد الأوروبي. أجرينا بحثًا خاصًا للإجابة على هذا السؤال، ونقدم ملخصًا لما تعلمناه أدناه. هدفنا هو مساعدة الصحفيين والباحثين والمدافعين الآخرين على وضع استراتيجية منخفضة المخاطر لاستخراج البيانات من المواقع الإلكترونية في الاتحاد الأوروبي.
قبل أن نبدأ، دعونا نلقي نظرة سريعة على عملية استخراج البيانات في الولايات المتحدة: الوضع القانوني لعملية استخراج البيانات في الولايات المتحدة واضح نسبيًا مقارنةً بالاتحاد الأوروبي. لسنوات عديدة، كانت شرعيتها غير مؤكدة، خاصةً عندما كانت تتعارض مع شروط خدمة المواقع الإلكترونية. يبدو أن انتهاك هذه الشروط يُحتمل أن يُشكل انتهاكًا لقانون الاحتيال وإساءة استخدام الحاسوب (CFAA)، وهو قانون لمكافحة القرصنة يُجرّم ليس فقط اختراق جهاز كمبيوتر، بل أيضًا "تجاوز الوصول المُصرّح به" إليه.
في أبريل 2022، أوضحت محكمة الاستئناف بالدائرة التاسعة الوضع ، مؤكدةً أنه لا يمكن مقاضاة الأفراد الذين يكتفون باستخراج بيانات مواقع الويب دون التسبب في أي ضرر آخر بموجب القانون. وقد طبقت تلك القضية قرارًا صادرًا عن المحكمة العليا عام 2021 في قضية فان بورين ضد الولايات المتحدة ، والذي لم يتضمن استخراج بيانات، ولكنه قضى بأن انتهاك شروط الخدمة لا يُعد جريمة بموجب قانون مكافحة الفساد والاحتيال.
ينبغي أن تكون خطوتك الأولى في وضع استراتيجية لاستخراج البيانات من مواقع الويب في الاتحاد الأوروبي هي التفكير مليًا في البيانات التي تحتاجها لمشروعك. يعتمد الوضع القانوني لاستخراج البيانات في الاتحاد الأوروبي بشكل كبير على طبيعة البيانات التي تجمعها. بشكل عام، يمكنك تصنيف البيانات على الإنترنت إلى فئتين: شخصية وغير شخصية، ولكل منهما قواعد مختلفة.
بموجب اللائحة العامة لحماية البيانات (GDPR) في أوروبا، تُعرّف البيانات الشخصية بأنها معلومات تتعلق بشخص طبيعي مُعرَّف (أي إنسان، وليس شركة). تُعتبر الأسماء والصور وأرقام الهوية، مثل رخص القيادة، جميعها بيانات شخصية، وكذلك أنواع البيانات الأقل وضوحًا، مثل معلومات الموقع. أما البيانات غير الشخصية، فهي لا تتعلق بشخص طبيعي مُعرَّف. كما أنها أقل تعقيدًا، لذا سنبدأ بشرح البيانات غير الشخصية أولًا.
1. حقوق الإبداع و"الاستثمار الجوهري"
في تحقيقنا الأخير حول تفاوتات الإنترنت، جمعنا كميات كبيرة من معلومات الأسعار للإنترنت عريض النطاق في الأحياء الأمريكية. لو جمعنا بدلاً من ذلك بيانات عن أحياء الاتحاد الأوروبي، لكانت تعتبر غير شخصية لأنها لا تتعلق بأي فرد محدد. لذلك، فإن القانون الأكثر صلة مباشرة يسمى توجيه قاعدة البيانات ، والذي أقره الاتحاد الأوروبي في عام 1996. يوفر توجيه قاعدة البيانات حماية حقوق الطبع والنشر لقواعد البيانات التي "تشكل الإبداع الفكري للمؤلف". يمكن أن يشمل الإبداع كيفية تنظيم قاعدة البيانات، ونوع الأعمدة التي تحتفظ بها، أو كيفية فهرستها. كما ينشئ التوجيه ما يسمى بالحق الفريد (أو الفريد) في قواعد البيانات التي تنطوي على "استثمار كبير إما في الحصول على المحتويات أو التحقق منها أو عرضها"، حتى لو لم يكن هناك أصالة في تلك القاعدة البيانات. يشار أحيانًا إلى حقوق الاستثمار الإبداعي والكبير بشكل جماعي باسم حقوق قاعدة البيانات. اتضح أن هذه الحقوق محدودة للغاية في الواقع عمليًا. من الصعب الإبداع حقًا في تصميم قواعد البيانات، وتضع المحاكم حدًا أقصى مرتفعًا جدًا لـ"الاستثمار الكبير". على سبيل المثال، قضت محكمة العدل التابعة للاتحاد الأوروبي (أو بالأحرى المحكمة العليا) في قرار حديث بأن استخراج البيانات لا يفي بمتطلبات الاستثمار الكبير إلا إذا كان من شأنه أن ينافس، أو يُعرّض، قدرة الموقع الإلكتروني على تحصيل الدخل واسترداد استثماره للخطر.
2. المؤسسات البحثية لديها أذونات خاصة
دخل توجيه السوق الرقمية الموحدة (الذي يختلف عن قانون الخدمات الرقمية وقانون الأسواق الرقمية) حيز التنفيذ في عام 2021 وعدل توجيه قاعدة البيانات. وقد أنشأ ملاذات آمنة لاستخراج النصوص والبيانات من قبل مؤسسات البحث أو "منظمات التراث الثقافي". ويمكن أن تشمل مؤسسة البحث كيانًا يجري بحثًا علميًا "وفقًا لمهمة المصلحة العامة التي تعترف بها دولة عضو". ويجب أن تتمتع مؤسسات البحث ومنظمات التراث الثقافي "بوصول قانوني" إلى البيانات، على سبيل المثال، تدفع المنظمة مقابل اشتراك، أو تكون البيانات متاحة للجمهور على الإنترنت. ومن غير الواضح ما إذا كان الصحفيون مؤهلين هنا، حتى لو كانوا يعملون في منظمة غير ربحية مثل The Markup. قد تكون إحدى الطرق الممكنة لمعالجة هذا الأمر هي الشراكة مع مؤسسة بحثية، مثل بعض الجامعات، حيث يسمح القانون للشراكات بين القطاعين العام والخاص بإجراء أبحاث تتماشى مع أحد برامج إطار عمل الاتحاد الأوروبي للبحث والتطوير التكنولوجي .
3. يمكن للشركات الحد من الكشط في شروط الخدمة الخاصة بها
النطاق المحدود لتوجيه قاعدة البيانات يعني أن الكثير من بيانات الاتحاد الأوروبي غير محمية بموجب القانون وهي من الناحية النظرية لعبة عادلة للكشط. ومع ذلك، هناك مشكلة. في شركة Ryanair المحدودة ضد شركة PR Aviation BV ، كانت شركة PR Aviation خدمة تجميع رحلات مثل Kayak.com وكانت تقوم بكشط Ryanair لإظهار رحلاتها في نتائج البحث الخاصة بها. رفعت شركة Ryanair دعوى قضائية لوقف هذه الممارسة. قضت المحكمة بأن بيانات Ryanair لم تكن مؤهلة للحماية بموجب حقوق النشر أو الحق الفريد من نوعه ، ولكن يمكن للشركة الحد من الكشط من خلال شروط الخدمة الخاصة بها. بالطبع، كما اكتشفنا أثناء بناء مجموعة بيانات تسعير مزود خدمة الإنترنت (ISP) الخاصة بنا، يمكن لمشغلي مواقع الويب أيضًا استخدام تدابير فنية مثل تحديد المعدل لمنع الكشط حتى عندما لا يمارسون حقوق قاعدة البيانات القانونية المذكورة أعلاه.
الحالات التي تُقيّد فيها شروط خدمة المنصة استخراج البيانات هي الأكثر غموضًا من الناحية القانونية. الخبر السار هو أنه في الاتحاد الأوروبي، لا يُعدّ انتهاك شروط خدمة موقع إلكتروني جريمة، وهو ما كان عليه الحال في الولايات المتحدة حتى صدور قرار المحكمة العليا في قضية فان بورين عام ٢٠٢١. إذا وُجدت شروط خدمة تحظر استخراج البيانات، فإن التحليل لا ينتهي بـ "لا يُمكنك الذهاب إلى السجن، فلا بأس". يمكن للموقع الإلكتروني رفع دعوى مدنية إما بتهمة الضرر أو الإخلال بالعقد، مع أنه من المرجح أن يواجه صعوبة في إثبات الأضرار في مثل هذه القضايا.
قد يطلبون أيضًا من المحكمة منع عملية استخراج البيانات. هذا ما حدث في قضية رايان إير المذكورة أعلاه. إذا كنت ترغب في استخراج بيانات موقع إلكتروني، وكانت شروط الخدمة الخاصة به تحظر عملية استخراج البيانات دون أي استثناءات، فمن الأفضل استشارة محامٍ حول وضعك الدقيق وتقييم مدى تحملك للمخاطر.
4. لا ترتكب جرائم إلكترونية
بالطبع، إذا كان نشاط الكشط الخاص بك يضر بموقع الويب بأي طريقة أخرى، مثل زيارته كثيرًا لدرجة أن أداة الكشط الخاصة بك تزيد من تحميل موقع الويب ، فقد تكون مسؤولاً بموجب قانون الجرائم الإلكترونية في الاتحاد الأوروبي ، لذا لا تفعل ذلك.
باختصار، عند استخراج بيانات غير شخصية من مصدر في الاتحاد الأوروبي، قد تُفعّل حماية توجيه قواعد البيانات، ولكن هذه الحماية غالبًا ما تكون محدودة للغاية. في حال عدم تطبيق التوجيه، قد تواجه قيودًا من شروط الخدمة، وأي تقنيات مكافحة استخراج البيانات التي يستخدمونها لتطبيقها. إذا تعاونت مع مؤسسة بحثية، مثل جامعة، فقد تتمكن من التحايل على حقوق قواعد البيانات، مع أن تقنية مكافحة استخراج البيانات قد تُشكّل عائقًا عمليًا. في حال عدم وجود استثناء، قد يكون هناك خطر رفع دعوى مدنية، لذا يُفضّل استشارة محامٍ.
جمع البيانات الشخصية: يمكن أن يحول قانون حماية البيانات العامة (GDPR) عملية جمع البيانات إلى مشكلة امتثال كبيرة
بالطبع، الغوريلا العملاقة في الغرفة هي اللائحة العامة لحماية البيانات (GDPR). قانون حماية البيانات التاريخي للاتحاد الأوروبي لا يُطبّق على كشط البيانات من الويب إلا إذا كنتَ تستخرج بياناتك الشخصية . للتوضيح، تُعرّف اللائحة العامة لحماية البيانات البيانات الشخصية على النحو التالي:
أي معلومات تتعلق بشخص طبيعي محدد أو قابل للتحديد ("موضوع البيانات")؛ الشخص الطبيعي القابل للتحديد هو الشخص الذي يمكن تحديده، بشكل مباشر أو غير مباشر، وخاصة عن طريق الإشارة إلى معرف مثل الاسم أو رقم التعريف أو بيانات الموقع أو معرف عبر الإنترنت أو إلى عامل أو أكثر خاص بالهوية الجسدية أو الفسيولوجية أو الجينية أو العقلية أو الاقتصادية أو الثقافية أو الاجتماعية لهذا الشخص الطبيعي.
هناك ضمانات إضافية لـ" فئات خاصة " من البيانات الشخصية، بما في ذلك العرق والدين والتوجه الجنسي، والتي يعتبرها النظام العام لحماية البيانات (GDPR) حساسة للغاية. البيانات ذات الهوية المستعارة، وهي معلومات جُرِّدت من بعض مُعرِّفاتها، لا تزال تُعتبر مُعرِّفة للهوية وبالتالي شخصية، بينما البيانات مجهولة المصدر لا تُعتبر كذلك لأنها لا تُحدِّد هوية الفرد. مع ذلك، يجب توخي الحذر للتأكد من أن البيانات مجهولة المصدر تمامًا، لأن البيانات التي تم إخفاء هويتها بشكل سيء قد لا تُؤهِّل هذا الاستثناء.
لنفترض أنك بحاجة إلى استخراج بعض البيانات، وأنها تحتوي على بيانات شخصية - على سبيل المثال، أنت تُجري تحقيقًا في قوائم الإيجار التي تتضمن أحيانًا أسماء ومعلومات الاتصال الخاصة بمُلّاك أو مديري العقارات. في هذه الحالة، ستكون بمثابة "جهة مُتحكمة بالبيانات"، وستُطبق أحكام اللائحة العامة لحماية البيانات (GDPR) التي تُنظّم جمع البيانات ومعالجتها على البيانات الشخصية. أولًا، ستحتاج إلى تبرير جمع البيانات كأحد الأسس القانونية الستة المُحددة في اللائحة العامة لحماية البيانات. كصحفي أو باحث، قد تعتقد أن الدفاع عن "المصلحة العامة" سيكون مُجديًا، لكن هذا الحكم مُخصص بشكل أساسي للجهات الحكومية أو المؤسسات الخاصة التي تُطبّق قوانين الدولة العضو.
الخيار الأمثل هو جمع البيانات وتحليلها بناءً على "مصلحتك المشروعة"، ولكن حتى هذه الصلاحية ليست ضمانًا كافيًا لجمع جميع البيانات الشخصية. من المرجح أن تُعتبر الأبحاث الصحفية أو المناصرة غير الربحية مصلحة مشروعة، ولكن يجب موازنة ذلك بالحقوق الأساسية للبيانات الخاضعة للخصوصية وحماية البيانات. لن يكون استخراج البيانات الشخصية قانونيًا إلا عندما تتفوق مصالح مراقب البيانات (أنت في هذه الحالة) على مصالح صاحب البيانات. يجب إجراء التحليل بعناية وتوثيقه رسميًا، لذا يُفضل استشارة خبير قبل المضي قدمًا في هذا المسار.
بمجرد البدء بجمع البيانات الشخصية، يجب عليك الالتزام بمبادئ اللائحة العامة لحماية البيانات (GDPR) لمعالجة البيانات ، بما في ذلك تقليل البيانات، والاحتفاظ بها بشكل معقول، والأمان . بصفتك مسؤولاً عن البيانات، ستتحمل التزامات امتثال معينة لتخزين البيانات ومعالجتها، والتزامات أكبر في حال نقلها إلى جهات خارجية. ستحتاج أيضًا إلى إبلاغ أصحاب البيانات بأنك تعالج بياناتهم من خلال إشعار الخصوصية، ومنحهم حقوقًا معينة مثل حق المحو أو الاعتراض على المعالجة. وأخيرًا، قد تحتاج إلى إجراء تقييم لتأثير حماية البيانات (DPIA) إذا كانت المعالجة تنطوي على "مخاطر عالية" على صاحب البيانات. يمكن أن يساعد استخدام تقنيات مثل إخفاء الهوية في تلبية متطلبات الامتثال الخاصة بك.
يُلزم النظام العام لحماية البيانات (GDPR) كل دولة عضو بتطبيق قوانين تُوفق بين الحق في الخصوصية وحرية التعبير ومعالجة البيانات للأغراض الصحفية. تختلف هذه القوانين الوطنية اختلافًا كبيرًا، وغالبًا ما تكون الإرشادات المتعلقة بكيفية استخدامها أقل. كما قد يكون من الصعب تحديد قوانين الدولة المنطبقة عند النظر في مكان إنشاء الموقع الإلكتروني، وموقع الخوادم، وجنسية أصحاب البيانات. يُنصح باستشارة محامٍ إذا كنت تعتقد أن هذا الاستثناء ينطبق عليك.
إذا بدا كل هذا كثيرًا، فهذا جيد لأنه من المفترض أن يكون كذلك! يُنشئ النظام العام لحماية البيانات (GDPR) إطارًا قويًا لحماية المعلومات الشخصية، لذا يجب عليك جمع هذه البيانات فقط عند الحاجة إليها. بالعودة إلى مثالنا على قائمة الإيجار، فكّر فيما إذا كان من الضروري جمع الأسماء ومعلومات الاتصال، وإذا جمعت بيانات شخصية بالصدفة، فحاول حذفها في أسرع وقت ممكن.
في عام ٢٠٢٢، أصدر الاتحاد الأوروبي قانون حوكمة البيانات ، والذي سيدخل حيز التنفيذ في سبتمبر ٢٠٢٣. يهدف هذا القانون إلى إتاحة البيانات الحكومية، وذلك بشكل رئيسي من خلال إنشاء " وسطاء بيانات " ومنع اتفاقيات مشاركة البيانات الحصرية التي تشمل الحكومة. يبدو أنه نسخة أكثر تطورًا من قوانين البيانات المفتوحة التي أقرتها بعض الولايات والمناطق في الولايات المتحدة. ونظرًا لحداثة هذا القانون، لم يتضح بعد كيف سيؤثر على استخلاص البيانات من الويب، ولكن إذا كنت تنوي استخلاص بيانات من مصدر حكومي، فمن الجيد أن تضع هذا التطور في اعتبارك.
كما ينظر برلمان الاتحاد الأوروبي حاليًا في مقترحات لقانون البيانات ولائحة جديدة للخصوصية الإلكترونية ، لذا من الممكن أن يتغير القانون في السنوات القليلة القادمة. من شأن بعض الصياغة في قانون البيانات المقترح تعديل الحق الفريد ، ولكن التفاصيل لا تزال قيد المناقشة. ومع ذلك، في الوضع الحالي، فإن استخراج البيانات التجارية العامة التي لا تخضع لقوانين حقوق النشر أو الخصوصية أمر قانوني في الاتحاد الأوروبي. وأخيرًا، يتضمن توجيه السوق الرقمية الموحدة الذي ناقشناه أعلاه بندًا يشير إلى أنه حتى شروط الخدمة قد لا تمنع الباحثين تمامًا من استخراج البيانات، ولكن نطاقه غير واضح ومن المرجح أن يحتاج إلى اختبار في المحكمة.
نحن نعلم. إنه أمر معقد
الوضع القانوني لاستخراج بيانات الإنترنت في الاتحاد الأوروبي موضوعٌ معقدٌ ودقيقٌ بشكلٍ مدهش. معظم الموارد الثانوية وجزءٌ كبيرٌ من السوابق القضائية المعمول بها تستهدف الشركات التي تستخرج بيانات الإنترنت لخدمة مصالحها التجارية. من المرجح أن تكون لهذه الشركات مواردٌ ومستوياتٌ مختلفةٌ من تحمّل المخاطر مقارنةً بمعظم الصحفيين أو الباحثين أو المدافعين عن حقوق الإنسان.
إذا كنت صحفيًا أو باحثًا يبحث في مجال كشط الويب في الاتحاد الأوروبي، فتذكر ما يلي:
- من المرجح أن تشكل شروط الخدمة العائق الأكبر أمام جمع البيانات غير الشخصية.
- إذا كان لزاما عليك جمع البيانات الشخصية، قم بتقليلها والتخلص منها قدر الإمكان.
نفترض أيضًا أن زملاءنا الصحفيين والباحثين مهتمون أكثر بالبيانات المحمية بموجب توجيه قواعد البيانات أو اللائحة العامة لحماية البيانات، بدلًا من النصوص المحمية بحقوق الطبع والنشر. تستهلك شركات مثل OpenAI كميات هائلة من النصوص لتغذية نماذج التعلم الآلي الخاصة بها، مما يضع الكثير من القوانين القائمة تحت الاختبار .
نأمل أن تكون هذه النظرة العامة على قانون كشط البيانات في الاتحاد الأوروبي مفيدة لصحفيي البيانات وغيرهم من الباحثين الذين يسعون لجمع معلومات للمصلحة العامة. استخدموها لفهم الإمكانيات المتاحة في هذا المجال - ولكن استشيروا محاميًا إذا كنتم بحاجة إلى إرشادات بخصوص وضعكم الخاص - لأن هذا لا يُعدّ نصيحة قانونية.
تحديث 24 أغسطس 2023
تم تحديث هذه القصة بمعلومات حول القوانين الوطنية المتعلقة بمعالجة البيانات الشخصية للأغراض الصحفية.
الاعتمادات
توضيح
ارتباط
تحرير وإنتاج النسخ
المراجعة الفنية
التحرير
نُشرتهنا أيضًا
صورة فوتوغرافية بواسطة Krakograff Textures على Unsplash