paint-brush
Analyse et mise en œuvre du nanociblage sur LinkedIn basé sur des non-Pii accessibles au publicpar@netizenship
163 lectures

Analyse et mise en œuvre du nanociblage sur LinkedIn basé sur des non-Pii accessibles au public

Trop long; Pour lire

Cet article explore les risques liés à la confidentialité du nanociblage sur LinkedIn, démontrant que la combinaison de la localisation et des compétences professionnelles à partir de données accessibles au public peut identifier de manière unique les utilisateurs et les exposer à des publicités hyper-personnalisées, soulignant ainsi les préoccupations concernant la confidentialité et la sécurité des données sur les plateformes de médias sociaux.
featured image - Analyse et mise en œuvre du nanociblage sur LinkedIn basé sur des non-Pii accessibles au public
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Auteurs:

(1) Ángel Merino, Département d'ingénierie télématique, Université Carlos III de Madrid {[email protected]} ;

(2) José González-Cabañas, Institut Big Data UC3M-Santander {[email protected]}

(3) Ángel Cuevas, Département d'ingénierie télématique de l'Université Carlos III de Madrid et UC3M-Santander Big Data Institute {[email protected]} ;

(4) Rubén Cuevas, Département d'ingénierie télématique de l'Université Carlos III de Madrid et UC3M-Santander Big Data Institute {[email protected]}.

Tableau des liens

Résumé et introduction

Contexte de la plateforme de publicité LinkedIn

Base de données

Méthodologie

Unicité de l'utilisateur sur LinkedIn

Preuve de concept du nanociblage

Discussion

Travaux connexes

Considérations éthiques et juridiques

Conclusions, remerciements et références

annexe

ABSTRAIT

De nombreuses études ont montré à plusieurs reprises que la combinaison de quelques éléments d'informations non personnelles identifiables (non PII) suffit à rendre un utilisateur unique dans un ensemble de données comprenant des millions, voire des centaines de millions d'utilisateurs. Ce travail étend ce domaine de recherche, démontrant qu'une combinaison de quelques attributs non-PII accessibles au public peut être activée par un tiers pour cibler individuellement un utilisateur avec des messages hyper-personnalisés. Cet article met d'abord en œuvre une méthodologie démontrant que la combinaison de la localisation et de 6 compétences professionnelles rares (ou 14 aléatoires) déclarées par un utilisateur dans son profil LinkedIn est suffisante pour devenir unique dans une base d'utilisateurs formée de ∼800 millions d'utilisateurs avec une probabilité de 75. %. Une nouveauté dans ce cas, par rapport aux travaux antérieurs de la littérature, est que la localisation et les compétences signalées dans un profil LinkedIn sont publiquement accessibles à tout autre utilisateur ou entreprise enregistré sur la plateforme et, en outre, peuvent être activées via des campagnes publicitaires. . Nous avons mené une expérience de preuve de concept ciblant trois des auteurs de l'article. Nous avons démontré que toutes les campagnes publicitaires configurées avec l'emplacement et ≥13 compétences professionnelles aléatoires extraites des profils LinkedIn des auteurs ont diffusé avec succès des publicités exclusivement à l'utilisateur ciblé. Cette pratique est appelée nanociblage et peut exposer les utilisateurs de LinkedIn à des risques potentiels en matière de confidentialité et de sécurité, tels que la publicité malveillante ou la manipulation.


Mots-clés LinkedIn · Publicité en ligne · Confidentialité des utilisateurs · Nanociblage

1. Introduction

La capacité des tiers à identifier de manière unique les utilisateurs sans leur consentement à grande échelle est un bon indicateur de la fragilité de la vie privée des citoyens. Un moyen évident d'identifier un utilisateur consiste à utiliser des informations personnelles identifiables (PII) telles que l'e-mail, le numéro de téléphone, l'adresse postale, etc. La création de grandes bases de données illégales de PII peut représenter des risques pour la vie privée des utilisateurs. C’est pourquoi de fréquentes campagnes de sensibilisation incitent les utilisateurs à faire attention aux e-mails, SMS, messages WhatsApp, etc., provenant de sources inconnues. En fait, les réglementations actuelles en matière de protection des données telles que le RGPD [1] indiquent clairement que les informations personnelles sont des données personnelles et nécessitent (dans la plupart des cas) le consentement de l'utilisateur pour être traitées. Une approche plus subtile pour identifier de manière unique et potentiellement cibler un utilisateur consiste à combiner plusieurs éléments non PII qui ne sont pas considérés comme des données personnelles isolément. Cette identification basée sur des données non personnelles est plus difficile à détecter mais présente un risque important. C'est pourquoi l'unicité des utilisateurs basée sur des données non PII a été abordée dans la littérature ces dernières années.


La littérature de recherche a prouvé à plusieurs reprises que peu d’éléments non PII suffisent à identifier de manière unique un utilisateur dans de grands ensembles de données. Par exemple, seuls 4 enregistrements d’appels téléphoniques peuvent identifier un utilisateur dans un ensemble de données de 1,5 million d’utilisateurs [2]. De même, sur une base d'utilisateurs de 1,1 million d'utilisateurs, seuls 4 enregistrements d'achat par carte de crédit sont nécessaires pour distinguer un individu [3].


De même, 8 classements de films et dates de révision approximatives peuvent distinguer un utilisateur parmi 480 000 utilisateurs de Netflix [4]. La combinaison du sexe, du code postal et de la date de naissance peut révéler l'identité de 87 % et 63 % des citoyens lors des recensements américains de 1990 et 2000, respectivement [5][6]. En outre, 15 attributs démographiques peuvent réidentifier 99,98 % des Américains dans n'importe quel ensemble de données [7].


Ces études représentent une contribution inestimable à l’évaluation de la fragilité de la vie privée humaine. Cependant, tous ces travaux restent théoriques et n'abordent pas la manière dont les éléments de données non PII peuvent être activés dans des attaques spécifiques compromettant la sécurité et/ou la confidentialité des utilisateurs. Nous pensons que l'étape naturelle pour compléter ce domaine de recherche consiste à développer des méthodologies et des expériences pour démontrer que la combinaison d'éléments non PII peut être activée en pratique par des tiers pour cibler les utilisateurs individuellement et (potentiellement) compromettre leur sécurité et/ou confidentialité.


À la connaissance des auteurs, la seule étude antérieure dans le domaine qui montre pratiquement qu'une combinaison d'éléments non PII peut être activée pour atteindre un seul utilisateur exclusivement avec une publicité est [8]. Ce travail réalise une expérience de preuve de concept, montrant qu'un attaquant capable de dévoiler environ 20 préférences publicitaires aléatoires d'un utilisateur peut les cibler avec une campagne publicitaire de nanociblage, c'est-à-dire que la publicité atteint exclusivement l'utilisateur ciblé. Il s'agit de la première preuve tangible que des informations non PII peuvent être exploitées pour cibler des utilisateurs individuels sans le consentement explicite d'être atteint uniquement par ces moyens. Cependant, l’utilisation pratique de la technique rapportée à grande échelle présente une limitation significative. Cela nécessite que l'attaquant accède aux préférences publicitaires des utilisateurs, ce qui est une tâche complexe car elles ne sont pas accessibles au public. Cette limitation réduit les attaquants potentiels à ceux possédant de solides connaissances techniques capables de déduire les préférences publicitaires d'un utilisateur. Bien que le travail mentionné constitue une contribution de recherche très importante, nous pensons qu'il est important que la communauté des chercheurs contribue à des études plus approfondies montrant qu'il est possible de mettre en œuvre des attaques hyper-personnalisées soumises à des éléments non-PII accessibles au public et divulgués de manière proactive par les utilisateurs. De telles études prouveraient que les éléments non PII, souvent non considérés comme des données personnelles, peuvent comporter de graves risques en matière de confidentialité et/ou de sécurité pour les utilisateurs.


Nos travaux montrent que des centaines de millions d'utilisateurs peuvent être ciblés individuellement avec des messages hyper-personnalisés combinant quelques éléments de données non PII accessibles au public. Pour cela, dans cette recherche, nous nous sommes imposés trois exigences : (i) la base d'utilisateurs doit comprendre des dizaines ou des centaines de millions d'utilisateurs répartis partout dans le monde ; (ii) les éléments de données non PII requis pour cibler un utilisateur individuel doivent être accessibles au public, et (iii) les éléments non PII peuvent être activés par des tiers externes pour atteindre les utilisateurs avec des messages hyper-personnalisés individuellement. À notre connaissance, aucun des travaux antérieurs de la littérature ne répond simultanément à ces trois exigences.


Notre article prouve qu'un utilisateur individuel peut être nanociblé sur LinkedIn avec une publicité en utilisant la combinaison de l'emplacement (pays, région ou ville) et des compétences professionnelles disponibles dans son profil. Cela répond aux trois exigences précédentes comme suit : (i) LinkedIn compte environ 800 millions d'utilisateurs, soit environ 10 % de la population mondiale est disponible, (ii) la localisation et les compétences professionnelles de ses utilisateurs sont des éléments non PII accessibles au public pour toute personne connectée sur LinkedIn. Par conséquent, n'importe qui peut facilement obtenir les informations requises qui identifient de manière unique un utilisateur sur LinkedIn, et (iii) la combinaison de compétences professionnelles et de localisation peut être activée via LinkedIn Ads Manager pour diffuser des publicités hyper-personnalisées aux utilisateurs. En pratique, cela signifie que le nano-ciblage d'un utilisateur nécessite simplement d'avoir un compte LinkedIn, de récupérer l'emplacement et les compétences professionnelles du profil de l'utilisateur ciblé, et de configurer une campagne publicitaire à l'aide de ces informations. Il s’agit d’une opération très simple qui peut permettre à de nombreux tiers disposés à le faire de lancer des campagnes/attaques de nanociblage sur LinkedIn en exploitant des éléments non PII.


Nous avons divisé notre travail en deux parties. Dans la première partie de l'article, nous utilisons un ensemble de données comprenant des informations sur 39 000 compétences collectées auprès de 1 699 utilisateurs, et nous développons un modèle basé sur les données qui définit la probabilité d'unicité de l'utilisateur sur LinkedIn en combinant l'emplacement et les N compétences professionnelles publiquement disponibles dans leur profil. Dans la deuxième partie de l'article, nous utilisons les résultats du modèle pour mettre en œuvre une expérience de preuve de concept, ciblant trois auteurs de cet article, démontrant qu'il est possible de mener des campagnes de nanociblage sur LinkedIn.


LinkedIn affirme dans ses directives publicitaires que le nombre minimum de membres ciblés pour lancer une campagne est de 300, mais cette limite peut être facilement contournée en exploitant ce que nous pensons être un bug d'implémentation. Nous avons signalé la vulnérabilité de confidentialité révélée par nos recherches à LinkedIn en suivant le processus recommandé. Malheureusement, les gestionnaires de plateforme qui ont reçu notre rapport n'ont pas considéré que les résultats de nos recherches représentaient une vulnérabilité.


Ce travail a donné plusieurs résultats clés :


• La combinaison de l'emplacement des utilisateurs avec 14 (23) compétences sélectionnées au hasard parmi leur ensemble de compétences déclarées les rend uniques sur LinkedIn avec une probabilité de 75 % (90 %). Si nous utilisons plutôt les compétences les moins populaires, nous n’avons besoin que de 6 (8) compétences pour atteindre le même niveau d’unicité.


• Notre expérience de preuve de concept montre que toutes les campagnes utilisant la localisation et ≥13 compétences aléatoires ont réussi à nano-cibler les trois auteurs ciblés.


• À notre connaissance, il s'agit de la première étude démontrant que des données non personnelles accessibles au public peuvent être utilisées pour cibler efficacement des citoyens uniques à grande échelle.


Figure 1 : CDF du nombre de compétences par profil utilisateur dans notre échantillon de données.


Figure 2 : CDF de la taille de l'audience mondiale associée aux 4 941 compétences professionnelles uniques de notre ensemble de données.


Figure 3 : Longueur des vecteurs utilisés dans notre méthodologie selon le nombre de compétences professionnelles considérées allant de N=1 à N=50 compétences.


Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.