paint-brush
Análise e implementação de Nanotargeting no LinkedIn com base em não-PII disponíveis publicamentepor@netizenship
163 leituras

Análise e implementação de Nanotargeting no LinkedIn com base em não-PII disponíveis publicamente

Muito longo; Para ler

Este artigo explora os riscos de privacidade do nanotargeting no LinkedIn, demonstrando que a combinação de localização e competências profissionais a partir de dados disponíveis publicamente pode identificar exclusivamente os utilizadores e expô-los a anúncios hiperpersonalizados, destacando preocupações sobre a privacidade e segurança dos dados em plataformas de redes sociais.
featured image - Análise e implementação de Nanotargeting no LinkedIn com base em não-PII disponíveis publicamente
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Autores:

(1) Ángel Merino, Departamento de Engenharia Telemática Universidade Carlos III de Madrid {[email protected]};

(2) José González-Cabañas, UC3M-Santander Big Data Institute {[email protected]}

(3) Ángel Cuevas, Departamento de Engenharia Telemática Universidade Carlos III de Madrid e UC3M-Santander Big Data Institute {[email protected]};

(4) Rubén Cuevas, Departamento de Engenharia Telemática Universidade Carlos III de Madrid e UC3M-Santander Big Data Institute {[email protected]}.

Tabela de links

Resumo e introdução

Histórico da plataforma de publicidade do LinkedIn

Conjunto de dados

Metodologia

Singularidade do usuário no LinkedIn

Prova de conceito de nanotargeting

Discussão

Trabalho relatado

Ética e considerações legais

Conclusões, agradecimentos e referências

Apêndice

ABSTRATO

Um corpo de literatura mostrou diversas vezes que a combinação de alguns itens de informações não pessoais identificáveis (não PII) é suficiente para tornar um usuário único em um conjunto de dados que inclui milhões ou mesmo centenas de milhões de usuários. Este trabalho amplia esta área de pesquisa, demonstrando que uma combinação de alguns atributos não PII disponíveis publicamente pode ser ativada por terceiros para atingir individualmente um usuário com mensagens hiperpersonalizadas. Este artigo implementa primeiramente uma metodologia que demonstra que a combinação da localização e 6 habilidades profissionais raras (ou 14 aleatórias) relatadas por um usuário em seu perfil do LinkedIn é suficiente para se tornar único em uma base de usuários formada por ∼800 milhões de usuários com probabilidade de 75 %. Uma novidade neste caso, em comparação com trabalhos anteriores da literatura, é que a localização e as competências relatadas em um perfil do LinkedIn são acessíveis publicamente a qualquer outro usuário ou empresa cadastrada na plataforma e, além disso, podem ser acionadas por meio de campanhas publicitárias. . Realizamos um experimento de prova de conceito visando três dos autores do artigo. Demonstramos que todas as campanhas publicitárias configuradas com a localização e ≥13 habilidades profissionais aleatórias recuperadas dos perfis dos autores no LinkedIn entregaram com sucesso anúncios exclusivamente ao usuário-alvo. Essa prática é conhecida como nanotargeting e pode expor os usuários do LinkedIn a possíveis riscos de privacidade e segurança, como publicidade maliciosa ou manipulação.


Palavras-chave LinkedIn · Publicidade online · Privacidade do usuário · Nanotargeting

1. Introdução

A capacidade de terceiros identificarem de forma única os utilizadores sem o seu consentimento em grande escala é um bom termómetro da fragilidade da privacidade dos cidadãos. Uma maneira óbvia de identificar um usuário é por meio de informações de identificação pessoal (PII), como e-mail, número de telefone, endereço postal, etc. A criação de grandes bancos de dados ilegais de PII pode representar riscos de privacidade para os usuários. É por isso que frequentes campanhas de conscientização orientam os usuários a terem cuidado com e-mails, SMS, mensagens de WhatsApp, etc., provenientes de fontes desconhecidas. Na verdade, os regulamentos atuais de proteção de dados, como o GDPR [1], afirmam claramente que as PII são dados pessoais e requerem (na maioria dos casos) o consentimento do usuário para serem processados. Uma abordagem mais sutil para identificar exclusivamente e potencialmente atingir um usuário é combinar vários itens não PII que não são considerados dados pessoais isoladamente. Esta identificação baseada em não-PII é mais difícil de detectar, mas representa um risco significativo. É por isso que a exclusividade do usuário com base em dados não PII tem sido abordada na literatura nos últimos anos.


A literatura de pesquisa provou repetidamente que poucos itens não PII são suficientes para identificar exclusivamente um usuário em grandes conjuntos de dados. Por exemplo, apenas 4 registros de chamadas de celular podem identificar um usuário em um conjunto de dados de 1,5 milhão de usuários [2]. Da mesma forma, em uma base de usuários de 1,1 milhão de usuários, são necessários apenas 4 registros de compras com cartão de crédito para identificar um indivíduo [3].


Da mesma forma, 8 classificações de filmes e datas aproximadas de revisão podem destacar um usuário entre 480 mil usuários do Netflix [4]. A combinação de gênero, código postal e data de nascimento pode revelar as identidades de 87% e 63% dos cidadãos nos censos dos EUA de 1990 e 2000, respectivamente [5][6]. Além disso, 15 atributos demográficos podem reidentificar 99,98% dos americanos em qualquer conjunto de dados [7].


Estes estudos representam uma contribuição inestimável para avaliar a fragilidade da privacidade humana. No entanto, todos esses trabalhos permanecem teóricos e não discutem como os itens de dados não PII podem ser ativados em ataques específicos que comprometem a segurança e/ou privacidade dos usuários. Acreditamos que o passo natural para completar esta área de pesquisa é desenvolver metodologias e experimentos para demonstrar que a combinação de itens não PII pode ser ativada na prática por terceiros para atingir usuários individualmente e (potencialmente) comprometer sua segurança e/ou privacidade.


Até onde sabemos, o único estudo anterior na área que mostra de forma prática que uma combinação de itens não PII pode ser ativada para alcançar um único usuário exclusivamente com um anúncio é [8]. Este trabalho realiza um experimento de prova de conceito, mostrando que um invasor capaz de revelar ∼20 preferências aleatórias de anúncios de um usuário pode direcioná-los com uma campanha publicitária de nanotargeting, ou seja, o anúncio atinge exclusivamente o usuário-alvo. Esta é a primeira prova tangível de que informações não PII podem ser exploradas para atingir usuários individuais sem consentimento explícito para serem alcançadas exclusivamente por esses meios. No entanto, o uso prático da técnica relatada em escala tem uma limitação significativa. Exige que o invasor acesse as preferências de anúncios dos usuários, o que é uma tarefa complexa, uma vez que não estão disponíveis publicamente. Essa limitação reduz os possíveis invasores àqueles com forte conhecimento técnico, capazes de inferir as preferências de anúncio de um usuário. Embora o referido trabalho seja uma contribuição de pesquisa muito importante, acreditamos que é importante que a comunidade de pesquisa contribua com mais estudos mostrando que é viável implementar ataques hiperpersonalizados sujeitos a itens não PII disponíveis publicamente e divulgados proativamente pelos usuários. Tais estudos provariam que os itens não PII, muitas vezes não considerados dados pessoais, podem envolver graves riscos de privacidade e/ou segurança para os utilizadores.


Nosso trabalho mostra que centenas de milhões de usuários podem ser alvos individuais de mensagens hiperpersonalizadas, combinando alguns itens de dados não PII disponíveis publicamente. Para tanto, nesta pesquisa, nos impusemos três requisitos: (i) a base de usuários deveria incluir dezenas ou centenas de milhões de usuários distribuídos por todo o mundo; (ii) os itens de dados não PII necessários para atingir um usuário individual devem estar disponíveis publicamente e (iii) os itens não PII podem ser ativados por terceiros externos para alcançar os usuários com mensagens hiperpersonalizadas individualmente. Até onde sabemos, nenhum dos trabalhos anteriores na literatura atende a esses três requisitos simultaneamente.


Nosso artigo prova que um usuário individual pode ser nanodirecionado no LinkedIn com um anúncio usando a combinação da localização (país, região ou cidade) e as competências profissionais disponíveis em seu perfil. Isso atende aos três requisitos anteriores: (i) o LinkedIn tem ∼800 milhões de usuários, ou seja, cerca de 10% da população mundial está disponível, (ii) a localização e as habilidades profissionais de seus usuários são itens não PII disponíveis publicamente para qualquer pessoa logada no LinkedIn. Assim, qualquer pessoa pode obter facilmente as informações necessárias que identificam exclusivamente um usuário no LinkedIn, e (iii) a combinação de habilidades profissionais e localização pode ser ativada através do LinkedIn Ads Manager para entregar anúncios hiperpersonalizados aos usuários. Na prática, isso significa que nanotargeting um usuário requer apenas ter uma conta no LinkedIn, recuperar a localização e as habilidades profissionais do perfil do usuário-alvo e configurar uma campanha publicitária usando essas informações. Esta é uma operação muito simples que pode permitir que muitos terceiros dispostos a fazê-lo executem campanhas/ataques de nanotargeting no LinkedIn explorando itens não PII.


Dividimos nosso trabalho em duas partes. Na primeira parte do artigo, usamos um conjunto de dados que inclui informações sobre 39 mil habilidades coletadas de 1.699 usuários e desenvolvemos um modelo baseado em dados que define a probabilidade de exclusividade do usuário no LinkedIn, combinando a localização e N habilidades profissionais disponíveis publicamente em seu perfil. Na segunda parte do artigo, utilizamos o resultado do modelo para implementar um experimento de prova de conceito, visando três autores deste artigo, demonstrando que é viável realizar campanhas de nanotargeting no LinkedIn.


O LinkedIn afirma nas suas diretrizes de publicidade que o número mínimo de membros alvo para lançar uma campanha é 300, mas este limite pode ser facilmente contornado explorando o que acreditamos ser um bug de implementação. Relatamos a vulnerabilidade de privacidade revelada por nossa pesquisa ao LinkedIn seguindo o processo recomendado. Infelizmente, os gestores da plataforma que receberam o nosso relatório não consideraram que os resultados da nossa investigação representavam uma vulnerabilidade.


Este trabalho produziu várias descobertas importantes:


• Combinar a localização dos usuários com 14 (23) habilidades selecionadas aleatoriamente do conjunto de habilidades relatadas torna-os únicos no LinkedIn com uma probabilidade de 75% (90%). Se usarmos as habilidades menos populares, precisaremos apenas de 6 (8) habilidades para atingir o mesmo nível de exclusividade.


• Nosso experimento de prova de conceito mostra que todas as campanhas que usam a localização e ≥13 habilidades aleatórias nano-direcionaram com sucesso os três autores-alvo.


• Até onde sabemos, este é o primeiro estudo que mostra provas de que dados não PII disponíveis publicamente podem ser usados para atingir eficazmente cidadãos únicos em grande escala.


Figura 1: CDF do número de habilidades por perfil de usuário em nossa amostra de dados.


Figura 2: CDF do tamanho do público mundial associado às 4.941 habilidades profissionais exclusivas em nosso conjunto de dados.


Figura 3: Comprimento dos vetores utilizados em nossa metodologia de acordo com o número de competências profissionais consideradas variando de N=1 a N=50 competências.


Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED.