paint-brush
Análisis e implementación de nanotargeting en LinkedIn basado en Non-Pii disponible públicamentepor@netizenship
163 lecturas

Análisis e implementación de nanotargeting en LinkedIn basado en Non-Pii disponible públicamente

Demasiado Largo; Para Leer

Este artículo explora los riesgos de privacidad de la nanotargeting en LinkedIn, demostrando que combinar la ubicación y las habilidades profesionales a partir de datos disponibles públicamente puede identificar de forma única a los usuarios y exponerlos a anuncios hiperpersonalizados, destacando las preocupaciones sobre la privacidad y la seguridad de los datos en las plataformas de redes sociales.
featured image - Análisis e implementación de nanotargeting en LinkedIn basado en Non-Pii disponible públicamente
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Autores:

(1) Ángel Merino, Departamento de Ingeniería Telemática Universidad Carlos III de Madrid {[email protected]};

(2) José González-Cabañas, UC3M-Instituto Santander Big Data {[email protected]}

(3) Ángel Cuevas, Departamento de Ingeniería Telemática Universidad Carlos III de Madrid & UC3M-Instituto Santander Big Data {[email protected]};

(4) Rubén Cuevas, Departamento de Ingeniería Telemática Universidad Carlos III de Madrid & UC3M-Instituto Santander Big Data {[email protected]}.

Tabla de enlaces

Resumen e introducción

Antecedentes de la plataforma de publicidad de LinkedIn

Conjunto de datos

Metodología

La singularidad del usuario en LinkedIn

Prueba de concepto de nanofocalización

Discusión

Trabajo relacionado

Ética y consideraciones legales

Conclusiones, agradecimientos y referencias

Apéndice

ABSTRACTO

Un conjunto de literatura ha demostrado varias veces que combinar algunos elementos de información de identificación no personal (no PII) es suficiente para hacer que un usuario sea único en un conjunto de datos que incluye millones o incluso cientos de millones de usuarios. Este trabajo amplía esta área de investigación y demuestra que un tercero puede activar una combinación de algunos atributos que no son PII disponibles públicamente para dirigirse individualmente a un usuario con mensajes hiperpersonalizados. Este artículo primero implementa una metodología que demuestra que la combinación de la ubicación y 6 habilidades profesionales raras (o 14 aleatorias) reportadas por un usuario en su perfil de LinkedIn es suficiente para convertirse en único en una base de usuarios formada por aproximadamente 800 millones de usuarios con una probabilidad de 75. %. Una característica novedosa en este caso, respecto a trabajos previos en la literatura, es que la ubicación y habilidades reportadas en un perfil de LinkedIn son accesibles públicamente para cualquier otro usuario o empresa registrada en la plataforma y, además, pueden activarse mediante campañas publicitarias. . Realizamos un experimento de prueba de concepto dirigido a tres de los autores del artículo. Demostramos que todas las campañas publicitarias configuradas con la ubicación y ≥13 habilidades profesionales aleatorias recuperadas de los perfiles de LinkedIn de los autores entregaron anuncios con éxito exclusivamente al usuario objetivo. Esta práctica se conoce como nanotargeting y puede exponer a los usuarios de LinkedIn a posibles riesgos de privacidad y seguridad, como publicidad maliciosa o manipulación.


Palabras clave LinkedIn · Publicidad online · Privacidad del usuario · Nanotargeting

1. Introducción

La capacidad de terceros para identificar de forma única a los usuarios sin su consentimiento a escala es un buen termómetro de cuán frágil es la privacidad de los ciudadanos. Una forma obvia de identificar a un usuario es a través de información de identificación personal (PII), como correo electrónico, número de teléfono, dirección postal, etc. La creación de grandes bases de datos ilegales de PII puede representar riesgos de privacidad para los usuarios. Por eso, frecuentes campañas de sensibilización instan a los usuarios a tener cuidado con los correos electrónicos, SMS, mensajes de WhatsApp, etc., procedentes de fuentes desconocidas. De hecho, las normativas actuales de protección de datos como el GDPR [1] establecen claramente que la PII son datos personales y requieren (en la mayoría de los casos) el consentimiento del usuario para ser procesados. Un enfoque más sutil para identificar de forma única y potencialmente dirigirse a un usuario es combinar múltiples elementos que no sean PII y que no se consideren datos personales de forma aislada. Esta identificación basada en no PII es más difícil de detectar pero plantea un riesgo significativo. Esta es la razón por la que en los últimos años se ha abordado en la literatura la singularidad del usuario basada en datos que no son PII.


La literatura de investigación ha demostrado repetidamente que unos pocos elementos que no sean PII son suficientes para identificar de forma única a un usuario en grandes conjuntos de datos. Por ejemplo, sólo 4 registros de llamadas de teléfonos móviles pueden identificar a un usuario en un conjunto de datos de 1,5 millones de usuarios [2]. De manera similar, en una base de usuarios de 1,1 millones de usuarios, sólo se necesitan 4 registros de compra con tarjeta de crédito para identificar a un individuo [3].


Del mismo modo, 8 clasificaciones de películas y fechas aproximadas de revisión pueden identificar a un usuario entre los 480.000 usuarios de Netflix [4]. La combinación de género, código postal y fecha de nacimiento puede revelar las identidades del 87% y el 63% de los ciudadanos en los censos estadounidenses de 1990 y 2000, respectivamente [5][6]. Además, 15 atributos demográficos pueden reidentificar al 99,98% de los estadounidenses en cualquier conjunto de datos [7].


Estos estudios representan una contribución invaluable para evaluar la fragilidad de la privacidad humana. Sin embargo, todos esos trabajos siguen siendo teóricos y no analizan cómo los elementos de datos que no son PII pueden activarse en ataques específicos que comprometan la seguridad y/o privacidad de los usuarios. Creemos que el paso natural hacia adelante para completar esta área de investigación es desarrollar metodologías y experimentos para demostrar que la combinación de elementos que no son PII puede ser activada en la práctica por un tercero para atacar a los usuarios individualmente y (potencialmente) comprometer su seguridad y/o privacidad.


Hasta donde saben los autores, el único estudio previo en el campo que muestra prácticamente que se puede activar una combinación de elementos que no son PII para llegar a un solo usuario exclusivamente con un anuncio es [8]. Este trabajo realiza un experimento de prueba de concepto, que muestra que un atacante que puede revelar aproximadamente 20 preferencias publicitarias aleatorias de un usuario puede orientarlas con una campaña publicitaria de nanotargeting, es decir, el anuncio llega exclusivamente al usuario objetivo. Esta es la primera prueba tangible de que la información que no es PII puede explotarse para dirigirse a usuarios individuales sin el consentimiento explícito de que se llegue únicamente por esos medios. Sin embargo, el uso práctico de la técnica reportada a escala tiene una limitación significativa. Requiere que el atacante acceda a las preferencias publicitarias de los usuarios, lo cual es una tarea compleja ya que no están disponibles públicamente. Esta limitación reduce los atacantes potenciales a aquellos con sólidos conocimientos técnicos capaces de inferir las preferencias publicitarias de un usuario. Aunque el trabajo mencionado es una contribución de investigación muy importante, creemos que es importante que la comunidad de investigación contribuya con más estudios que demuestren que es factible implementar ataques hiperpersonalizados sujetos a elementos no PII disponibles públicamente y divulgados proactivamente por los usuarios. Dichos estudios demostrarían que los elementos que no son PII, que a menudo no se consideran datos personales, pueden implicar graves riesgos de privacidad y/o seguridad para los usuarios.


Nuestro trabajo muestra que cientos de millones de usuarios pueden ser dirigidos individualmente con mensajes hiperpersonalizados que combinan algunos elementos de datos disponibles públicamente que no son PII. Para ello, en esta investigación nos impusimos tres requisitos: (i) la base de usuarios debe incluir decenas o cientos de millones de usuarios distribuidos por todo el mundo; (ii) los elementos de datos que no son PII necesarios para dirigirse a un usuario individual deben estar disponibles públicamente, y (iii) los elementos que no son PII pueden ser activados por terceros externos para llegar a los usuarios con mensajes hiperpersonalizados individualmente. Hasta donde sabemos, ninguno de los trabajos anteriores en la literatura cumple estos tres requisitos simultáneamente.


Nuestro artículo demuestra que se puede nanoorientar a un usuario individual en LinkedIn con un anuncio utilizando la combinación de la ubicación (país, región o ciudad) y las habilidades profesionales disponibles en su perfil. Esto cumple con los tres requisitos anteriores de la siguiente manera: (i) LinkedIn tiene aproximadamente 800 millones de usuarios, es decir, aproximadamente el 10% de la población mundial está disponible, (ii) la ubicación y las habilidades profesionales de sus usuarios son elementos no PII disponibles públicamente para cualquiera que haya iniciado sesión en LinkedIn. Por lo tanto, cualquiera puede obtener fácilmente la información requerida que identifica de forma única a un usuario en LinkedIn y (iii) la combinación de habilidades profesionales y ubicación se puede activar a través del Administrador de anuncios de LinkedIn para ofrecer anuncios hiperpersonalizados a los usuarios. En la práctica, esto significa que nanotargeting a un usuario sólo requiere tener una cuenta de LinkedIn, recuperar la ubicación y las habilidades profesionales del perfil del usuario objetivo y configurar una campaña publicitaria utilizando esa información. Esta es una operación muy simple que puede permitir a muchos terceros que deseen hacerlo ejecutar campañas/ataques de nanotargeting en LinkedIn explotando elementos que no son PII.


Dividimos nuestro trabajo en dos partes. En la primera parte del artículo, utilizamos un conjunto de datos que incluye información sobre 39.000 habilidades recopiladas de 1699 usuarios, y desarrollamos un modelo basado en datos que define la probabilidad de singularidad del usuario en LinkedIn combinando la ubicación y N habilidades profesionales disponibles públicamente en su perfil. En la segunda parte del artículo, utilizamos el resultado del modelo para implementar un experimento de prueba de concepto, dirigido a tres autores de este artículo, demostrando que es factible ejecutar campañas de nanotargeting en LinkedIn.


LinkedIn afirma en sus directrices publicitarias que el número mínimo de miembros objetivo para lanzar una campaña es 300, pero este límite puede superarse fácilmente explotando lo que creemos que es un error de implementación. Informamos a LinkedIn de la vulnerabilidad de privacidad revelada por nuestra investigación siguiendo el proceso recomendado. Desafortunadamente, los administradores de la plataforma que recibieron nuestro informe no consideraron que los resultados de nuestra investigación representaran una vulnerabilidad.


Este trabajo ha arrojado varios hallazgos clave:


• Combinar la ubicación de los usuarios con 14 (23) habilidades seleccionadas aleatoriamente de su conjunto de habilidades reportadas los hace únicos en LinkedIn con una probabilidad del 75% (90%). Si utilizamos las habilidades menos populares, solo necesitaremos 6 (8) habilidades para lograr el mismo nivel de singularidad.


• Nuestro experimento de prueba de concepto muestra que todas las campañas que utilizaron la ubicación y ≥13 habilidades aleatorias lograron nanotargetizar a los tres autores objetivo.


• Hasta donde sabemos, este es el primer estudio que muestra pruebas de que los datos no PII disponibles públicamente se pueden utilizar para dirigirse eficazmente a ciudadanos únicos a escala.


Figura 1: CDF del número de habilidades por perfil de usuario en nuestra muestra de datos.


Figura 2: CDF del tamaño de la audiencia mundial asociado con las 4941 habilidades profesionales únicas en nuestro conjunto de datos.


Figura 3: Longitud de los vectores utilizados en nuestra metodología según el número de habilidades profesionales consideradas que van desde N=1 hasta N=50 habilidades.


Este documento está disponible en arxiv bajo licencia CC BY-NC-ND 4.0 DEED.