“El anonimato va camino de desaparecer, Con solo 15 atributos demográficos es posible identificar a cada uno de los ciudadanos de Estados Unidos”. Pero no sólo a los de por aquellas comarcas. Un texto tomado del diario español El País.
Hasta ahora nos identificaba nuestro nombre, un número de DNI, un número de teléfono, una dirección postal o de email. Bastaba con ocultar estos detalles en una base de datos para que no pudiera vincularse una serie de informaciones con su propietario. Ya no.
El reguero de datos que dejamos más la capacidad de almacenarlos y tratarlos hacen que sea cada vez más sencillo identificarnos individualmente a partir de lo que hacemos o somos. El anonimato ya no depende de que alguien averigüe nuestro nombre o teléfono. Ahora nuestro comportamiento o identidad puede desanonimizarnos.
El anonimato ya no depende de que alguien averigüe nuestro nombre o teléfono. Nuestro comportamiento puede desanonimizarnos.
Las oficinas de censo, hospitales o empresas comparten muestras anonimizadas de sus inmensas bases de datos por transparencia o para estudios y comprobaciones. El pequeño tamaño de la muestra hacía difícil que esa información acabara vinculándose a un individuo.
Un nuevo estudio publicado por Nature Communications determina que esa incertidumbre es cuantificable. Y puede eliminarse. La coincidencia de unos datos no tenía por qué implicar que era exactamente esa persona. Con 15 atributos es suficiente para distinguir a cada uno de los estadounidenses, sea cual sea el tamaño de la muestra. «Aunque puede haber mucha gente que tiene 30 y pico años, es hombre, vive en Nueva York, muchos menos nacieron un 5 de enero de 1985, conducen un deportivo rojo y viven con dos niñas y un perro», dice Yves-Alexandre de Montjoye, profesor del Imperial College de Londres y uno de los autores de la investigación.
Los factores decisivos no son siempre los mismos o en la misma medida: a veces es el estado civil y otra la raza o cualquier otro. Pero solo tomando 15 factores el modelo es capaz de certificar con una probabilidad del 99,98% que la persona que buscamos es un perfil único entre una enorme base de datos.
Para encontrar a ese individuo hay que conocerlo o tener acceso obviamente a otra base de datos que nos dé parte de la información equivalente para cotejar. Parece difícil, pero la cantidad de combinaciones que pueden darse es cada vez mayor. La información sobre nosotros que puede encontrarse públicamente es cada día mayor.
A lo largo de la última década, los investigadores han encontrado que puede desanonimizarse con multitud de variables si el número de datos es suficiente: uso de redes sociales, datos genéticos, localización, gasto de tarjeta de crédito, historial de navegación, estilo de escritura, código informático.
El presidente Donald Trump ha sido una víctima reciente de la posibilidad de vincular información obtenida por ahí con muestras públicas de bases de datos. El New York Times publicó hace unos meses unos artículos de investigación sobre la declaración de renta del presidente. El periódico logró desanonimizar información fiscal de Trump en una lista de los contribuyentes más ricos del país a partir de unos datos que les había pasado una fuente: «El Times fue capaz de encontrar datos coincidentes en la información fiscal de los mayores contribuyentes (una base de datos disponible públicamente que cada año incluye una muestra de un tercio de esos contribuyentes, con los datos identificativos suprimidos)», dice el periódico.
«La carga de la prueba debe recaer en el controlador de los datos, no en los defensores de la privacidad».
«Los ataques solo van a mejorar», dice Arvind Narayanan, profesor de la Universidad de Princeton y autor del estudio que demostró que en una base de datos de 2006 solo con la información de evaluación de películas de medio millón de suscriptores de Netflix era posible identificar a individuos. Es decir, la capacidad de vincular nuestro pasado con información de bases de datos anónimas pero públicas solo va a mejorar.
«Nuestra recomendación», añade Narayanan, «es que la carga de la prueba recaiga en el controlador de los datos para que demuestre fehacientemente que los datos anónimos no pueden ser ligados a individuos, en lugar de que sean los defensores de la privacidad los que deban probar que esa relación es posible.»
Los métodos deberán ser otros. El uso de grandes bases de datos ayuda a entender una enfermedad, la movilidad en una ciudad u otros comportamientos humanos. Esta labor deberá seguir haciéndose, pero será cada día más difícil. Los organismos o empresas que compartan o pierdan parte de sus bases de datos anonimizadas se creían invulnerables al no estar vinculadas a información personal. Cada vez más sin embargo lo que hacemos queda registrado y es información personal, esté o no ligada a un nombre o identificador único.
«Necesitamos estándares más altos para lo que constituyan datos anónimos legalmente y empezar a usar herramientas de ingeniería que permitan usar datos que logren preservar la privacidad de la gente», dice De Montjoye.
Este tipo de estudios deben tenerse en cuenta cuando las grandes tecnológicas dicen que no vinculan información personal con nuestros «datos». Para desanonimizar a alguien, ya no hace falta el carné de identidad.