Protección de datos Sensibles en entornos analíticos

Introducción

Cuando se trabaja con datos, especialmente en temas analíticos, tenemos dos fuerzas encontradas. Por un lado, los consumidores de datos, entendiendo como tal a los equipos de Data Scientist, Data Analysts, Data Visualization, etc. que necesitan datos para hacer su trabajo. Por otro lado, los equipos de seguridad y cumplimientos normativos como puede ser GDPR en Europa, la CCPA en California, APEC en USA, HIPAA, etc. Ya que es tan importante el obtener información de nuestros datos como el asegurarnos que cumplimos con los derechos de los usuarios y por ende de sus datos, además de que estos no sean usados para nada ilegal o no informado, incluyendo por supuesto que no son robados para usos fraudulentos, etc.

Consumidores de Datos y Equipos de Seguridad

Por ello una de las mayores preocupaciones que tenemos al diseñar una arquitectura para procesamiento y análisis de datos es el de la seguridad, para asegurarnos que los datos son accesibles y útiles, pero que además tengan un uso seguro y autorizado.
Aquí es importante la idea de seguro, ya que existe un auténtico mercado negro de datos personales con los que comerciar, por lo que debemos asegurar que los datos personales que se atesoran, caso de caer en malas manos, no supongan un problema para nuestra empresa. 
En este caso la mejor solución para proteger estos datos, es el de no tenerlos, pero a veces esto no es viable, por ello la aproximación que se sigue en la actualidad es la de sustituir los valores que son sensibles por otros, que por un lado permita a estos consumidores de datos hacer su trabajo, y por otro que si la información fuese accedida por alguien sin los permisos oportunos no fuera un riesgo o una brecha de seguridad…
Como os podéis imaginar este tema da para mucho, así que este articulo tendrá 3 entregas, este primero donde trataremos las tipologías de información sensible, un segundo en donde trabajaremos sobre datos estructurados como CSV, campos de una tabla, etc. y por último una tercera en donde veremos cómo lidiar con información no estructurada tales como imágenes, texto libre, etc.
 

Tipologías de Información sensible

Para ello lo primero que se nos puede venir a la cabeza es, ¿qué información queremos proteger?, para eso existen diversas categorizaciones de datos, que indican la tipología de datos a proteger, hablamos de datos personales, datos de salud, datos bancarios, etc. y vamos a enfocarlo desde el punto de vista del GDPR, que es la que más nos afecta.

Tipologías de Información Sensible

DP (Datos Personales)

Esta es una categoría muy general que hace referencia a todos aquellos datos que de una u otra manera puedan hacer referencia a los usuarios: 

  • Información de identificación directa como tu nombre y apellidos, tu número de teléfono, tu DNI, etc.
  • Datos seudo-anonimizados o información de identificación no directa, que no permita realizar una identificación directa de los usuarios, pero sí permite individualizar comportamientos (Este es el recomendado desde la comisión europea).
     
Datos Personales (DP)

DPS: Datos Personales Sensibles o especialmente protegidos

Esta trata sobre aquella información especial, que por su especial carácter deberemos manejar con mucho cuidado:

  • Origen racial o étnico.
  • Opiniones políticas.
  • Creencias religiosas o filosóficas.
  • Afiliación sindical.
  • Datos relativos a la vida sexual y/o la orientación sexual.
Datos Personales Sensibles (DPS)

Categorías especiales médicas PHI, ePHI (Electronic PHI): personally Healthcare information

Esta hace referencia a la información relacionada con la salud, podemos hablar de enfermedades, historiales médicos, grabaciones de conversaciones, resultados de pruebas médicas, etc. en concreto la GDPR nos indica:

  • Datos genéticos
  • Datos biométricos
  • Datos relativos a la salud
     
Personally Healthcare Information

Información Bancaria (PCI DSS: Payment Card Industry Data Security Standard)

Este es un estándar creado por las 5 mayores empresas de tarjetas de crédito (AMEX, VISA, MasterCard, Discover y JCB), para tener un control de los datos de las tarjetas bancarias y por ende de las operaciones realizadas con dichas tarjetas.

Información Bancaria (PCI DSS)

Conclusión

En esta primera parte hemos visto una pequeña introducción teórica, y quizás más aburrida, a lo que es la protección de los datos sensibles, cuáles son las tipologías de datos sensibles que podemos encontrarnos, etc. en el siguiente articulo nos adentraremos en partes más divertidas, empezando con la protección de los datos estructurados y que alternativas son las más comúnmente utilizadas a la hora de trabajar con datos sensibles.

He leído y acepto la política de privacidad
Acepto recibir emails sobre actividades de recruiting NTT DATA