En el primer artículo, resaltamos la importancia de la gestión de datos y cómo esta constituye la base para obtener soluciones basadas en datos, ya sean modelos de Business Intelligence (BI), modelos de Machine Learning, entre otros.
Sin embargo, también se hizo hincapié en que la gestión de datos no es una tarea sencilla, ya que los datos deben ser organizados, clasificados y limpiados para obtener conclusiones o resultados de alta calidad. Para facilitar este proceso, existen diversos marcos de trabajo, como:
Es importante destacar que estos marcos de trabajo buscan mejorar la calidad, estructura, seguridad y disponibilidad de los datos, acelerar el proceso de acceso y análisis de los datos y facilitar la toma de decisiones. Sin embargo, entre ellos existe cierto grado de solapamiento y, en mi opinión, ninguno cubre todas las necesidades en la gestión de datos de principio a fin. Por esta razón, en esta segunda parte del artículo, me centraré en los aspectos más importantes a considerar cuando se manipulan los datos basándome en mi experiencia profesional y en el Cloud de Azure, que es mi entorno profesional.
En el ámbito del procesamiento de datos, existen varias etapas clave que debemos considerar para preparar y adecuar los datos para su uso. Primero y más importante, es crucial tener un conocimiento profundo de nuestros datos, ya que, sin este, no podremos procesarlos de manera efectiva.
Una vez que comprendemos a fondo nuestros datos, podemos proceder a procesarlos y transformarlos de manera que se ajusten a los criterios establecidos por nuestra empresa. Este proceso nos permitirá lograr una homogeneidad en los datos, asegurando que sean coherentes y precisos.
Después de identificar cómo debemos procesar y transformar nuestros datos, debemos ejecutar las diferentes manipulaciones y transformaciones necesarias. En algunos casos, puede ser necesario estructurar o limpiar los datos para asegurar su preparación para su uso.
Finalmente, es importante examinar los datos resultantes desde una perspectiva global, garantizando que abordamos todas las dimensiones de la calidad de los datos. Esta etapa nos permitirá obtener una visión general de cómo quedan los datos al final de todo el proceso.
Estas son las partes que abordaremos en el presente artículo.
Este proceso implica entender a fondo nuestros datos y familiarizarnos con ellos, de manera que sepamos en qué aspectos debemos trabajar. En este caso, definimos dos pasos consecutivos:
Este proceso es vital, pero puede consumir mucho tiempo si se realiza manualmente, por lo que es mejor usar librerías específicas para estos procesos:
Una vez que entendemos y conocemos nuestros datos, debemos determinar dónde realizar el procesamiento de los datos. Normalmente, en el procesamiento de datos se plantea una arquitectura por capas. Una de las arquitecturas más conocidas es la del medallón, donde en cada una de las capas la información tiene una calidad diferente, similar a lo que ocurre con los metales preciosos.
Además de estas tres capas, a veces se añade una etapa cero o de Landing Zone, donde se desdobla la capa de Bronze. En esta Zona de desembarque o capa Cero se descargan los datos, y al trasladarlos a Bronze se realiza una transformación mínima, como por ejemplo para eliminar datos de carácter personal o PII, de manera que los datos anonimizados se conservan en Bronze, y los datos originales con información personal se eliminan.
Las diferentes transformaciones suelen realizarse en el paso de Bronze a Silver, aunque no siempre tiene que ser así. Debemos analizar y entender las excepciones a nuestra regla, como por ejemplo el caso de la eliminación de datos temporales que mencionábamos antes, o transformaciones al disponibilizar los datos en Gold, que por requerimientos de negocio debamos cambiar o modificar alguna tipología, cambios de unidades o de horas, etc.
Una vez que conocemos la realidad de nuestros datos de origen, debemos decidir cuál será la estructura y formato de nuestros datos, este formato o estructura tiene dos enfoques.
Una vez que los datos han sido descargados y almacenados en la zona de Bronce, es necesario realizar una limpieza y aplicar diversas reglas de transformación y calidad sobre los mismos. Esto garantiza que los datos estén preparados para satisfacer las diversas necesidades que puedan surgir. A continuación, presentamos una lista no exhaustiva de las transformaciones más típicas, aunque esta puede ampliarse en función de la naturaleza de los datos procesados:
Renombrado de campos: Este proceso implica cambiar los nombres de las entidades para hacerlos más comprensibles para el negocio o para facilitar el posterior procesamiento de datos.
Proceso de Data Transformation: Este procesamiento genera nueva información, ya sea dentro del propio registro o como nuevas entidades. Este paso puede realizarse al insertar en la zona de Plata o al disponibilizar a la zona de Oro, pero por coherencia, generalmente se realiza en Plata.
Este proceso se utiliza para solucionar problemas con los datos en bruto y suele incluir los siguientes pasos:
Como resumen de todo lo visto hasta hora, vemos que, en el entorno empresarial actual, donde la información es un activo invaluable, la adopción de un marco robusto para la calidad de los datos se vuelve indispensable. En este contexto, el Precision Data Framework se erige como una estructura integral diseñada para salvaguardar la integridad y confiabilidad de los datos en todas las fases de su ciclo de vida.
Exploraremos a continuación las dimensiones clave que conforman este framework, y que hemos ido viendo a lo largo de este post.
En esta segunda parte hemos visto cuales son los elementos a tener en cuenta en la transformación de los datos, y como su implementación, no solo mejora la toma de decisiones, sino que también sienta las bases para la innovación continua en un entorno empresarial impulsado por datos.
Pero la pregunta que nos tenemos que hacer es “¿Es suficiente con esto?”, “¿Cómo hago para que todas estas transformaciones una vez implementadas sirvan para generar valor en la empresa?” pues lo que veremos en la tercera parte de este artículo, en donde veremos que se debe tener en cuenta a la hora de poner todo este proceso abstracto en producción en un sistema empresarial…