
Plataformas de datos: exploración de las opciones modernas para la administración de datos
En la economía digital actual, los datos son uno de los activos más valiosos de una organización y son cruciales en todas las áreas empresariales. Sin embargo, con más y más datos provenientes de diferentes sistemas y dispositivos, en diferentes formatos y frecuencias, hacer un seguimiento de los activos de datos existentes, su relación y quién puede acceder a ellos se ha vuelto más difícil que nunca. Organizaciones luchar por mantener la visibilidad, la calidad de los datos y el gobierno de sus datos, y esta falta de control conduce a ineficiencias, silos de datos y riesgos de cumplimientoy, en última instancia, obstaculiza el verdadero potencial de los datos. El desafío es claro: ¿cómo administrar, descubrir y gobernar sus datos de manera eficiente para generar valor y seguir siendo competitivos?
Los catálogos de datos modernos entran en juego para ayudar en este asunto. Al evolucionar mucho más allá de los sistemas tradicionales de administración de metadatos, se han convertido en herramientas poderosas que permiten a las organizaciones no solo catalogar sus vastos recursos de datos, sino también optimizar el descubrimiento de datos, aplicar políticas de gobierno y fomentar una cultura basada en los datos en todos los niveles de la organización.
En esta entrada del blog, analizaremos las soluciones del mercado conocidas como catálogos de datos modernos o plataformas de gestión de datos, para saber cuáles son, entre otros detalles:
- sus objetivos
- las funcionalidades y beneficios que ofrecen
- sus usuarios objetivo
Además, analizaremos cuáles son las consideraciones y los esfuerzos que deben realizar los diferentes tipos de organizaciones para integrar una de estas plataformas en su oferta tecnológica.
Tabla de contenido
- Introducción a los catálogos de datos
- Principales categorías de funcionalidad
- Herramientas disponibles
- Integrar un catálogo de datos en una organización
- Conclusiones
- Fuentes
Introducción a los catálogos de datos
Definición
Un catálogo de datos es una fuente única de información veraz para metadatos de todos los activos de datos en una organización. Apoya la gobernanza de los datos y ayuda usuarios busque, comprenda y confíe en los datos.
- Hay tres tipos de metadatos:
-
- Técnico: esquemas, tablas, columnas, nombres de archivos, nombres de informes, cualquier cosa que esté documentada en los sistemas de origen.
- Negocios: el conocimiento empresarial que los usuarios tienen sobre los activos, como las descripciones comerciales, los comentarios, las anotaciones, las clasificaciones y la aptitud para su uso.
- Operativo: actualiza las fechas y horas de los objetos, los trabajos de ETL responsables de crearlos y actualizarlos, los datos de acceso de los usuarios, etc.
- Estos activos de datos pueden ser almacenes de datos, lagos de datos, canalizaciones de datos, paneles de BI, consultas, etc. Por lo tanto, el catálogo de datos se puede ver como un mapa de extremo a extremo de los datos disponibles.
- El usuarios para el catálogo de datos han sido principalmente profesionales de datos (analistas de datos, ingenieros de datos, etc.). Sin embargo, hoy en día, todos los miembros de una organización, incluso los usuarios empresariales, necesitan un contexto sobre los datos, las métricas y los informes que utilizan a diario.
Gobernanza de datos
La gobernanza de datos es todo lo que hace una organización para garantizar que los datos sean seguros, privados, precisos, disponibles y utilizables. Incluye las acciones, los procesos y la tecnología que los respalda durante todo el ciclo de vida de los datos.
Se trata de:
- Establecer estándares internos y políticas de datos que se apliquen a la forma en que se recopilan, almacenan, procesan y eliminan los datos.
- Definir y controlar quién puede acceder a qué tipos de datos y qué tipos de datos están bajo control.
- Cumplir con los estándares externos establecidos por las asociaciones industriales, las agencias gubernamentales y otras partes interesadas.
Con respecto a la relación entre los catálogos de datos y la gobernanza de datos, hay dos comentarios importantes que hacer:
- Si bien los catálogos de datos modernos admiten muchos de los procesos necesarios para implementar la gobernanza de datos en una organización, no se puede decir que cubran por completo esta área amplia y compleja. Por ejemplo Control o administración del acceso a los datos, una parte crucial de la gobernanza de datos, no es totalmente compatible con la mayoría de las herramientas. Con los entornos híbridos y multinube actuales, aplicar políticas de gobierno y administración de identidades centralizadas y consistentes en toda la empresa es un gran desafío. Para abordar este problema, hay otras herramientas disponibles en el mercado, a menudo conocidas como soluciones de gobierno del acceso a los datos. También existe la posibilidad de utilizar servicios desarrollados a medida para abordar ese problema, y se necesitan otras funciones relacionadas con la gobernanza.
- Además, la implementación correcta de un catálogo de datos como fuente centralizada para la colaboración hace que sea fundamental contar con funciones de gobierno de datos que definan ciertas políticas y estándares para recopilar y usar los datos y sus metadatos correspondientes.
Evolución
Soluciones tradicionales
Los catálogos de datos han servido como fuentes centrales de verdad para los datos desde hace décadas.
- La primera ola de catálogos de datos apareció entre Década de 1990 y 2000, con herramientas dirigidas principalmente a los departamentos de TI, como Informatica y Talend.
El concepto moderno de metadatos surgió en esta época, cuando las organizaciones comenzaron a administrar sus datos, y estas herramientas recopilaron información sobre las diferentes fuentes de datos, como los metadatos de tablas y columnas, que constituyeron los primeros inventarios de datos. - En el década de 2010 los datos pasaron a ser fundamentales para las organizaciones, lo que llevó a un reconocimiento más amplio de su importancia más allá del equipo de TI.
Las nuevas herramientas, como Alation y Collibra, ponen más control en manos de los administradores de datos (que están a cargo de la gobernanza de los datos en una organización), lo que hace hincapié en la necesidad de contar con equipos dedicados a gestionar los metadatos. Sin embargo, también los hicieron más accesibles para los usuarios en general, al acercar los datos a las personas que los poseen y utilizan.
Además, los catálogos de datos como Hive Metastore se convirtieron en un componente importante de muchos sistemas de lagos de datos.
Estas soluciones tradicionales tomaron todos los metadatos y los integraron en otra ubicación aislada, sin proporcionar a los usuarios el contexto que necesitan para los datos que están explorando de forma nativa donde los necesitaban.
Además, los metadatos se recopilaban de forma pasiva, por lo que se necesitaba la intervención humana para recopilarlos, editarlos y actualizarlos, lo que generaba inexactitudes e información desactualizada.
Catálogos de datos modernos
Por lo tanto, con el aumento del volumen de datos y los casos de uso:
- Un catálogo de datos de tercera generación apareció en el Década de 2020, a menudo llamado catálogos de datos modernos.
Son sistemas de administración de metadatos que se basan en los catálogos de la generación anterior, pero que añaden funciones avanzadas que les permiten escalar para gestionar enormes volúmenes de datos. Algunos de ellos son:
- Se están inventariando más activos de datos, como los DAG de Airflow y los informes de Tableau o Power BI, y se proporciona el linaje de datos.
-
- Los catálogos de datos modernos también devuelven el contexto de los metadatos a las herramientas con las que los usuarios finales interactúan a diario, como las herramientas de BI, Slack, Jira o dbt, para proporcionar esta información como parte de sus flujos de trabajo diarios.
- Metadatos activos: las herramientas aprovechan las API abiertas para sondear de forma continua y automática sus fuentes de datos para obtener las actualizaciones más recientes. Además, utilizan estos metadatos para activar alertas y recomendaciones.
- Los catálogos de datos modernos también devuelven el contexto de los metadatos a las herramientas con las que los usuarios finales interactúan a diario, como las herramientas de BI, Slack, Jira o dbt, para proporcionar esta información como parte de sus flujos de trabajo diarios.
No existe una nomenclatura estándar para estos catálogos de datos modernos (o herramientas de gobierno de datos), ya que son relativamente nuevos en el mercado y sus ofertas son heterogéneas.
- Algunos todavía se nombran Catálogo de datos, pero ofrecen al menos algunas de las funciones mejoradas, como Data Lineage, automatizaciones, etc.
- Otros se denominan Plataformas de inteligencia de datos o metadatos, por ejemplo.
En algunas publicaciones, se puede encontrar el concepto de observabilidad de datos, que generalmente se refiere a la capacidad de obtener información completa sobre los datos. Por lo tanto, Herramienta de observabilidad de datos es otro nombre para estos catálogos de datos modernos, ya que abarcan más que un simple catálogo de datos normal (una fuente única de verdad para todos los metadatos), sino que incluyen la supervisión de metadatos, el linaje de datos y otras funciones de supervisión, lo que proporciona un enfoque integral de la administración de datos.
Beneficios y casos de uso
Las principales ventajas de tener un catálogo de datos son las siguientes:
- Búsqueda eficiente de metadatos: El uso del catálogo de datos puede ahorrar mucho tiempo a la hora de buscar los datos necesarios para un proyecto específico. Como proporciona una vista centralizada de todos los activos de datos, no es necesario analizar diferentes sistemas ni ponerse en contacto con diferentes departamentos o personas.
- Datos confiables: En un catálogo de datos, se pueden definir estándares de datos, se pueden compartir métricas empresariales claramente definidas y las alertas y medidas de calidad de los datos se pueden exponer a todos los usuarios.
- Diccionario de datos y colaboración: El catálogo de datos forma una capa unificada que se integra con varias herramientas de su pila de datos, lo que permite las conexiones entre los datos de diferentes sistemas y áreas de la organización, así como la reutilización de los conocimientos, los activos y las iniciativas de preparación de datos. También permite centralizar y poner a disposición de todos las expresiones y fórmulas comunes que forman el vocabulario de la organización.
- Administración unificada de artefactos: Guarde los metadatos para proyectos de análisis y modelos de aprendizaje automático o ciencia de datos, no solo para los datos de origen. Y combínelo con los metadatos existentes de fuentes sin procesar y almacenes o lagos de datos para tener un linaje de datos completo.
En resumen, el catálogo de datos permite a la organización hacer un mejor uso de sus datos y administrarlos de manera más eficiente, lo que mejora el flujo de trabajo en la mayoría de sus áreas y contribuye así al ahorro de costos.
Usos del catálogo de datos
Proporcionan, por ejemplo, un sistema de etiquetado, por lo que todos los activos relacionados con un tema o dominio se pueden encontrar juntos, desde las fuentes de datos hasta los modelos de dbt y los paneles. Además, se pueden añadir ejemplos de consultas a las tablas del almacén de datos, lo que ayuda a los usuarios a extraer información de los datos con facilidad.
Un caso de uso en el que se puede ver claramente la necesidad de un catálogo de datos es análisis de autoservicio. Muchos usuarios empresariales elaboran sus propios informes y, a menudo, tienen problemas para encontrar los datos correctos para utilizarlos. Además, pueden tener dudas sobre cómo se calculan las medidas que encuentran en las tablas y archivos disponibles y sobre si son pertinentes para su análisis específico. Además, encontrar las relaciones entre las diferentes fuentes de datos también puede ser un desafío.
Principales categorías de funcionalidad
Las funcionalidades que suelen proporcionar los catálogos de datos modernos se pueden agrupar en las siguientes categorías o módulos:
- Linaje de datos
- Glosario o vocabulario empresarial
- Garantía de calidad de datos
- Búsqueda y descubrimiento de datos
- Funciones de administración de datos
Además, proporcionan ciertas capacidades, que se utilizan dentro de las principales funcionalidades o para apoyarlas, que facilitan la gestión de los metadatos y el gobierno de los datos:
- Integración profunda con múltiples herramientas de análisis y datos.
- Automatización de diferentes tareas (pruebas, por ejemplo, activación de alertas o advertencias).
- API que permiten a los usuarios contribuir con metadatos y documentación, y también exponer sus datos y funciones.
Estas funcionalidades y capacidades permiten que el catálogo se convierta en el punto de búsqueda de datos de facto de la organización, proporcionando abstracción en todas las capas de persistencia (como los almacenes de objetos, las bases de datos y los almacenes de datos).
Linaje de datos
El linaje de datos es el proceso de seguimiento del flujo de datos a lo largo de su ciclo de vida, lo que proporciona una comprensión clara de dónde se originaron los datos, cómo han cambiado y su destino final. Incluye la información de origen y cualquier transformación de datos que se haya aplicado durante cualquier proceso de ETL o ELT.
Documentar el flujo de datos en toda la organización es importante por muchos motivos, como la auditoría, el cumplimiento y la administración de cambios:
- Para auditorías y para cumplir con las regulaciones gubernamentales, es posible que sea necesario demostrar la procedencia de ciertos datos (desde qué fuente se carga el artefacto de datos) y/o qué transformaciones se aplican a los datos de origen antes de llegar a su formato final.
- Los usuarios que exploran tablas, informes o archivos pueden estar interesados en entender dónde están los datos ellos contienen procede, y el transformaciones que se le han aplicado. Este conocimiento es importante cuando se utilizan estos activos de datos en diferentes proyectos o análisis de datos.
- Desde un gestión de cambios Desde una perspectiva, es importante tener visibilidad sobre cómo los cambios en las diferentes partes de una canalización de datos se afectan entre sí.
Las herramientas populares de catálogo de datos suelen ofrecer capacidades de linaje de datos por tabla o conjunto de datos y, a menudo, también las ofrecen a nivel de columna.

Linaje a nivel de conjunto de datos en la plataforma Atlan, extraído de Página de producto de Atlan.
Glosario o vocabulario empresarial
La mayoría de las organizaciones desarrollan su propio lenguaje interno, que incluye nombres, términos, métricas, abreviaturas y otras convenciones que todos sus miembros utilizan a diario. El catálogo de datos proporciona un lugar adecuado para publicar el vocabulario o el glosario de esta organización, ya que es una fuente única de información veraz y está disponible para todos los usuarios.
El catálogo también permite establecer relaciones entre los términos y los activos de datos, como tablas o columnas, lo que también tiene las siguientes ventajas:
- Permite a los usuarios entender cuáles conceptos empresariales somos relevante para cuál artefactos técnicos.
- Se puede usar para clasificar los activos de datos siguiendo las líneas conceptuales empresariales y, a continuación, utilizar conceptos empresariales en lugar de nombres técnicos para la búsqueda y el descubrimiento.
Esto también contribuye a aumentar la confianza de los usuarios en los datos, ya que pueden ver todo lo relacionado con cada concepto y activo.

Vista de términos del glosario, que muestra sus activos de datos relacionados, extraída de Sitio de demostración de DataHub.
Garantía de calidad de datos
La calidad de los datos se refiere al estado de un conjunto de datos, con respecto a su precisión, coherencia, integridad, confiabilidad y puntualidad, entre otras características. Un concepto relacionado, la elaboración de perfiles de datos, es el proceso de examinar, analizar y crear resúmenes útiles de los datos, que ayudan a evaluar su calidad.
Las herramientas de catálogo de datos ofrecen funciones de supervisión de la calidad de los datos y creación de perfiles de datos:
- Funciones de creación de perfiles de datos calcular y mantener las métricas para evaluar la calidad de los datos, como las medidas de las estadísticas de distribución, la integridad, los valores válidos, etc.
- El monitoreo de la calidad de los datos garantiza la confiabilidad e integridad de los datos, ya que implica evaluando continuamente datos en sus diferentes métricas. Este proceso automatizado ayuda a identificar y corregir problemas como la duplicación de datos, la incoherencia, la información desactualizada y los valores faltantes. Además, en función de los resultados de la elaboración de perfiles, los datos se pueden clasificar en las etiquetas de calidad del catálogo, lo que indica su nivel de fiabilidad.

Estadísticas de una tabla de BigQuery en DataHub, captura de pantalla extraída de Vídeo «DataHub 101: elaboración de perfiles de datos y estadísticas de uso» de DataHub.
Búsqueda y descubrimiento de datos
Los catálogos de datos modernos tienen opciones flexibles de búsqueda y filtrado que permiten a los usuarios encontrar rápidamente conjuntos de datos relevantes para proyectos de ciencia de datos, análisis o ingeniería de datos.
- Estas funciones incluyen la búsqueda por etiquetas, palabras clave y términos comerciales. Búsqueda en lenguaje natural las capacidades son especialmente valiosas para los usuarios no técnicos. Como los catálogos permiten vincular términos empresariales con activos físicos, los usuarios que no tengan conocimientos técnicos pueden utilizar su propio vocabulario para buscar y descubrir.
- Clasificación de los resultados de búsqueda por relevancia y frecuencia de uso también son capacidades útiles y beneficiosas, además de recibir información relevante recomendaciones y/o advertencias basadas en las valoraciones y reseñas de otros usuarios.
Estas funciones permiten a los usuarios buscar de manera eficaz los datos que necesitan, dándoles contexto al respecto, pero también les ayudan a descubrir datos adicionales que tal vez no estén buscando directamente.

Ejemplo de búsqueda en lenguaje natural en Atlan, extraído de Página de producto de Atlan.
Funciones de administración de datos
Algunas de las funcionalidades que se pueden agrupar en esta categoría son:
- Especificar los propietarios de los activos de datos.
- Administrar los permisos de la herramienta Data Catalog y los metadatos y ofrecer experiencias personalizadas mediante funciones y políticas.
- Definir los contratos de datos para los activos, para hacer cumplir los formatos, las pruebas, los niveles de calidad de los datos y otros estándares.
- Proporcionar información sobre el uso de datos, por ejemplo: número de usuarios que lo consultan, usuarios principales, consultas más frecuentes que hacen referencia al activo, etc.
Herramientas disponibles
En el mercado, se pueden encontrar dos tipos principales de catálogos de datos modernos: plataformas especializadas y servicios especializados en varios proveedores de nube.
Además, la gobernanza de datos y la mayoría de las funciones modernas de los catálogos de datos se pueden encontrar como servicios en la nube individuales o en herramientas de datos y análisis, como dbt, Power BI, etc.
Plataformas de catálogo de datos
Hay muchos productos especializados en el mercado y puede resultar difícil evaluar todas las posibilidades. Por lo tanto, tomando como ejemplo el gráfico de análisis de mercado de Forrester, el sitio Peer Insights de Gartner y varios artículos, se recopiló la siguiente breve lista de herramientas populares:
- Atlán
- Catálogo y gobierno de datos de Informatica Cloud
- Plataforma de inteligencia de datos de Collibra
- Plataforma de inteligencia de datos Alation
- Centro de datos

Gráfico de Forrester sobre catálogos de datos en Página de inicio del sitio de Atlan.
En general, las características que comparten este tipo de plataformas son las siguientes:
- Integración integral entre nubes:
Están diseñados para funcionar en múltiples entornos (nubes, sistemas locales e híbridos) y no dependen del proveedor, ya que se integran con una amplia gama de fuentes y plataformas de datos, desde bases de datos hasta herramientas de ETL y BI, plataformas de aprendizaje automático y herramientas de orquestación. Esto las hace adecuadas para organizaciones con entornos complejos, de múltiples nubes o híbridos. - Funciones avanzadas:
Por lo general, ofrecen capacidades de nivel empresarial y funciones de gobierno de datos, como:- Administración de políticas, flujos de trabajo para aprobaciones y aplicación de políticas.
- Gestión de la calidad de los datos.
- Linaje de datos detallado que abarca diferentes servicios.
- Seguimiento del cumplimiento de normas externas.
- Enfoque en el enriquecimiento y el descubrimiento de metadatos:
Permiten una comprensión detallada de los datos más allá de los metadatos técnicos, incluido el contexto empresarial y generado por los usuarios (etiquetas, anotaciones, etc.). Además, incorporan funciones de inteligencia artificial y aprendizaje automático para clasificar automáticamente los datos y sugerir conjuntos de datos relevantes, entre otras tareas, que ayudan a escalar el descubrimiento de datos en conjuntos de datos grandes y diversos. - Costos adicionales de infraestructura e implementación:
En un entorno híbrido o multinube, alojar estas plataformas puede suponer costes adicionales, y el proceso de implementación es un proyecto complejo y arriesgado.
Opciones de implementación
La mayoría de los catálogos de datos modernos ofrecen varias opciones de alojamiento, que pueden incluir:
- En las instalaciones: Instalado en la infraestructura de la organización, ubicado junto con sus fuentes de datos locales.
- Nube: Se implementa en una cuenta de proveedor de nube, como Amazon Web Services (AWS) o Microsoft Azure, junto con otros servicios basados en la nube de la organización.
- Software como servicio (SaaS): Implementado y hospedado por el proveedor del catálogo de datos, con puntos de integración seguros con los servicios locales o en la nube de la organización.
- híbrido: Una combinación de los tres escenarios anteriores.
Estas opciones varían en precio, conveniencia y cumplimiento de las políticas internas de las organizaciones que las implementan.
Servicios de catálogo de datos dentro de los proveedores de nube
La mayoría de los proveedores de nube actuales ofrecen al menos algunas de las funciones del catálogo de datos moderno, ya sea como un servicio único o varios servicios diferentes. Algunos de los servicios más populares de este tipo son:
- Unity Catalog (+ Lakehouse Federation) en Databricks
- DataZone (y el catálogo de datos de Glue) en AWS
- Catálogo de datos en Google Cloud Platform
Como características que comparten este tipo de catálogos de datos, podemos mencionar las siguientes:
- Enfoque específico para la nube:
Están diseñados principalmente para el ecosistema específico del proveedor de la nube (por ejemplo, el catálogo de datos de AWS Glue está diseñado para los servicios de AWS, el catálogo de datos de Google Cloud se integra bien con GCP). Si bien es posible que algunos admitan fuentes externas limitadas, sobresalen en sus entornos nativos. - Gobernanza básica con una integración estrecha:
Algunas de las funciones de Data Catalog que ofrecen están estrechamente integradas con los servicios nativos del proveedor, por ejemplo: la administración básica de metadatos en Data Lakes y el linaje de datos en el servicio de integración de datos. Esto refuerza la integración perfecta dentro de sus respectivos ecosistemas de nube y las limitaciones en las configuraciones híbridas o de múltiples nubes. - Menos personalización:
Por lo general, ofrecen menos personalización y extensibilidad en comparación con las plataformas especializadas. Están diseñadas para que sean más fáciles de usar, pero es posible que carezcan de las funciones de gobierno avanzadas que requieren las grandes empresas. - Eficiencia de costos y simplicidad:
Pueden resultar más rentables para las organizaciones que ya operan principalmente dentro de un único proveedor de nube. Por lo general, son más fáciles de configurar y mantener en estos entornos en comparación con las plataformas de terceros.
Integrar un catálogo de datos en una organización
La implementación de un catálogo de datos moderno en una organización es compleja, requiere una planificación cuidadosa y funciones claramente definidas para las actividades de gobierno y administración de datos.
En esta sección, analizaremos cómo se integra el catálogo de datos con la arquitectura existente de la organización, qué funciones y procesos son necesarios para implementarlo correctamente y finalizaremos una lista de las tareas necesarias para hacerlo.
Arquitectura
Si bien cada plataforma de catálogo de datos admite un conjunto diferente de funcionalidades y utiliza diferentes tecnologías, la arquitectura de dichas herramientas se puede resumir en el siguiente diagrama:

Hay 4 componentes principales en esta arquitectura:
- El Fuentes de datos representan todas las bases de datos, lagos de datos, herramientas de BI y otros servicios que contienen activos de datos que existen en la organización. El Ingestión Módulo es responsable de la comunicación con estas fuentes y de automatizar los procesos de extracción de metadatos de las mismas.
- El Almacén de metadatos modela una capa de almacenamiento unificado para todos los metadatos extraídos. Suele ser una base de datos relacional, pero también se utilizan otras tecnologías, por sí solas o en conjunto, como las bases de datos de gráficos, para vincular entidades dentro de las fuentes de datos y entre ellas.
- El Backend proporciona potencia de procesamiento para admitir todas las funciones del catálogo, como:
- El Motor de búsqueda permite la búsqueda de texto completo, incluidos nombres de entidades y campos, descripciones y mucho más.
- El Integración de API permite a los usuarios técnicos interactuar con los activos de datos catalogados mediante programación.
- Y otras funcionalidades.
- El Interfaz es la aplicación a la que acceden los usuarios, donde pueden ver el glosario empresarial, utilizar las funciones de búsqueda y descubrimiento y mucho más.
Procesos y funciones de gobierno de datos
Para iniciar un proyecto de implementación de Data Catalog, el primer paso es crear un equipo dedicado. Para una implementación exitosa, es necesario contar con personal especializado en gobernanza de datos, arquitectura, ingeniería y conocimiento del dominio empresarial.
Además, las actividades y los procesos de gobernanza de datos deben implementarse en la organización para que sus miembros puedan aprovechar al máximo las funcionalidades del catálogo de datos y garantizar el éxito del proceso de implementación.
Por lo tanto, las funciones de gobierno de datos participarán en la implementación, en tareas como el diseño de la arquitectura de datos del catálogo. Pero también tendrán responsabilidades paralelas, ya que también se encargarán del mantenimiento y la administración del catálogo de datos.
Algunos procesos de gobierno de datos son:
- Definir claro funciones y responsabilidades: para administradores de datos, propietarios de datos y consumidores de datos.
- Hacer cumplir Políticas de acceso a datos: detallar quién puede acceder a qué datos y en qué circunstancias.
- Establecimiento y monitoreo Métricas de calidad de datos: como la precisión, la integridad, la coherencia y la puntualidad.
- Gestionando Ciclo vital de datos: definir procesos y políticas para obtener, almacenar, compartir y archivar o eliminar datos.
Además, el equipo de gobierno de datos puede estandarizar algunos procesos necesarios para desarrollar código en diferentes áreas. Algunos ejemplos podrían ser: preconfigurar el registro y hacer que las plantillas de código o las imágenes de Docker estén disponibles y listas para que los desarrolladores puedan trabajar en ellas.
Consideraciones sobre la implementación
El proceso de implementación no es lineal e implica varios pasos, por lo que es fundamental un enfoque iterativo.
Algunas consideraciones importantes antes de iniciar un proyecto de implementación son las siguientes:
- Es una buena práctica comenzar con una segmentación de alcance reducido, por ejemplo, un dominio empresarial específico o un caso de uso con necesidades de datos bien definidas y de alto impacto.
- Al elegir la herramienta Data Catalog (y la opción de implementación/alojamiento), algunas de las consideraciones más importantes son la compatibilidad y la integración de la herramienta con la infraestructura y los activos de datos existentes.
- Es necesario configurar los ajustes principales del catálogo de datos, como los detalles de los procesos de ingesta de metadatos y la estructura y jerarquía de los metadatos. Además, el catálogo también debe enriquecerse con metadatos empresariales adicionales.
- Antes de comenzar, y durante el proceso de implementación, es necesario abordar la promoción del catálogo de datos para garantizar la adopción de la nueva herramienta entre todos sus usuarios. Algunas tareas relacionadas son: comunicar sus beneficios, brindar capacitación, etc.
Conclusiones
Los catálogos de datos modernos o las plataformas de metadatos están adquiriendo un papel destacado en los entornos tecnológicos híbridos y de múltiples nubes actuales, ya que ayudan a las organizaciones a gestionar y aprovechar sus datos de forma eficaz. Sus funciones no solo ayudan a los administradores e ingenieros de datos a gestionar los metadatos y a gestionar los datos, sino que también permiten a los usuarios empresariales de toda la organización colaborar y tomar decisiones más informadas sobre la base de datos fiables y bien documentados.
Existe una amplia oferta en el mercado y las herramientas y funcionalidades evolucionan continuamente. Cada herramienta ofrece puntos fuertes únicos, y la selección de la correcta depende de las necesidades empresariales específicas, los volúmenes de datos y los requisitos de gobierno.
Además, es importante tener en cuenta que la implementación de un catálogo de datos especializado significa agregar una nueva herramienta al conjunto técnico de la organización, y que el proceso es complejo y requiere una planificación cuidadosa y un equipo dedicado y diverso. Además, es necesario que la organización cuente con procesos y políticas de gobernanza de datos maduros o que se implementen en paralelo.
Fuentes
- ¿Qué es un catálogo de datos y cómo elegir uno en 2023? #LearnWithAtlan
- ¿Qué es el catálogo de datos? | Oracle
- ¿Qué es la gobernanza de datos? | Google Cloud
- ¿Qué es un catálogo de datos? Todo lo que necesita saber en 90 segundos
- Catálogos de datos modernos: qué son y cómo han cambiado
- La evolución de los catálogos de datos: abordando las complejidades de la administración de datos
- ¿Qué es el linaje de datos? | IBM
- Seis razones por las que la calidad de los datos necesita un catálogo de datos
- Cómo planificar, diseñar e implementar un catálogo de datos en su organización - FasterCapital
- Cómo implementar un catálogo de datos: una guía práctica | por Luis Arteaga | Medium
- Cómo crear un catálogo de datos: Cómo empezar en 8 pasos
- La plataforma de metadatos de código abierto #1 | DataHub
- Arquitectura del catálogo de datos: componentes, integraciones y más
- La conveniencia y los riesgos de seguridad de confiar en las plataformas SaaS
- Contratos de datos en DataHub
- Políticas de acceso | DataHub
- Gobernanza activa de datos | Atlan
- Historial de consultas y uso del conjunto de datos | DataHub
- Blogs similares | Marvik
