
Plataformas de dados: explorando as opções modernas de gerenciamento de dados
Na economia digital atual, os dados são um dos ativos mais valiosos de uma organização, cruciais em todas as áreas de negócios. No entanto, com mais e mais dados vindo de diferentes sistemas e dispositivos, em diferentes formatos e frequências, acompanhar os ativos de dados existentes, seu relacionamento e quem pode acessá-los se tornou mais difícil do que nunca. Organizações lutar para manter a visibilidade, qualidade de dados e controle seus dados, e essa falta de controle leva a ineficiências, silos de dados e riscos de conformidadee, em última análise, dificulta o verdadeiro potencial dos dados. O desafio é claro: como gerenciar, descobrir e governar seus dados com eficiência para gerar valor e permanecer competitivo?
Catálogos de dados modernos entram em ação para ajudar nessa questão. Evoluindo muito além dos sistemas tradicionais de gerenciamento de metadados, eles se tornaram ferramentas poderosas que permitem às organizações não apenas catalogar seus vastos recursos de dados, mas também simplificar a descoberta de dados, aplicar políticas de governança e promover uma cultura baseada em dados em todos os níveis da organização.
Nesta postagem do blog, analisaremos as soluções no mercado conhecidas como catálogos de dados modernos ou plataformas de gerenciamento de dados, para saber quais são, entre outros detalhes:
- seus objetivos
- as funcionalidades e benefícios que eles oferecem
- seus usuários-alvo
Além disso, analisaremos quais são as considerações e os esforços que diferentes tipos de organizações precisam fazer para integrar uma dessas plataformas em sua pilha tecnológica.
Tabela de conteúdos
- Introdução aos catálogos de dados
- Principais categorias de funcionalidade
- Ferramentas disponíveis
- Integrar um catálogo de dados em uma organização
- Conclusões
- Fontes
Introdução aos catálogos de dados
Definição
Um catálogo de dados é uma fonte única de verdade para o metadados de todos os ativos de dados em uma organização. Ele suporta a governança de dados e ajuda usuários pesquise, compreenda e confie nos dados.
- Existem três tipos de metadados:
-
- Técnico: esquemas, tabelas, colunas, nomes de arquivos, nomes de relatórios, qualquer coisa que esteja documentada nos sistemas de origem.
- Negócios: o conhecimento comercial que os usuários têm sobre os ativos, como descrições comerciais, comentários, anotações, classificações e aptidão para uso.
- Operacional: atualize datas e horários dos objetos, tarefas de ETL responsáveis por criá-los e atualizá-los, dados de acesso do usuário etc.
- Esses ativos de dados podem ser Data Warehouses, Datalakes, Data Pipelines, painéis de BI, consultas etc. Portanto, o catálogo de dados pode ser visualizado como um mapa de ponta a ponta dos dados disponíveis.
- O usuários para o Catálogo de Dados, foram principalmente profissionais de dados (analistas de dados, engenheiros de dados etc.). Hoje, no entanto, todos em sua organização, até mesmo usuários corporativos, precisam de contexto sobre os dados, métricas e relatórios que estão usando diariamente.
Governança de dados
A governança de dados é tudo o que uma organização faz para garantir que os dados sejam seguros, privados, precisos, disponíveis e utilizáveis. Inclui ações, processos e a tecnologia que os apoia durante todo o ciclo de vida dos dados.
Envolve:
- Estabelecer padrões internos e políticas de dados que se aplicam à forma como os dados são coletados, armazenados, processados e descartados.
- Definir e controlar quem pode acessar quais tipos de dados e quais tipos de dados estão sob controle.
- Cumprir os padrões externos estabelecidos por associações do setor, agências governamentais e outras partes interessadas.
Em relação aos catálogos de dados e à relação de governança de dados, há dois comentários importantes a serem feitos:
- Embora os catálogos de dados modernos suportem muitos dos processos necessários para implementar a governança de dados em uma organização, não se pode dizer que eles cubram completamente essa área ampla e complexa. Por exemplo Controle ou gerenciamento de acesso a dados, uma parte crucial da governança de dados, não é totalmente suportada pela maioria das ferramentas. Com os ambientes híbridos e multinuvem atuais, aplicar políticas consistentes de governança e administração centralizadas de identidade em toda a empresa é extremamente desafiador. Para resolver esse problema, outras ferramentas estão disponíveis no mercado, geralmente conhecidas como Soluções de Governança de Acesso a Dados. E também existe a possibilidade de usar serviços desenvolvidos sob medida para resolver esse problema e outras funcionalidades relacionadas à governança necessárias.
- Além disso, a implementação correta de um catálogo de dados como fonte centralizada de colaboração torna fundamental contar com funções de governança de dados que definem determinadas políticas e padrões para coletar e usar dados e seus metadados correspondentes.
Evolução
Soluções tradicionais
Os catálogos de dados têm servido como fontes centrais de verdade para os dados há décadas.
- A primeira onda de catálogos de dados apareceu entre os Década de 1990 e 2000, com ferramentas voltadas principalmente para os departamentos de TI, como Informatica e Talend.
O conceito moderno de metadados surgiu nessa época, quando as organizações começaram a gerenciar seus dados, e essas ferramentas coletaram informações sobre as diferentes fontes de dados, como metadados de tabelas e colunas, constituindo os primeiros inventários de dados. - Na Década de 2010 os dados se tornaram essenciais para as organizações, levando a um reconhecimento mais amplo de sua importância além da equipe de TI.
Novas ferramentas, como Alation e Collibra, colocam mais controle nas mãos dos administradores de dados (que são responsáveis pela governança de dados em uma organização), enfatizando a necessidade de equipes dedicadas para lidar com metadados. No entanto, eles também o tornaram mais acessível aos usuários em geral, aproximando os dados das pessoas que os possuem e usam.
Além disso, catálogos de dados como o Hive Metastore se tornaram um componente importante de muitos sistemas de data lake.
Essas soluções tradicionais pegaram todos os metadados e os integraram em outro local isolado, sem fornecer aos usuários o contexto de que precisam para os dados que estão explorando de forma nativa, onde precisavam.
Além disso, os metadados foram coletados passivamente, precisando de intervenção humana para coletá-los, editá-los e atualizá-los, resultando em imprecisões e informações desatualizadas.
Catálogos de dados modernos
Então, com o aumento no volume de dados e nos casos de uso:
- Um catálogo de dados de terceira geração apareceu no Década de 2020, muitas vezes chamado catálogos de dados modernos.
Eles são sistemas de gerenciamento de metadados, criados com base nos catálogos da geração anterior, mas que adicionam recursos avançados, que permitem escalar para lidar com grandes volumes de dados. Alguns deles são:
- Mais ativos de dados estão sendo inventariados, como Airflow DAGs e relatórios do Tableau ou do Power BI, e a linhagem de dados é fornecida.
-
- Os catálogos de dados modernos também levam o contexto dos metadados de volta às ferramentas com as quais os usuários finais interagem diariamente, como ferramentas de BI, Slack, Jira ou dbt, para fornecer essas informações como parte de seus fluxos de trabalho diários.
- Metadados ativos: as ferramentas utilizam APIs abertas para pesquisar de forma contínua e automática suas fontes de dados para obter as atualizações mais recentes. E eles usam esses metadados para acionar alertas e recomendações.
- Os catálogos de dados modernos também levam o contexto dos metadados de volta às ferramentas com as quais os usuários finais interagem diariamente, como ferramentas de BI, Slack, Jira ou dbt, para fornecer essas informações como parte de seus fluxos de trabalho diários.
Não há nomenclatura padrão para esses catálogos de dados modernos (ou ferramentas de governança de dados), pois eles são relativamente novos no mercado e suas ofertas são heterogêneas.
- Alguns ainda são nomeados Catálogo de dados, mas eles oferecem pelo menos alguns dos recursos aprimorados, como linhagem de dados, automações etc.
- Outros são referidos como Plataformas de inteligência de dados ou metadados, por exemplo.
Em alguma literatura, o conceito de observabilidade de dados pode ser encontrado, que geralmente se refere à capacidade de obter informações abrangentes sobre os dados. Então, Ferramenta de observabilidade de dados é outro nome para esses catálogos de dados modernos, pois eles abrangem mais do que apenas um catálogo de dados comum (uma única fonte confiável para todos os metadados), eles incluem monitoramento de metadados, linhagem de dados e outros recursos de monitoramento, fornecendo uma abordagem abrangente para o gerenciamento de dados.
Benefícios e casos de uso
As principais vantagens de ter um catálogo de dados são as seguintes:
- Pesquisa eficiente de metadados: o uso do catálogo de dados pode economizar muito tempo na busca dos dados necessários para um projeto específico. Como ele fornece uma visão centralizada de todos os ativos de dados, não há necessidade de examinar sistemas diferentes ou entrar em contato com departamentos ou pessoas diferentes.
- Dados confiáveis: Em um catálogo de dados, os padrões de dados podem ser definidos, métricas comerciais claramente definidas podem ser compartilhadas e as medidas e alertas de qualidade dos dados podem ser expostos a todos os usuários.
- Dicionário de dados e colaboração: O catálogo de dados forma uma camada unificada que se integra a várias ferramentas em sua pilha de dados, permitindo conexões entre dados em diferentes sistemas e áreas da organização, bem como a reutilização de conhecimentos, ativos e esforços de preparação de dados. Também permite que expressões e fórmulas comuns que formam o vocabulário da organização sejam centralizadas e estejam disponíveis para todos.
- Gerenciamento unificado de artefatos: salve metadados para projetos de análise e modelos de aprendizado de máquina ou ciência de dados, não apenas dados de origem. E junte isso aos metadados existentes de fontes brutas e data warehouses ou lagos para ter uma linhagem de dados completa.
Em resumo, o Catálogo de Dados permite que a organização faça melhor uso de seus dados e os gerencie com mais eficiência, melhorando o fluxo de trabalho na maioria de suas áreas e contribuindo assim para a economia de custos.
Usos do Data Catalog
Eles fornecem, por exemplo, um sistema de marcação, para que todos os ativos relacionados a um tópico ou domínio possam ser encontrados juntos, desde fontes de dados até modelos e painéis de débito. Além disso, exemplos de consultas podem ser adicionados às tabelas do Data Warehouse, ajudando os usuários a extrair informações dos dados com facilidade.
Um caso de uso em que a necessidade de um catálogo de dados pode ser claramente vista é análise de autoatendimento. Muitos usuários corporativos fazem seus próprios relatórios e geralmente têm dificuldade em encontrar os dados certos para usá-los. Além disso, eles podem ter dúvidas sobre como as medidas encontradas nas tabelas e arquivos disponíveis são calculadas e se são pertinentes para sua análise específica. Além disso, encontrar as relações entre diferentes fontes de dados também pode ser um desafio.
Principais categorias de funcionalidade
As funcionalidades que os catálogos de dados modernos geralmente oferecem podem ser agrupadas nas seguintes categorias ou módulos:
- Linhagem de dados
- Glossário ou vocabulário de negócios
- Garantia de qualidade de dados
- Pesquisa e descoberta de dados
- Recursos de gerenciamento de dados
Além disso, eles fornecem determinados recursos, usados dentro ou para dar suporte às principais funcionalidades, que facilitam o gerenciamento de metadados e a governança de dados:
- Integração profunda com várias ferramentas de dados e análises.
- Automação de diferentes tarefas (testes, por exemplo, acionando alertas ou avisos).
- APIs que permitem aos usuários contribuir com metadados e documentação, além de expor seus dados e funcionalidades.
Essas funcionalidades e capacidades permitem que o Catálogo se torne o ponto de busca de dados de fato na organização, fornecendo abstração em todas as camadas de persistência (como armazenamentos de objetos, bancos de dados, data warehouses).
Linhagem de dados
A linhagem de dados é o processo de rastrear o fluxo de dados ao longo de seu ciclo de vida, fornecendo uma compreensão clara de onde os dados se originaram, como eles mudaram e seu destino final. Inclui informações de origem e quaisquer transformações de dados que tenham sido aplicadas durante qualquer processo de ETL ou ELT.
Documentar o fluxo de dados em toda a organização é importante por vários motivos, como auditoria, conformidade e gerenciamento de mudanças:
- Para auditora e para cumprir as regulamentações governamentais, pode ser necessário demonstrar a proveniência de determinados dados (de qual fonte o artefato de dados está sendo carregado) e/ou quais transformações são aplicadas aos dados de origem antes de chegarem ao formato final.
- Usuários que exploram tabelas, relatórios ou arquivos podem estar interessados em entendendo onde estão os dados eles contêm receita, e o transformações que foram aplicados a ele. Esse conhecimento é importante ao usar esses ativos de dados em diferentes projetos ou análises de dados.
- De um gerenciamento de mudanças Em perspectiva, é importante ter visibilidade de como as mudanças em diferentes partes de um pipeline de dados afetam umas às outras.
As ferramentas populares do catálogo de dados geralmente oferecem recursos de linhagem de dados por tabela ou conjunto de dados, e geralmente também os oferecem em nível de coluna.

Linhagem em nível de conjunto de dados na Plataforma Atlan, extraída de Página de produtos da Atlan.
Glossário ou vocabulário de negócios
A maioria das organizações desenvolve sua própria linguagem interna, incluindo nomes, termos, métricas, abreviações e outras convenções que todos os seus membros usam diariamente. O Catálogo de Dados fornece um local adequado para publicar o vocabulário ou glossário dessa organização, pois é uma fonte única de verdade e está disponível para todos os usuários.
O Catálogo também permite estabelecer relações entre termos e ativos de dados, como tabelas ou colunas, que também têm os seguintes benefícios:
- Ele permite que os usuários entendam quais conceitos de negócios está relevante para que artefatos técnicos.
- Ele pode ser usado para classificar ativos de dados ao longo das linhas de conceito de negócios e, em seguida, use conceitos de negócios em vez de nomes técnicos para pesquisa e descoberta.
Isso também contribui para aumentar a confiança dos usuários nos dados, pois eles podem ver tudo o que está relacionado a cada conceito e ativo.

Visualização de termos do glossário, mostrando seus ativos de dados relacionados, extraídos de Site de demonstração do DataHub.
Garantia de qualidade de dados
A qualidade dos dados se refere à condição de um conjunto de dados, com relação à sua precisão, consistência, integridade, confiabilidade e pontualidade, entre outras características. Um conceito relacionado, Data Profiling, é o processo de examinar, analisar e criar resumos úteis de dados, o que ajuda a avaliar sua qualidade.
As ferramentas do Data Catalog oferecem recursos de monitoramento da qualidade de dados e criação de perfil de dados:
- Recursos de criação de perfil de dados calcular e manter métricas para avaliar a qualidade dos dados, como medidas estatísticas de distribuição, integridade, valores válidos etc.
- O monitoramento da qualidade de dados garante a confiabilidade e a integridade dos dados, pois envolve avaliando continuamente dados em suas diferentes métricas. Esse processo automatizado ajuda a identificar e corrigir problemas como duplicação de dados, inconsistência, informações desatualizadas e valores ausentes. Além disso, com base nesses resultados de criação de perfil, os dados podem ser classificados em rótulos de qualidade no catálogo, indicando seu nível de confiabilidade.

Estatísticas de uma tabela do BigQuery no DataHub, captura de tela extraída de Vídeo “DataHub 101: Perfil de dados e estatísticas de uso” do DataHub.
Pesquisa e descoberta de dados
Os catálogos de dados modernos têm opções flexíveis de pesquisa e filtragem para permitir que os usuários encontrem rapidamente conjuntos de dados relevantes para projetos de ciência de dados, análise ou engenharia de dados.
- Esses recursos incluem pesquisa por tags, palavras-chave e termos comerciais. Pesquisa em linguagem natural os recursos são especialmente valiosos para usuários não técnicos. Como os catálogos permitem vincular termos comerciais a ativos físicos, usuários não técnicos podem usar seu próprio vocabulário para pesquisar e descobrir.
- Classificação dos resultados da pesquisa por relevância e por frequência de uso também são recursos úteis e benéficos, além de receberem recursos relevantes recomendações e/ou avisos com base em avaliações e avaliações de outros usuários.
Esses recursos permitem que os usuários pesquisem com eficácia os dados de que precisam, fornecendo contexto sobre eles, mas também os ajudam a descobrir dados adicionais que talvez não estejam procurando diretamente.

Exemplo de pesquisa em linguagem natural em Atlan, extraído de Página de produtos da Atlan.
Recursos de gerenciamento de dados
Algumas das funcionalidades que podem ser agrupadas nessa categoria são:
- Especificar os proprietários dos ativos de dados.
- Gerenciando permissões para a ferramenta Data Catalog e os metadados e fornecendo experiências personalizadas usando funções e políticas.
- Definindo contratos de dados para os ativos, para impor formatos, testes, níveis de qualidade de dados e outros padrões.
- Fornecer informações de uso de dados, por exemplo: número de usuários que as consultam, principais usuários, consultas mais frequentes que fazem referência ao ativo etc.
Ferramentas disponíveis
No mercado, dois tipos principais de catálogos de dados modernos podem ser encontrados: plataformas especializadas e serviços especializados em vários provedores de nuvem.
Além disso, a governança de dados e a maioria dos recursos modernos dos catálogos de dados podem ser encontrados como serviços de nuvem individuais ou em ferramentas de dados e análises, como dbt, Power BI etc.
Plataformas de catálogo de dados
Existem muitos produtos especializados no mercado e pode ser difícil avaliar todas as possibilidades. Portanto, com base no gráfico de análise de mercado da Forrester, no site Peer Insights da Gartner e em vários artigos, a seguinte lista curta de ferramentas populares foi reunida como exemplo:
- Atlan
- Governança e catálogo de dados em nuvem da Informatica
- Plataforma de inteligência de dados Collibra
- Plataforma de inteligência de dados Alation
- Hub de dados

Gráfico da Forrester sobre catálogos de dados em Página inicial do site da Atlan.
Em geral, as características compartilhadas por esse tipo de plataforma são as seguintes:
- Integração abrangente entre nuvens:
Eles são projetados para funcionar em vários ambientes (nuvens, sistemas locais e híbridos) e são independentes de fornecedores, integrando-se a uma ampla variedade de fontes e plataformas de dados, de bancos de dados a ferramentas de ETL e BI, plataformas de aprendizado de máquina e ferramentas de orquestração. Isso os torna adequados para organizações com ambientes complexos, com várias nuvens ou híbridos. - Funcionalidades avançadas:
Eles geralmente oferecem recursos de nível corporativo e recursos de governança de dados, como:- Gerenciamento de políticas, fluxos de trabalho para aprovações e aplicação de políticas.
- Gestão da qualidade de dados.
- Linhagem de dados detalhada que abrange diferentes serviços.
- Rastreamento de conformidade para padrões externos.
- Foco no enriquecimento e descoberta de metadados:
Eles permitem uma compreensão detalhada dos dados além dos metadados técnicos, incluindo o contexto comercial e gerado pelo usuário (tags, anotações etc.). Além disso, eles incorporam recursos de IA/ML para classificar dados automaticamente e sugerir conjuntos de dados relevantes, entre outras tarefas, que ajudam a escalar a descoberta de dados em conjuntos de dados grandes e diversos. - Custos adicionais de infraestrutura e implementação:
Em um ambiente híbrido ou multinuvem, hospedar essas plataformas pode significar custos adicionais, e o processo de implementação é um projeto complexo e arriscado.
Opções de implementação
A maioria dos catálogos de dados modernos oferece várias opções de hospedagem, que podem incluir:
- No local: Instalado na infraestrutura da organização, co-localizado com suas fontes de dados locais.
- Nuvem: Implantado em uma conta de provedor de nuvem, como Amazon Web Services (AWS) ou Microsoft Azure, junto com outros serviços baseados em nuvem da organização.
- Software como serviço (SaaS): Implantado e hospedado pelo fornecedor do Data Catalog, com pontos de integração seguros aos serviços locais ou na nuvem da organização.
- Híbrido: Uma combinação dos três cenários acima.
Essas opções variam em preço, conveniência e conformidade com as políticas internas das organizações que as implementam.
Serviços de catálogo de dados em provedores de nuvem
Atualmente, a maioria dos provedores de nuvem oferece pelo menos alguns dos recursos do catálogo de dados moderno, seja como um serviço exclusivo ou vários serviços diferentes. Alguns dos mais populares desses serviços são:
- Catálogo Unity (+ Lakehouse Federation) no Databricks
- DataZone (e Glue Data Catalog) na AWS
- Catálogo de dados no Google Cloud Platform
Como características que esse tipo de catálogo de dados compartilha, podemos mencionar o seguinte:
- Foco específico da nuvem:
Eles são projetados principalmente para o ecossistema específico do provedor de nuvem (por exemplo, o AWS Glue Data Catalog é personalizado para os serviços da AWS, o Google Cloud Data Catalog se integra bem com o GCP). Embora alguns possam oferecer suporte a fontes externas limitadas, eles se destacam em seus ambientes nativos. - Governança básica com forte integração:
Alguns dos recursos do Catálogo de Dados que eles fornecem estão totalmente integrados aos serviços nativos do provedor, por exemplo: gerenciamento básico de metadados em Data Lakes e Linhagem de Dados no Serviço de Integração de Dados. Isso reforça a integração perfeita em seus respectivos ecossistemas de nuvem e as limitações em configurações híbridas ou multinuvem. - Menos personalização:
Eles normalmente oferecem menos personalização e extensibilidade em comparação com plataformas especializadas. Eles foram projetados para serem mais simples de usar, mas podem não ter os recursos avançados de governança que as grandes empresas exigem. - Custo-eficiência e simplicidade:
Eles podem ser mais econômicos para organizações que já operam principalmente em um único provedor de nuvem. Normalmente, eles são mais fáceis de configurar e manter nesses ambientes em comparação com plataformas de terceiros.
Integrar um catálogo de dados em uma organização
A implementação de um catálogo de dados moderno em uma organização é complexa, exige um planejamento cuidadoso e funções claramente definidas para as atividades de governança e gerenciamento de dados.
Nesta seção, exploraremos como o Catálogo de Dados se integra à arquitetura existente da organização, quais funções e processos são necessários para implementá-lo com sucesso e finalizaremos uma lista de tarefas necessárias para fazê-lo.
Arquitetura
Embora cada plataforma de catálogo de dados ofereça suporte a um conjunto diferente de funcionalidades e use tecnologias diferentes, a arquitetura dessas ferramentas pode ser resumida no diagrama a seguir:

Existem 4 componentes principais nessa arquitetura:
- O Fontes de dados representam todos os bancos de dados, data lakes, ferramentas de BI e outros serviços que contêm ativos de dados existentes na organização. O Ingestão Módulo é responsável pela comunicação com essas fontes e por automatizar os processos de extração de metadados a partir delas.
- O Armazenamento de metadados modela uma camada de armazenamento unificada para todos os metadados extraídos. Geralmente é um banco de dados relacional, mas outras tecnologias também são usadas, sozinhas ou em conjunto, como bancos de dados gráficos, para vincular entidades dentro e entre fontes de dados.
- O Backend fornece capacidade de processamento para dar suporte a todos os recursos do Catálogo, como:
- O Motor de busca permite a pesquisa de texto completo, incluindo nomes de entidades e campos, descrições e muito mais.
- O Integração de API permite que usuários técnicos interajam com os ativos de dados catalogados de forma programática.
- E outras funcionalidades.
- O Front-end é o aplicativo acessado pelos usuários, onde eles podem ver o Glossário de Negócios, usar a funcionalidade de Pesquisa e Descoberta e muito mais.
Processos e funções de governança de dados
Para iniciar um projeto de implementação do Catálogo de Dados, a primeira etapa é criar uma equipe dedicada. Funções com experiência em governança de dados, arquitetura, engenharia e conhecimento do domínio de negócios são necessárias para uma implementação bem-sucedida.
Além disso, atividades e processos de governança de dados precisam ser implementados na organização para que seus membros aproveitem ao máximo as funcionalidades do catálogo de dados e garantam o sucesso do processo de implementação.
Portanto, as funções de governança de dados estarão envolvidas na implementação, em tarefas como projetar a arquitetura de dados do catálogo. Mas eles também terão responsabilidades semelhantes, pois também manterão e administrarão o Catálogo de Dados.
Alguns processos de governança de dados são:
- Definindo claramente funções e responsabilidades: para administradores de dados, proprietários de dados e consumidores de dados.
- Impondo Políticas de acesso a dados: descrevendo quem pode acessar quais dados e sob quais circunstâncias.
- Estabelecimento e monitoramento Métricas de qualidade de dados: como precisão, integridade, consistência e pontualidade.
- Gerenciando Ciclo de vida dos dados: definindo processos e políticas para obter, armazenar, compartilhar e arquivar ou excluir dados.
Além disso, a equipe de governança de dados pode padronizar alguns processos necessários para o desenvolvimento de código em diferentes áreas. Alguns exemplos podem ser: pré-configurar o registro e disponibilizar modelos de código ou imagens do Docker para que os desenvolvedores criem seus trabalhos.
Considerações de implementação
O processo de implementação não é linear e envolve várias etapas, tornando fundamental uma abordagem iterativa.
Algumas considerações importantes antes de iniciar um projeto de implementação são as seguintes:
- É uma boa prática começar com um escopo pequeno visando, por exemplo, um domínio de negócios ou caso de uso específico com alto impacto e necessidades de dados bem definidas.
- Ao escolher a ferramenta Data Catalog (e a opção de implantação/hospedagem), algumas das considerações mais importantes são a compatibilidade e a integração da ferramenta com seus ativos de dados e infraestrutura existentes.
- As configurações principais do Catálogo de Dados precisam ser definidas, como os detalhes dos processos de ingestão de metadados e a estrutura e hierarquia dos metadados. Além disso, o Catálogo também precisa ser enriquecido com metadados comerciais adicionais.
- Antes de começar e durante o processo de implementação, a promoção do Catálogo de Dados precisa ser abordada, para garantir a adoção da nova ferramenta entre todos os seus usuários. Algumas tarefas relacionadas são: comunicar seus benefícios, fornecer treinamento etc.
Conclusões
Catálogos de dados modernos, ou plataformas de metadados, estão ganhando um papel proeminente nos ambientes tecnológicos híbridos e multinuvem atuais, ajudando as organizações a gerenciar e aproveitar seus dados de forma eficaz. Seus recursos não apenas ajudam administradores e engenheiros de dados com gerenciamento de metadados e governança de dados, mas também capacitam os usuários corporativos de toda a organização a colaborar e tomar decisões mais informadas com base em dados confiáveis e bem documentados.
Há uma ampla oferta no mercado e as ferramentas e funcionalidades estão em constante evolução. Cada ferramenta oferece pontos fortes exclusivos, e selecionar a correta depende de necessidades específicas de negócios, volumes de dados e requisitos de governança.
Além disso, é importante ter em mente que implementar um catálogo de dados especializado significa adicionar uma nova ferramenta à pilha técnica da organização e que o processo é complexo, exigindo um planejamento cuidadoso e uma equipe dedicada e diversificada. Além disso, processos e políticas maduros de governança de dados precisam estar em vigor na organização ou implementados em paralelo.
Fontes
- O que é um catálogo de dados e como escolher um em 2023? #LearnWithAtlan
- O que é catálogo de dados? | Oráculo
- O que é governança de dados? | Google Cloud
- O que é um catálogo de dados? Tudo o que você precisa saber em 90 segundos
- Catálogos de dados modernos: o que são, como mudaram
- A evolução dos catálogos de dados: navegando pelas complexidades do gerenciamento de dados
- O que é linhagem de dados? | IBM
- Seis razões pelas quais a qualidade dos dados precisa de um catálogo de dados
- Como planejar, projetar e implantar um catálogo de dados em sua organização - FasterCapital
- Como implementar um catálogo de dados: um guia prático | por Luis Arteaga | Medium
- Como criar um catálogo de dados: comece em 8 etapas
- A plataforma de metadados de código aberto #1 | DataHub
- Arquitetura do catálogo de dados: componentes, integrações e muito mais
- Os riscos de conveniência e segurança de confiar em plataformas SaaS
- Contratos de dados no DataHub
- Políticas de acesso | DataHub
- Governança ativa de dados | Atlan
- Uso do conjunto de dados e histórico de consultas | DataHub
- Blogs semelhantes | Marvik
