Em relação à implementação da construção de um Data Lake, essa é realmente uma maneira de integrar e coletar todos os tipos de dados maciços, independentemente da estrutura, semiestruturados ou não estruturados. É para criar uma área de armazenamento de big dados, que pode ser entendida tão aproximadamente

Pontos básicos de implementação de data lake

Primeiro de tudo, nossas fontes de dados são muito amplas, como arquivos de dados gerados por alguns sistemas de negócios. Às vezes, alguns dados de transação são gerados e registrados através de operações relacionadas ao cliente, portanto, precisamos incluí -las. O feedback dos dados das plataformas de mídia social ~ coisas como o número de curtidas, comentários e compartilhamento também devem ser armazenados. Os dados de navegação no site e dados de log também são conteúdo indispensável de fornecimento de dados. Isso significa que os dados que coletamos devem ser extremamente amplos e vastos para formar a base da fonte para essa enorme quantidade de dados

Em segundo lugar, construa um ambiente de armazenamento. Esta é a infraestrutura que carrega dados. Precisamos escolher áreas de armazenamento criadas nos fornecedores de nuvem e escolher a AWS, Google Cloud ou Alibaba Cloud. Ou você pode criar um ambiente de hardware local e um sistema de controle de software para criar um data center físico. A vantagem do armazenamento em nuvem é sua flexibilidade e flexibilidade para aumentar e diminuir os recursos, conforme necessário; A vantagem da localização é controlar totalmente todo o ambiente de armazenamento e alta segurança. Compare esses aspectos claramente e escolha de acordo com suas próprias necessidades!

Depois, há governança de dados. Os dados devem ser organizados e limpos. É essencial estabelecer uma plataforma de gerenciamento de dados mestre. É estipulado que as especificações unificadas de identificação de dados e gerenciamento de nomeação definitivamente não serão boas se houver ambiguidade duplicada em dados! Em seguida, um sistema de gerenciamento de metadados será estabelecido. Registre links de fonte de dados, ferramentas de método de conversão de dados e até chamadas de distribuição de dados etc. Isso também torna conveniente rastrear a fonte a qualquer momento para saber o que os dados estão acontecendo!

Implementar um fluxo de trabalho importante do módulo

Operações de coleta e agregação de dados

Inicie o programa de coleta com a ferramenta ETL (extração, conversão, carregamento)! As ferramentas aqui são como o Oracle ODI, o Microsoft SQL Sever, e suas principais funções são para extrair dados de maneira eficiente e confiável de várias fontes de dados externas e ajustar o formato de dados de acordo com os requisitos de lógica de negócios (como formatação de dados de data, normalização de campo e processamento de padronização, etc.). Carregue os dados que atendem aos padrões qualificados para entrar no pool depois de limpar os dados sujos e os dados de ruído no Data Lake!

Processamento de conversão de extração de dados

É inútil esperar que os dados que entrem no Data Lake se deitem silenciosamente com o SQL ou o Spark de mecanismo de processamento de dados. O padrão SQL tradicional não tem muita dificuldade em analisar e consultar dados estruturados; Pode ser cenários de dados semiestruturados ou não estruturados complexos! Spark está brilhando ~ é muito fácil usar programação multilíngue para chamar módulos de função para resolver rapidamente esse tipo de dados usando expressões para processar dados de coleta

Parte de proteção de segurança de dados

Este link usa a tecnologia de criptografia de acesso dinâmico para garantir a confidencialidade dos dados nos dois estágios de armazenamento e transmissão móvel. Por exemplo, o mecanismo de AES (padrão avançado de criptografia). Conceda os usuários da conta interna para nivelar as permissões (à direita). Líderes seniores e analistas básicos têm as permissões de dados correspondentes para navegar dados e cálculos estatísticos simples. Evite efeitos adversos de abuso de dados excessivos de dados. Introduzir máscaras de dados e tecnologias de mascaramento para garantir a conformidade e o processamento legal dos dados comerciais. Por exemplo, o nome e o número do telefone celular no registro do pedido devem ser estritamente cobertos de acordo com os regulamentos.

Responda a perguntas relacionadas e responda a perguntas de partes relevantes

P: Quanto tempo leva para construir o ciclo de implementação?

R: Pode ser suficiente se for apenas uma pequena empresa básica para construir um plano de implementação do Data Lake em um cenário simples. As grandes empresas têm enormes campos cruzados e, se as fontes de dados distribuídas forem integradas, não será preciso por meio ano a um ano ~. Depende da situação

P: Quanto dinheiro você deve se preparar para as despesas com orçamento?

R: Leasing de armazenamento em nuvem para pequenos projetos combina um pequeno número de engenheiros de dados com cerca de 100.000 mão -de -obra; Projetos médios e grandes envolvem salas de computadores e despesas de infraestrutura auto-construídas, e os custos de emprego dos DBAs seniores são tão baixos quanto um milhão e, no máximo, dezenas de milhões. Oh, como implantar o plano

P: A que circunstâncias especiais devem receber atenção durante o ciclo de construção

R: A chave é prestar atenção ao módulo de conversão de dados que é propenso a encontrar problemas de compatibilidade de dados de formato, como o processo de transferência de formatos de banco de dados para o lago, e o processo de coleta é propenso a causar anormalidades da rede de tempos em tempos para bloquear e rastrear, o que leva à desvantagem de não atender à operação dos dados!

Eu acho que, embora seja problemático e difícil construir um Data Lake, ele pode trazer informações sobre a empresa depois de fazê -lo bem. O valor potencial na mineração aprofundada vale a pena fazer esse trabalho e tentar promovê-lo!

Posted in

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *