Data lake – Estratégia para análise de Big Data
Data lake: estratégia para análise de Big Data
Os data lakes se tornaram soluções populares para construir sistemas que atendam aos desafios impostos pelo big data.
Os projetos de big data requerem a coleta de uma grande variedade de informações. Elas podem estar ilegíveis no momento de sua ingestão, o que torna necessário criar um repositório que permita analisar, transformar e desenvolver aplicações que extraiam valor dos dados. Os data lakes oferecem uma plataforma completa para provisionamento dessas soluções.
Neste artigo, veja as principais particularidades dos data lakes e como eles podem ser úteis no seu negócio.
Sumário
Por que as soluções atuais não atendem às expectativas?
O aumento do volume de dados coletados pelas empresas tornou ineficaz as soluções tradicionais de armazenamento dos dados. Visando tornar essa tarefa escalável e com garantias de desempenho, os data lakes têm se tornado um padrão industrial para armazenamento em big data.
O que é Data Lake?
O data lake é um contêiner de dados heterogêneo. Nele, podemos armazenar tabelas relacionais, não relacionais, documentos de textos e dados sem estrutura definida para interpretação automática (ex: imagens ou áudio). Ele provê um repositório centralizado baseado em nuvem que viabiliza o gerenciamento dos dados de maneira escalável e segura.
Qual a diferença entre data Lake é data warehouse?
Os dados armazenados em um data lake não precisam ter um esquema definido no momento da ingestão. Os data lakes funcionam com o conceito schema-on-read. Nesse conceito, o esquema é definido sobre os dados no momento da leitura, e permite que um mesmo dado bruto seja especializado para diferentes aplicações sem perda de informação.
Essa premissa difere das tradicionais bases de dados e data warehouses, que adotam o conceito schema-on-write. Esse conceito exige um esquema pré-definido sobre o dado no momento da sua escrita na base.
Características de um data lake
Em geral, a arquitetura de um data lake visa atender as seguintes características:
- Ingestão e armazenamento de dados de diversas fontes;
- Construção de catálogo de dados para facilitar a consulta da informação;
- Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;
- Tratamento dos dados;
- Transformação dos dados em formatos otimizados para consulta;
- Consulta dos dados;
- Exploração dos dados para as áreas de data analytics, data science e BI;
- Construção de plataformas de visualização de dados;
- Integração com ferramentas PaaS e on-premises para processamento dos dados;
- Execução algoritmos sobre os dados sem restrições de padrão ou de tecnologia;
- Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;
Por que é uma vantagem estruturar o data lake?
Os data lakes provêm um repositório de dados que centraliza tarefas de gerenciamento, monitoramento e análise dos dados. Uma vez inserido no lake, o dado está disponível para análise por todos os times dentro da organização.
Isso diminui custos de transformação dos dados na sua ingestão e aumenta a agilidade dos analistas de dados para explorar e extrair novos insights dos dados.
Como estruturar um data lake?
Embora o conceito não seja novo, os data lakes tornaram-se populares há poucos anos com a explosão da computação em nuvem. Grandes players do mercado de nuvem como Amazon, Microsoft e Google proveem recursos para o provisionamento de infraestrutura e serviços que viabilizam a construção dessas plataformas .
Veja neste post, um exemplo de análise de big data com data lake.
Aqui na dti, temos experiências em construção de soluções completas utilizando tecnologias AWS, Azure e GCP, além de soluções on-premises para processamento de dados. Quem sabe não temos a solução que você está precisando? Para saber mais, entre em contato com a gente!
Data Science
Confira outros artigos
Ciência de dados explicando coisas que acontecem no mundo
Hoje cada ser humano com um dispositivo móvel em mãos produz uma série de dados, gerados em velocidade, volume e variedade nunca vistos antes. A internet das coisas tem se tornado um mar de oportunidades para a ciência de dados nos últimos anos. Isso acontece, porque, através de sensores inteligentes e softwares que transmitem dados […]
Data Science
Dados Geoespaciais: Uma visão geral
Dentre todas as bases de dados em que tive a oportunidade de trabalhar, poucas foram as vezes em que não encontrei dados geoespaciais. Sumário0.1 Mas o que são dados geoespaciais?1 Conceitos Básicos dos dados1.1 Como representar os dados2 Operações Geoespaciais2.1 Operações de relacionamento3 Visualização4 Aplicações de dados georreferenciados4.1 Dados georreferenciais e a pandemia5 Referências e […]
Data Science
Estrutura de dados: o que é e qual a sua importância?
Entenda o que é a importância da estrutura de dados na linguagem da programação O universo da programação possui uma série de fundamentos considerados essenciais para o desenvolvimento dos mais diversos softwares. Considerada um ponto-chave em qualquer projeto, a estrutura de dados tem um papel relevante no trabalho de todos os programadores. Mas você sabe […]
Data Science