Data lake: estratégia para análise de Big Data
Os data lakes se tornaram soluções populares para construir sistemas que atendam aos desafios impostos pelo big data.
Os projetos de big data requerem a coleta de uma grande variedade de informações. Elas podem estar ilegíveis no momento de sua ingestão, o que torna necessário criar um repositório que permita analisar, transformar e desenvolver aplicações que extraiam valor dos dados. Os data lakes oferecem uma plataforma completa para provisionamento dessas soluções.
Neste artigo, veja as principais particularidades dos data lakes e como eles podem ser úteis no seu negócio.
Por que as soluções atuais não atendem às expectativas?
O aumento do volume de dados coletados pelas empresas tornou ineficaz as soluções tradicionais de armazenamento dos dados. Visando tornar essa tarefa escalável e com garantias de desempenho, os data lakes têm se tornado um padrão industrial para armazenamento em big data.
O que é Data Lake?
O data lake é um contêiner de dados heterogêneo. Nele, podemos armazenar tabelas relacionais, não relacionais, documentos de textos e dados sem estrutura definida para interpretação automática (ex: imagens ou áudio). Ele provê um repositório centralizado baseado em nuvem que viabiliza o gerenciamento dos dados de maneira escalável e segura.
Qual a diferença entre data Lake é data warehouse?
Os dados armazenados em um data lake não precisam ter um esquema definido no momento da ingestão. Os data lakes funcionam com o conceito schema-on-read. Nesse conceito, o esquema é definido sobre os dados no momento da leitura, e permite que um mesmo dado bruto seja especializado para diferentes aplicações sem perda de informação.
Essa premissa difere das tradicionais bases de dados e data warehouses, que adotam o conceito schema-on-write. Esse conceito exige um esquema pré-definido sobre o dado no momento da sua escrita na base.
Características de um data lake
Em geral, a arquitetura de um data lake visa atender as seguintes características:
- Ingestão e armazenamento de dados de diversas fontes;
- Construção de catálogo de dados para facilitar a consulta da informação;
- Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;
- Tratamento dos dados;
- Transformação dos dados em formatos otimizados para consulta;
- Consulta dos dados;
- Exploração dos dados para as áreas de data analytics, data science e BI;
- Construção de plataformas de visualização de dados;
- Integração com ferramentas PaaS e on-premises para processamento dos dados;
- Execução algoritmos sobre os dados sem restrições de padrão ou de tecnologia;
- Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;
Por que é uma vantagem estruturar o data lake?
Os data lakes provêm um repositório de dados que centraliza tarefas de gerenciamento, monitoramento e análise dos dados. Uma vez inserido no lake, o dado está disponível para análise por todos os times dentro da organização.
Isso diminui custos de transformação dos dados na sua ingestão e aumenta a agilidade dos analistas de dados para explorar e extrair novos insights dos dados.
Como estruturar um data lake?
Embora o conceito não seja novo, os data lakes tornaram-se populares há poucos anos com a explosão da computação em nuvem. Grandes players do mercado de nuvem como Amazon, Microsoft e Google proveem recursos para o provisionamento de infraestrutura e serviços que viabilizam a construção dessas plataformas .
Veja neste post, um exemplo de análise de big data com data lake.
Aqui na dti, temos experiências em construção de soluções completas utilizando tecnologias AWS, Azure e GCP, além de soluções on-premises para processamento de dados. Quem sabe não temos a solução que você está precisando? Para saber mais, entre em contato com a gente!