Diurno

Data lakes – Uma boa estratégia para análise de Big Data

por: Pablo Goulart

data: 04/01/2018

Compartilhar no facebook
Compartilhar no twitter
Compartilhar no whatsapp
Compartilhar no linkedin
Compartilhar no facebook
Compartilhar no twitter
Compartilhar no whatsapp
Compartilhar no linkedin

Os data lakes se tornaram soluções populares para construir sistemas que atendam aos desafios impostos pelo big data.

Os projetos de big data requerem a coleta de uma grande variedade de informações. Elas podem estar ilegíveis no momento de sua ingestão, o que torna necessário criar um repositório que permita analisar, transformar e desenvolver aplicações que extraiam valor dos dados. Os data lakes oferecem uma plataforma completa para provisionamento dessas soluções.

Neste artigo, veja as principais particularidades dos data lakes e como eles podem ser úteis no seu negócio.

Por que as soluções atuais não atendem às expectativas?

O aumento do volume de dados coletados pelas empresas tornou ineficaz as soluções tradicionais de armazenamento dos dados. Visando tornar essa tarefa escalável e com garantias de desempenho, os data lakes têm se tornado um padrão industrial para armazenamento em big data.

O Conceito

O data lake é um contêiner de dados heterogêneo. Nele, podemos armazenar tabelas relacionais, não relacionais, documentos de textos e dados sem estrutura definida para interpretação automática (ex: imagens ou áudio). Ele provê um repositório centralizado baseado em nuvem que viabiliza o gerenciamento dos dados de maneira escalável e segura.

Os dados armazenados nos data lakes não precisam ter um esquema definido no momento da ingestão. Os data lakes funcionam com o conceito schema-on-read. Nesse conceito, o esquema é definido sobre os dados no momento da leitura, e permite que um mesmo dado bruto seja especializado para diferentes aplicações sem perda de informação.

Essa premissa difere das tradicionais bases de dados e data warehouses, que adotam o conceito schema-on-write. Esse conceito exige um esquema pré-definido sobre o dado no momento da sua escrita na base. 

Características dos data lakes

Em geral, arquiteturas de data lakes visam atender as seguintes características:

  • Ingestão e armazenamento de dados de diversas fontes;
  • Construção de catálogo de dados para facilitar a consulta da informação;
  • Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;
  • Tratamento dos dados;
  • Transformação dos dados em formatos otimizados para consulta;
  • Consulta dos dados;
  • Exploração dos dados para as áreas de data analytics, data science e BI;
  • Construção de plataformas de visualização de dados;
  • Integração com ferramentas PaaS e on-premises para processamento dos dados;
  • Execução algoritmos sobre os dados sem restrições de padrão ou de tecnologia;
  • Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;

Por que é uma vantagem estruturá-lo?

Os data lakes provêm um repositório de dados que centraliza tarefas de gerenciamento, monitoramento e análise dos dados. Uma vez inserido no lake, o dado está disponível para análise por todos os times dentro da organização.

Isso diminui custos de transformação dos dados na sua ingestão e aumenta a agilidade dos analistas de dados para explorar e extrair novos insights dos dados.

Mas, como fazer isso?

Embora o conceito não seja novo, os data lakes tornaram-se populares há poucos anos com a explosão da computação em nuvem. Grandes players do mercado de nuvem como Amazon, Microsoft e Google proveem recursos para o provisionamento de infraestrutura e serviços que viabilizam a construção dessas plataformas .

Veja neste post, um exemplo de análise de big data com data lakes.

Aqui na dti, temos experiências em construção de soluções completas utilizando tecnologias AWS, Azure e GCP, além de soluções on-premises para processamento de dados. Quem sabe não temos a solução que você está precisando? Para saber mais, entre em contato conosco!