Já parou para pensar quantos bytes de dados produzimos diariamente? Sites que acessamos, lugares que estivemos pessoas com quem conversamos produtos que compramos&#8230; Sem falar em todos os sensores que carregamos o todo tempo dentro dos nossos smartphones, computadores e wearables. Mas o que fazer com essa enxurrada de dados? Vamos aprender a analisá-los com o data lake!
<div id="toc_container" class="toc_white no_bullets">Sum&aacute;rio<ul class="toc_list"><li><a href="#O-que-e-BIG-DATA">1 O que é BIG DATA?</a></li><li><a href="#O-que-ha-de-novo-no-Microsoft-Azure-Data-Lake">2 O que há de novo no Microsoft Azure Data Lake?</a></li><li><a href="#O-que-posso-fazer-com-o-Data-Lake">3 O que posso fazer com o Data Lake?</a></li><li><a href="#O-que-preciso-para-comecar">4 O que preciso para começar?</a></li><li><a href="#Na-pratica">5 Na prática</a><ul><li><a href="#Cenario">5.1 Cenário</a></li><li><a href="#Criando-um-Projeto-com-U-SQL">5.2 Criando um Projeto com U-SQL</a></li><li><a href="#Utilizando-Funcoes-C-8211-CodeBehind">5.3 Utilizando Funções C# &#8211; CodeBehind</a></li></ul></li><li><a href="#Hadoop">6 Hadoop</a></li></ul></div>
<h2 style="text-align: justify;">O que é BIG DATA?</h2>
Ao conjunto de dados complexos, com grande volume, velocidade, variedade, veracidade e valor, é dado o nome de <a style="color: #ff0062;" href="https://pt.wikipedia.org/wiki/Big_data">Big Data</a>. Devido à sua complexidade, para se conseguir extrair informações desse emaranhado de dados avulsos, é necessário fazer uma análise. A análise desses dados costuma exigir muito processamento e diversas aplicações foram desenvolvidas para obter informações a partir de tanta informação.
Uma solução para a análise dos dados que tem ganhado força é o novo Microsoft Azure Data Lake. O Data Lake tem como objetivo facilitar a análise distribuída dos dados em nuvem além de simplificar o desenvolvimento das análises. A ferramenta permite escalar facilmente o paralelismo na execução da análise. O ajuste é feito simplesmente alterando um seletor, deixando de lado as preocupações com a infraestrutura distribuída. Trabalhando em nuvem, aumentar o poder de processamento para obter um resultado mais rápido é muito mais fácil e barato.
<img fetchpriority="high" decoding="async" class="aligncenter wp-image-911" title="data lake" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-1.jpg" alt="data lake" width="993" height="608" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-1.jpg 1634w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-1-300x184.jpg 300w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-1-768x470.jpg 768w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-1-1024x627.jpg 1024w" sizes="(max-width: 993px) 100vw, 993px" />
<h2 style="text-align: justify;">O que há de novo no Microsoft Azure Data Lake?</h2>
Para facilitar o desenvolvimento, o Data Lake inclui o U-SQL, uma linguagem que permite estender o SQL integrando com o .NET. Ou seja, suas queries SQL podem ser completadas com funções escritas em C#. Isso permite estender a análise e utilizar expressões LINQ e até mesmo outras DLLs de análises mais complexas. Além disso, ao utilizar funções C#, é possível fazer o debug da análise ao executar uma análise local. 
Outra vantagem de se utilizar o Data Lake é conseguir utilizar, ao mesmo tempo, todas as bases de dados do Azure, ou seja, é possível trabalhar com todos os tipos de dados e com alguns serviços (HDInsight, Hadoop, Spark, Storm e HBase).
<h2 style="text-align: justify;">O que posso fazer com o Data Lake?</h2>
A análise de Big Data pode ser aplicada nos mais diversos tipos de cenários. Veja abaixo alguns deles:
<ul>
<li style="text-align: justify;">Análise de perfil de acessos a sites.</li>
<li style="text-align: justify;">Medição de qualidade de sinal de telefonia.</li>
<li style="text-align: justify;">Prevenção e diagnóstico de doenças.</li>
<li style="text-align: justify;">Previsão do tempo.</li>
<li style="text-align: justify;">Análises esportivas (buscando o alto rendimento de atletas e evitando lesões).</li>
<li style="text-align: justify;">Análise de sensores na indústria (com o objetivo de otimizar a manutenção de equipamentos evitando quebras).</li>
<li style="text-align: justify;">Análise de perfil de compra, auxiliando nas campanhas de marketing.</li>
</ul>
<h2 style="text-align: justify;">O que preciso para começar?</h2>
Para usar o Microsoft Azure Data Lake, é preciso ter:
⦁ Visual Studio 2012 ou superior 
⦁ SDK do Microsoft Azure para .NET versão 2.7.1 ou superior. 
⦁ E o Plugin Data Lake para Visual Studio. 
⦁ Também é recomendado que se tenha uma conta do Microsoft Azure para poder aproveitar as vantagens e funções específicas.
<h2 style="text-align: justify;">Na prática</h2>
Para exemplificar como é simples realizar as primeiras análises com o Data Lake, vamos mostrar um caso de uso.
<h3 style="text-align: justify;">Cenário</h3>
Considere que precisamos reduzir o tráfego mensal de um servidor Web para reduzirmos os custos de com a manutenção do servidor. Para isso, temos posse apenas dos logs de acesso do servidor. Esse log possui todas as requisições ao servidor durante o período de um mês com as seguintes informações:
<img decoding="async" class="aligncenter wp-image-912" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-2.png" alt="hadoop" width="749" height="835" />
Essa é a amostra de dados que obtivemos como <a href="http://opensource.indeedeng.io/imhotep/docs/sample-data/">exemplo</a> e que considera os logs do servidor web da NASA entre os 30/06/1995 e 28/07/1995. 
O arquivo possui mais de 1,5 milhões de linhas e para processar toda essa informação, é necessária uma boa ferramenta de análise. Com o cenário montado, vamos começar.
<h3>Criando um Projeto com U-SQL</h3>
Após instalados todos os pré-requisitos, vá ao Visual Studio e Clique em New &gt; Project. Veja que dentro de Templates agora temos a opção U-SQL. Selecione a opção U-SQL Project e dê um novo ao seu projeto.
&nbsp;
<img decoding="async" class="aligncenter wp-image-914" title="data lake" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-3-1.jpg" alt="hadoop" width="819" height="565" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-3-1.jpg 835w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-3-1-300x207.jpg 300w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-3-1-768x529.jpg 768w" sizes="(max-width: 819px) 100vw, 819px" />
Vamos inicialmente identificar quem são nossos maiores e quantas chamadas fizeram no mês analisado, para isso, vamos analisar apenas utilizando U-SQL. 
Segue o código U-SQL abaixo:
<img loading="lazy" decoding="async" class="aligncenter wp-image-915" title="data lake" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-4.png" alt="BIG DATA 4" width="532" height="570" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-4.png 459w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-4-280x300.png 280w" sizes="(max-width: 532px) 100vw, 532px" />
Sendo “/input/WebNasa.tsv” a fonte dos dados e &#8220;/output/Analise.csv&#8221; o endereço da saída com a análise feita. Para executar a análise, clique em Submit. Em seguida, a análise será salva no endereço de saída. 
Analisando os resultados, a primeira informação que podemos obter é que os 30 maiores consumidores foram:
<img loading="lazy" decoding="async" class="aligncenter wp-image-916 size-full" title="big data" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-5.jpg" alt="BIG DATA 5" width="732" height="738" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-5.jpg 732w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-5-298x300.jpg 298w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-5-150x150.jpg 150w" sizes="(max-width: 732px) 100vw, 732px" />
Agora que já realizamos uma pequena análise, vamos ao que interessa, descobrir quais os arquivos requisitados que estão consumindo maior franquia de transferência do servidor. Com isso, poderemos, por exemplo, aperfeiçoar uma página ou mesmo reduzir a qualidade de uma imagem para reduzir o consumo. Para isso, vamos precisar de uma análise um pouco mais complexa, utilizando o code behind em C#.
<h3>Utilizando Funções C# &#8211; CodeBehind</h3>
Para executar funções em C#, precisamos acessar o arquivo em Script.usql.cs. Vá ao Solution Explorer e abra o arquivo.
<img loading="lazy" decoding="async" class="aligncenter wp-image-917" title="big data" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-6.jpg" alt="BIG DATA 6" width="819" height="549" />
Para encontrarmos os arquivos que estão consumindo a maior banda, precisaremos contar quantas vezes cada url e multiplicar pelo seu tamanho (bytes). Utilizaremos o code behind para realizar essa multiplicação utilizando o código abaixo:
<img loading="lazy" decoding="async" class="aligncenter wp-image-918" title="big data" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-7.jpg" alt="BIG DATA 7" width="733" height="423" />
Para fazer a chamada do método no U-SQL, utilize a sintaxe: 
{namespace}.{class}.{método(parâmetros)} 
Alteramos o código para chamarmos o método criado:
<img loading="lazy" decoding="async" class="aligncenter wp-image-919 size-full" title="big data" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-8.jpg" alt="BIG DATA 8" width="741" height="624" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-8.jpg 741w, https://www.cms.dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-8-300x253.jpg 300w" sizes="(max-width: 741px) 100vw, 741px" />
Analisando novamente os 30 primeiros resultados obtidos, temos:
<img loading="lazy" decoding="async" class="aligncenter wp-image-920" title="big data" src="https://dtidigital.com.br/wp-content/uploads/2016/04/BIG-DATA-9.png" alt="BIG DATA 9" width="905" height="886" />
Com isso, sabemos que se diminuirmos o tamanho desses arquivos, reduzindo a resolução dos vídeos, ou <a style="color: #ff0062;" href="http://www.cms.dtidigital.com.br/blog/lgpd/">otimizando o código das páginas</a>, poderíamos reduzir custos com servidores. Da mesma forma, essa análise poderia ser expandida para outros custos da empresa, identificando desperdícios e melhorando processos.
<h2>Hadoop</h2>
Quem atua direta ou indiretamente com Big Data já deve ter esbarrado no conceito de Hadoop. Em resumo, o<a style="color: #ff0062;" href="http://www.cms.dtidigital.com.br/blog/hadoop/"> Hadoop</a> é uma plataforma de software open-source para armazenamento dados e execução de aplicações em clusters de hardwares mais usuais &#8211; qualquer semelhança com o Big Data é mera concorrência. Além disso, o Hadoop fornece armazenamento massivo para qualquer tipo de dado, garantindo maior autonomia no processamento e capacidade de lidar com uma quantidade maior de tarefas e trabalhos ao mesmo tempo.
Se você tem interesse em fazer parte de um time que fomenta o crescimento constante na cultura agil e a aplicação do Big Data e Hadoop na prática, venha fazer parte da equipe dti. <a style="color: #ff0062;" href="http://www.cms.dtidigital.com.br/venha-ser-dti/">Acesse nossa página de carreiras e</a> <a style="color: #ff0062;" href="http://www.cms.dtidigital.com.br/venha-ser-dti/">venha ser dti</a>!

Chegou o momento de impulsionar os resultados da sua empresa! Para entrar em contato com a gente, clique no botão abaixo e preencha o formulário.

Análise de BIG DATA com o Microsoft Azure Data Lake

One-stop shop em tecnologia

Confira outros artigos