Dados não estruturados: introdução

Por dti digital|
Atualizado: Jul 2023 |
Publicado: Mar 2022

Atualmente, dados não estruturados representam mais de 80% dos dados existentes e 95% das empresas priorizam a análise de dados estruturados. Para começar um artigo falando do porque você deveria dar mais atenção aos seus dados, acredito que a melhor forma de convencimento seria com um dado impactante. 

Nesse artigo, o objetivo é explicar o que são dados não estruturados. Além disso, iremos discutir as vantagens de lidar com esse tipo de dado, hipotetizar o porquê não é uma área tão explorada ainda, e também dar exemplos de como lidar com esse tipo de dados (com exemplos de projetos reais).

O que são dados não estruturados?

Dados não estruturados são todos aqueles que não consistem em tabelas (que são dados estruturados, como csv, excel ou alguma tabela de banco de dados) e também não são dados semi-estruturados (json, xml e yaml). Por exemplo, relatórios em pdf, e-mails, páginas na internet em html, áudios do Whatsapp e fotos são todos dados não estruturados.

organograma dados estruturados, semi estruturados e não estruturados

Acredito que agora fica óbvio que esses tipos têm quantidade muito maior que os dados estruturados – já que fazem muito mais parte do nosso dia a dia do que tabelas csv. Porém, atualmente, muitas iniciativas de dados consistem, principalmente, em produtos de Business Intelligence (dashboards, relatórios analíticos, resumos, painéis gráficos) baseados em dados já estruturados – ou alimentados por algum Data Warehouse

Dados não estruturados, diferentemente dos estruturados, podem ser armazenados em estruturas chamadas Data Lake. Essas estruturas podem comportar tanto dados estruturados como dados não estruturados. Embora exista essa estrutura, e os dados sejam fonte preciosa de informação, muitas vezes, estes ficam de lado por alguns motivos que serão explorados abaixo.

Quer ver mais conteúdos como esse?

Por que dados não estruturados são despriorizados?

Primeiramente, o entendimento de um dado tabular (ou até semi-estruturado) é muito mais simples do que um dado não estruturado – e, portanto, leva menos tempo para gerar valor. Para isso ficar mais claro, analise os três exemplos (fictícios) abaixo e tente encontrar quatro nomes de lugares em cada um

Dados não estruturados e dados estruturados na prática

NomePaísIdade
MariaBrasil33
MiguelMéxico45
JohnInglaterra21
LouisFrança14

 

{

             “pacotes-disponíveis”: [

                      {

                                   “disponível”: “True”,

                                   “dias”: 5,

                                   “local”: “Chile”,

                                   “preço-por-pessoa”: 3000

                       }, 

                       {

                                    “disponível”: “False”,

                                    “dias”: 6,

                                    “local”: “Argentina”,

                                    “preço-por-pessoa”: 1000

                        }, 

                        {

                                    “disponível”: “True”,

                                    “dias”: 4,

                                    “local”: “Bolívia”,

                                    “preço-por-pessoa”: 2500

                        }, 

                        {

                                    “disponível”: “True”,

                                    “dias”: 10,

                                    “local”: “Itália”,

                                    “preço-por-pessoa”: 3000

                         }

              ]

 }

 

Boa tarde, 

Tudo bem? Acredito que houve um engano quanto à rota que o carro direcionando o Governador deveria seguir. O Governador João da Silva precisa visitar urgentemente as cidades do Sul de Minas Gerais, considerando que tem reuniões com os Prefeitos. Por isso, não faria sentido ele seguir em direção à Uberlândia, e sim em direção a Poços de Caldas depois do dia 10 de março de 2021. 

Importante relembrar ele também visitará as cidades de Lavras (11 de março) e Varginha (13 de março).

Att.

 

Compreendendo conceitos

O primeiro é um dado estruturado (tabela), o segundo é um dado semi-estruturado (nesse caso, json) e o terceiro é um dado não estruturado (corpo de email). Acredito que fica mais claro que, em um cenário onde Big Data é presente, a dificuldade de entender – rápido – múltiplos tipos de dados não estruturados, sendo um processo mais lento e, consequentemente, mais caro. 

Outro ponto que faz essa análise/extração de dados mais difícil é a falta de pessoas especializadas. Isso porque atualmente já existe grande falta de pessoas para suprir a área de análise de dados estruturados. No caso da análise dos dados não estruturados, a pessoa deve ter habilidades para saber aplicar análise de texto (processamento de linguagem natural – PLN ou NLP, análise de sentimento), análise de imagem e análise de áudio. 

Com isso, entramos em um cenário com muita informação valiosa presente em diversos contextos. Entretanto, , porém, em um mundo imediatista que exige entrega de valor rápida achando que é a única forma de saber que está compensando o investimento. Além disso, necessitando de muitas habilidades que demoram muito tempo para uma pessoa construir para efetivamente trazer valor ao cliente.

Benefícios dos dados não estruturados

Exemplos trarão mais explicitamente quais as vantagens de lidar com dados não estruturados. O primeiro é sobre análise de texto – como exemplo o corpo de email da seção anterior. Com algoritmos de Machine Learning e Processamento de Linguagem Natural, é possível verificar que existem localizações sendo citadas no texto, nomes próprios, e que a linguagem é português. Além disso, análises de sentimento podem ser feitas e pode ser visto que existe uma urgência e estresse na voz do locutor ao emitir sua mensagem. Mesmo que seja óbvio para nós humanos, é algo muito difícil de ser detectado por máquinas.

Um segundo exemplo é sobre algum áudio – que seja essa mesma mensagem do email, porém falada. O principal foco de algoritmos de áudio é fracionar ao máximo o áudio, ou seja, as ondas, até o nível de fonemas individuais (por exemplo o som que você emite quando fala somente “à”), e fazer uma combinação da forma escrita desses fonemas para transcrever este áudio. Nesse caso, algumas características podem ser extraídas do texto que foi transcrito.

Já sobre imagens, podem ser extraídas inúmeras características do conjunto de pixels (o algoritmo verifica cada pixel da imagem para entender o seu conteúdo como um todo). Um exemplo é atribuir localização à imagem, como uma foto do Cristo Redentor seria atribuída a cidade do Rio de Janeiro. É também possível trabalhar com reconhecimento facial de pessoas, por exemplo. Ou reconhecimento das expressões faciais e o que aquelas pessoas estão demonstrando sentir na foto em questão. 

Esses exemplos são somente alguns cenários em que podemos analisar cada um desses dados – existem mais tipos de dados não estruturados. Claramente, dados não estruturados são fontes que podem ser utilizadas de muitas formas a agregar valor, de forma a entender contextos melhor e até de forma mais personalizada.

Como lidar com esses dados não estruturados

Como já foi citado, são necessários anos para cada especialista – em provavelmente um time – criar suas habilidades de forma que consigam aplicar algoritmos complexos para análise desses dados com alta qualidade. 

Porém, existe hoje em dia disponibilização de serviços de nuvem que visam, exclusivamente, tratar dados não estruturados. Análise de texto – como busca, análise de sentimento, áudio, vídeos e imagens se tornaram algo muito mais tangível com APIs disponibilizadas pela Microsoft e Google, por exemplo. 

Um caso real aplicado na dti digital foi o caso de uma empresa, que precisava de um sistema de busca mais acurado em documentos específicos – com extração de nomes próprios. A dti criou uma solução em que, automaticamente, esses dados eram extraídos da fonte, transformados e a, a partir da API do Azure Cognitive Search, eram buscados por relevância e eram extraídos os nomes pessoais dos documentos. 

Com isso, aplicamos conceitos difíceis, extraímos dados essenciais e geramos muito valor para o cliente!

Tem interesse em fazer parte de um time que fomenta o aprendizado constante e te dá a chance de atuar diretamente na cultura ágil e com base no Manifesto Ágil? Então acesse nossa página de carreiras, escolha a vaga que mais se encaixa no seu perfil e venha ser dti!

Por: Aline Guimarães

Quer saber mais?