A gestão e análise de grandes volumes de dados em diferentes formatos, preferencialmente da Internet, está se espalhando lentamente no mundo dos negócios.

Assim como a agricultura originou as cidades, as redes sociais, blogs e as informações geradas por sensores criaram uma nova organização social sem fronteiras que nós chamamos de big data.

Este fenômeno no início se desenvolveu principalmente em empresas "ponto.com" como o Google, Yahoo e Facebook – eles foram os pioneiros na resposta a estes desafios, pelo volume de informações geradas diariamente, variedade de formatos e a taxa de geração informação. Mas hoje empresas médias de todos os segmentos já o estão analisando.

O Google foi o primeiro a criar tecnologias para o gerenciamento de grandes volumes de dados em "hardware commodity", a partir do desenvolvimento do Hadoop, um software gratuito e com código aberto. E o processamento massivo tornou o Hadoop tão popular.

É possível usar vários servidores de baixo custo que operam em paralelo para análise de dados, enquanto que no passado eles apenas realizavam a análise de dados estruturados de negócios em sistemas tradicionais.

A informação a ser analisada pode estar em qualquer formato disponível, incluindo informações não estruturadas ou multi-estruturadas como um twite, vídeos no YouTube, posts em blogs, documentos em HTML ou JSON. O volume deste universo de informações cresce 15 vezes mais rápido do que o das informações estruturadas.

E os atuais avanços tecnológicos podem tornar complexas as análises desses dados, gerando informações valiosas que podem traduzir diretamente em ações que criam valor para a empresa.

Para conseguir isso é necessário simplificar a tarefa de análise do usuário, fornecendo a capacidade de analisar as informações necessárias, não importa onde elas estão: em um "datawarehouse" (informação estruturada) ou outros formatos não estruturados.

O importante é ser capaz de acessá-la e analisá-la sem necessidade de conhecimento técnico especializado, apenas reutilizando técnicas e padrões (por exemplo, a linguagem SQL) já estabelecidos.

É por isso que é necessário ir além de informações não estruturadas. O fundamental é que todos os dados da empresa estejam disponíveis para serem analisados em conjunto. Assim obtemos uma visão única  do que será realmente analisado.

* Leandro J. Ruiz é arquiteto de soluções para o Caribe e América Latina da Teradata.