Frederico Caram, arquiteto de dados na Avenue Code.

Tamanho da fonte: -A+A

O conceito de Data Warehouses (DWs) está em voga desde o fim dos anos 80 e é, ainda hoje, um componente crítico para qualquer companhia que deseja adotar uma cultura focada em dados. Neste artigo, iremos explicar por que o BigQuery é a escolha correta para modernizar seu Data Warehouse.

Data Warehouses e a nuvem

O principal propósito de uma data warehouse é coletar e armazenar dados de diferentes fontes e disponibilizá-los de forma rápida, segura e fácil para subsequente análise.

Com o crescimento da computação em nuvem, grandes provedores como Amazon, Azure e Google (entre outros) passaram a oferecer suas próprias soluções de data warehouse. Estes provedores tornaram mais fácil gerenciar e escalar nossos data warehouses, enquanto também facilitaram a integração destes com as demais ferramentas disponibilizadas por eles.

Vantagens do GCP

 Em comparação com seus competidores, a principal vantagem que o Google Cloud Platform (GCP) oferece é seu data warehouse sem servidor: o BiqQuery. Com ele, você não precisa se preocupar quanto ao gerenciamento, provisionamento ou dimensionamento de infraestrutura, podendo focar somente nos seus dados e em como utilizá-los para melhorar seus produtos, serviços, operações e tomada de decisão.

Como todas as ferramentas modernas de Data Lakehouse, o BigQuery separa o armazenamento do processamento. Esta separação permite que ele alcance melhor disponibilidade, escalabilidade e eficiência. Para o componente de armazenamento é utilizado o Colossus, o sistema de armazenamento global do Google; enquanto para o processamento é utilizado o Dremel, um gigantesco cluster multi-tenant que executa as queries SQL. Estes recursos são orquestrados utilizando o Borg, um predecessor do Kubernetes e se comunicam através do Jupiter, a rede Petabit interna do Google, como demonstrado abaixo:

image004-1

 

GCP e a integração com outros produtos do Google

 Outra grande vantagem que o BigQuery oferece é a facilidade de integrar com outros produtos do GCP e do Google, tornando-o a melhor opção para analytics. A versão corporativa do Google Analytics: GA 360, pode exportar os dados para o BigQuery de forma fácil, permitindo um melhor entendimento do comportamento e da jornada do usuário em nossos websites. Uma vez que os dados estejam no BigQuery, é possível relacioná-los com fontes de dados externas ou aplicar modelos de machine learning utilizando o BigQuery ML (que abordaremos em postagens futuras), gerando insights melhores e mais profundos utilizando uma linguagem que a maioria dos analistas de dados já estão habituados: SQL.

O GCP também provê outras integrações extremamente úteis, tais como: Cloud Storage, BigTable, Pub/Sub, Dataflow, Data Studio, Looker, Data Catalog, Cloud Composer, entre outros, tornando muito mais simples a construção de um fluxo de dados de fim-a-fim. Como a maioria destes recursos não requer servidor, nós também não precisamos nos preocupar com a manutenção de nenhuma infraestrutura. Por exemplo: combinando o Pub/Sub com o DataFlow e com o BigQuery nos permite criar um fluxo de dados de streaming de forma fácil e sem infraestrutura:

 

 

 
 

image006

 

BI Engine

 O BigQuery também nos oferece o BI Engine, uma engine que melhora a integração do BigQuery com ferramentas de visualização de dados como Data Studio, Looker, Tableau, QlikView e Power BI, possibilitando:

1.    Queries mais rápidas: O serviço de análise em memória do BI Engine permite uma considerável redução no tempo de resposta das requisições.

2.    Arquitetura simplificada: O BI Engine permite a extração de dados sem complexas rotinas de ETL.

3.    Ajuste inteligente: O BI Engine auto-ajusta suas queries, movendo os dados entre sua memória, o cache do BigQuery e o armazenamento do BigQuery para melhorar a performance e o tempo de resposta

Por que escolher o Big Query?

Resumidamente, o Bigquery nos permite a performance, disponibilidade e escalabilidade que nosso negócio precisa, sem ter de se preocupar com a infraestrutura e as operações que rodam por detrás, tudo isso com um preço competitivo e um ecossistema completo para suportar os casos de uso mais usados.

Por Frederico Caram, arquiteto de dados na Avenue Code.