Building Batch Data Pipelines on GCP em Português Brasileiro

Description

Os pipelines de dados geralmente se encaixam em um dos três paradigmas: extração-carregamento, extração-carregamento-transformação ou extração-transformação-carregamento. Este curso descreve qual paradigma deve ser usado em determinadas situações e quando isso ocorre com dados em lote. Além disso, vamos falar sobre várias tecnologias no Google Cloud para transformação de dados, incluindo o BigQuery, a execução do Spark no Dataproc, gráficos de pipeline no Cloud Data Fusion e processamento de dados sem servidor com o Dataflow. Os participantes vão ganhar experiência prática na criação de componentes de pipelines de dados no Google Cloud usando o Qwiklabs.

What you will learn

Introdução

Neste módulo, vamos apresentar o curso e a programação

Introdução à criação de pipelines de dados em lote

Este módulo analisa diferentes métodos de carregamento de dados: EL, ELT e ETL (e quando cada um deve ser usado)

Como executar o Spark no Dataproc

Este módulo mostra como executar o Hadoop no Dataproc, como usar o Cloud Storage e como otimizar os jobs do Dataproc.

Processamento de dados sem servidor com o Dataflow

Este módulo aborda o uso do Dataflow para criar pipelines de processamento de dados

What’s included