05
Building Batch Data Pipelines on Google Cloud - Português Brasileiro
05
Building Batch Data Pipelines on Google Cloud - Português Brasileiro
Os pipelines de dados geralmente se encaixam em um desses três paradigmas: extração e carregamento (EL), extração, carregamento e transformação (ELT) ou extração, transformação e carregamento (ETL). Este curso descreve qual paradigma deve ser usado em determinadas situações e quando isso ocorre com dados em lote. Além disso, vamos falar sobre várias tecnologias no Google Cloud para transformação de dados, incluindo o BigQuery, a execução do Spark no Dataproc, gráficos de pipeline no Cloud Data Fusion e processamento de dados sem servidor com o Dataflow. Os participantes vão ganhar experiência prática na criação de componentes de pipelines de dados no Google Cloud usando o Qwiklabs.
- Analisar diferentes métodos de carregamento de dados: EL, ELT e ETL e quando usar cada um deles.
- Executar o Hadoop no Dataproc, usar o Cloud Storage e otimizar os jobs do Dataproc.
- Usar o Dataflow para criar pipelines de processamento de dados.
- Gerenciar pipelines de dados com o Data Fusion e o Cloud Composer.
Experiência com atividades de modelagem de dados e ETL (extração, transformação e carregamento).
Experiência com desenvolvimento de aplicativos usando uma linguagem de programação comum, como Python ou Java.