05
Building Batch Data Pipelines on Google Cloud - Italiano
05
Building Batch Data Pipelines on Google Cloud - Italiano
Le pipeline di dati in genere rientrano in uno dei paradigmi EL (Extract, Load), ELT (Extract, Load, Transform) o ETL (Extract, Transform, Load). Questo corso descrive quale paradigma dovrebbe essere utilizzato e quando per i dati in batch. Inoltre, questo corso tratta diverse tecnologie su Google Cloud per la trasformazione dei dati, tra cui BigQuery, l'esecuzione di Spark su Dataproc, i grafici della pipeline in Cloud Data Fusion e trattamento dati serverless con Dataflow. Gli studenti fanno esperienza pratica nella creazione di componenti della pipeline di dati su Google Cloud utilizzando Qwiklabs.
- Esaminare i diversi metodi di caricamento dei dati: EL, ELT ed ETL e quando utilizzarli.
- Eseguire Hadoop su Dataproc, utilizzare Cloud Storage e ottimizzare i job Dataproc.
- Creare le tue pipeline di trattamento dati con Dataflow.
- Gestire pipeline di dati con Data Fusion e Cloud Composer.
Esperienza nelle attività di modellazione dei dati ed ETL (Extract, Transform, Load).
Esperienza nello sviluppo di applicazioni mediante un linguaggio di programmazione comune, come Python o Java.