05
Building Batch Data Pipelines on Google Cloud - Français
05
Building Batch Data Pipelines on Google Cloud - Français
Les pipelines de données s'inscrivent généralement dans l'un des paradigmes EL (extraction et chargement), ELT (extraction, chargement et transformation) ou ETL (extraction, transformation et chargement). Ce cours indique quel paradigme utiliser pour le traitement de données par lot en fonction du contexte. Il présente également plusieurs technologies Google Cloud de transformation des données, y compris BigQuery, l'exécution de Spark sur Dataproc, les graphiques de pipelines dans Cloud Data Fusion et le traitement des données sans serveur avec Dataflow. Les participants mettront en pratique les connaissances qu'ils auront acquises en créant des composants de pipelines de données sur Google Cloud à l'aide de Qwiklabs.
- Explorer différentes méthodes de chargement de données (EL, ELT et ETL) et déterminer quand les utiliser.
- Exécuter Hadoop sur Dataproc, utiliser Cloud Storage et optimiser les jobs Dataproc.
- Créer des pipelines de traitement des données à l'aide de Dataflow.
- Gérer des pipelines de données avec Data Fusion et Cloud Composer.
Avoir de l'expérience en modélisation de données et en ETL (opérations d'extraction, de transformation et de chargement).
Avoir de l'expérience en développement d'applications dans un langage de programmation courant tel que Python ou Java.