05
Building Batch Data Pipelines on Google Cloud - Español
05
Building Batch Data Pipelines on Google Cloud - Español
Las canalizaciones de datos suelen realizarse según uno de los paradigmas extracción y carga (EL); extracción, carga y transformación (ELT), o extracción, transformación y carga (ETL). En este curso, abordaremos qué paradigma se debe utilizar para los datos por lotes y cuándo corresponde usarlo. Además, veremos varias tecnologías de Google Cloud para la transformación de datos, incluidos BigQuery, la ejecución de Spark en Dataproc, grafos de canalización en Cloud Data Fusion y procesamiento de datos sin servidores en Dataflow. Los estudiantes obtienen experiencia práctica en la compilación de componentes de canalizaciones de datos en Google Cloud con Qwiklabs.
- Revisar los diferentes métodos de carga de datos: EL, ELT y ETL, y cuándo corresponde usarlos.
- Ejecutar Hadoop en Dataproc, usar Cloud Storage y optimizar trabajos de Dataproc.
- Compilar tus canalizaciones para el procesamiento de datos con Dataflow.
- Administrar canalizaciones de datos con Data Fusion y Cloud Composer.
Tener experiencia en actividades de modelado de datos y ETL (extracción, transformación y carga).
Tener experiencia en desarrollo de aplicaciones con lenguajes de programación comunes, como Python o Java.