Google Cloud Next 2021 Hands-On Labs navigate_next Procesamiento ETL en Google Cloud a través de Dataflow y BigQuery (Python)

Pon a prueba tus conocimientos y compártelos con nuestra comunidad

done

Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

Procesamiento ETL en Google Cloud a través de Dataflow y BigQuery (Python)

Lab 1 hora universal_currency_alt 5 créditos show_chart Intermedio

info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.

GSP290
Descripción general
Configuración y requisitos
Tarea 1: Asegúrate de que la API de Dataflow esté habilitada correctamente
Tarea 2: Descarga el código de partida
Tarea 3. Crea un bucket de Cloud Storage
Tarea 4: Copia archivos al bucket
Tarea 5: Crea un conjunto de datos de BigQuery
Tarea 6: Crea una canalización de Dataflow
Tarea 7: Transfiere datos con una canalización de Dataflow
Tarea 8: Revisa el código de Python de la canalización
Tarea 9: Ejecuta la canalización de Apache Beam
Tarea 10: Transforma los datos
Tarea 11: Ejecuta la canalización de transformación de Dataflow
Tarea 12: Enriquece los datos
Tarea 13: Revisa el código de Python de la canalización de enriquecimiento de datos
Tarea 14: Ejecuta la canalización de Dataflow de enriquecimiento de datos
Tarea 15: Data lake a data mart y revisión del código de Python de la canalización
Tarea 16: Ejecuta la canalización de Apache Beam para realizar la unión de datos y crear la tabla resultante en BigQuery
Pon a prueba tus conocimientos
¡Felicitaciones!

Pon a prueba tus conocimientos y compártelos con nuestra comunidad

done

Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

GSP290

Labs de autoaprendizaje de Google Cloud

Descripción general

En Google Cloud, puedes crear canalizaciones de datos que ejecutan código de Python para transferir y transformar datos de conjuntos de datos públicos a BigQuery con estos servicios de Google Cloud:

Cloud Storage
Dataflow
BigQuery

En este lab, usarás estos servicios para crear tu propia canalización de datos, incluidos los detalles de implementación y las consideraciones de diseño, para garantizar que tu prototipo cumpla con los requisitos. Asegúrate de abrir los archivos de Python y leer los comentarios cuando se te indique.

Actividades

En este lab, aprenderás a hacer lo siguiente:

Crear y ejecutar canalizaciones de Dataflow (Python) para transferir datos
Crear y ejecutar canalizaciones de Dataflow (Python) para transformar y enriquecer datos

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)

Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.

Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.

Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}}
También puedes encontrar el nombre de usuario en el panel Detalles del lab.
Haz clic en Siguiente.
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}}
También puedes encontrar la contraseña en el panel Detalles del lab.
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales.
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para ver un menú con una lista de productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

Haz clic en Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

Puedes solicitar el nombre de la cuenta activa con este comando (opcional):

gcloud auth list

Haz clic en Autorizar.
Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`

Puedes solicitar el ID del proyecto con este comando (opcional):

gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6

Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1: Asegúrate de que la API de Dataflow esté habilitada correctamente

Para garantizar el acceso a la API necesaria, reinicia la conexión a la API de Dataflow.

Importante: Incluso si la API ya está habilitada, sigue los pasos del 1 al 4 que se indican más abajo para inhabilitarla y, luego, vuelve a habilitarla para reiniciar la API correctamente.

En la consola de Cloud, ingresa “API de Dataflow” en la barra de búsqueda superior. Haz clic en el resultado de API de Dataflow.
Haz clic en Administrar.
Haz clic en Inhabilitar API.

Si se te solicita confirmar, haz clic en Inhabilitar.

Haz clic en Habilitar.

Cuando se haya habilitado de nuevo la API, se mostrará en la página la opción para inhabilitarla.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Inhabilitar y volver a habilitar la API de Dataflow

Tarea 2: Descarga el código de partida

Ejecuta el siguiente comando en Cloud Shell para obtener ejemplos de Dataflow para Python del GitHub de servicios profesionales de Google Cloud:

gsutil -m cp -R gs://spls/gsp290/dataflow-python-examples .

Ahora, en Cloud Shell, establece una variable igual a tu ID del proyecto:

export PROJECT={{{ project_0.project_id }}}

gcloud config set project $PROJECT

Tarea 3. Crea un bucket de Cloud Storage

Usa el comando correspondiente en Cloud Shell para crear un nuevo bucket regional en la región dentro de tu proyecto:

gsutil mb -c regional -l {{{ project_0.default_region }}} gs://$PROJECT

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear un bucket de Cloud Storage

Tarea 4: Copia archivos al bucket

Usa el comando gsutil en Cloud Shell para copiar archivos al bucket de Cloud Storage que acabas de crear:

gsutil cp gs://spls/gsp290/data_files/usa_names.csv gs://$PROJECT/data_files/ gsutil cp gs://spls/gsp290/data_files/head_usa_names.csv gs://$PROJECT/data_files/

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Copiar archivos al bucket

Tarea 5: Crea un conjunto de datos de BigQuery

En Cloud Shell, crea un conjunto de datos en BigQuery llamado lake. Todas tus tablas se cargarán en BigQuery aquí:

bq mk lake

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear el conjunto de datos de BigQuery (nombre: lake)

Tarea 6: Crea una canalización de Dataflow

En esta sección, crearás un Dataflow que solo permite anexar y que transferirá datos a la tabla de BigQuery. Puedes usar el Editor de código incorporado que te permitirá ver y editar el código en la consola de Google Cloud.

Diagrama de la canalización de Dataflow que solo permite anexar

Abre el editor de código de Cloud Shell

Haz clic en el ícono Abrir editor para navegar al código fuente en Cloud Shell:

Ícono Abrir editor

Si se te solicita, haz clic en Abrir en una nueva ventana. Se abrirá el editor de código en una ventana nueva. El editor de Cloud Shell te permite editar archivos en el entorno de Cloud Shell. Desde el Editor, puedes hacer clic en Abrir terminal para volver a Cloud Shell.

Tarea 7: Transfiere datos con una canalización de Dataflow

Ahora, crearás una canalización de Dataflow con una fuente de TextIO y un destino de BigQueryIO para transferir datos a BigQuery. Específicamente, la canalización hará lo siguiente:

Transferir los archivos desde Cloud Storage
Filtrar la fila del encabezado en los archivos
Convertir las líneas leídas en objetos del diccionario
Enviar las filas a BigQuery

Tarea 8: Revisa el código de Python de la canalización

En el Editor de código, navega a dataflow-python-examples > dataflow_python_examples y abre el archivo data_ingestion.py. Lee los comentarios en el archivo que explican lo que hace el código. Este código propagará el conjunto de datos lake con una tabla en BigQuery.

Editor de código

Tarea 9: Ejecuta la canalización de Apache Beam

Vuelve a tu sesión de Cloud Shell para realizar el siguiente paso. Ahora, configurarás las bibliotecas de Python requeridas.

El trabajo de Dataflow en este lab requerirá Python3.8. Para garantizar que estás utilizando la versión correcta, ejecutarás los procesos de Dataflow en un contenedor de Docker Python 3.8.

Ejecuta lo siguiente en Cloud Shell para iniciar un contenedor de Python:

docker run -it -e PROJECT=$PROJECT -v $(pwd)/dataflow-python-examples:/dataflow python:3.8 /bin/bash

Con este comando, se obtendrá un contenedor de Docker con la versión estable más reciente de Python 3.8 y se ejecutará una shell de comando para ejecutar los siguientes comandos en el contenedor. La marca -v proporciona el código fuente como un volumen para el contenedor, de manera que podamos utilizar el editor de Cloud Shell y, aun así, acceder a él dentro del contenedor en ejecución.

Una vez que el contenedor termine la extracción y comience a ejecutarse en Cloud Shell, ejecuta lo siguiente para instalar apache-beam en ese contenedor en ejecución:

pip install apache-beam[gcp]==2.24.0

Luego, en el contenedor en ejecución en Cloud Shell, cambia al directorio en el que vinculaste el código fuente:

cd dataflow/

Ejecuta la canalización de Dataflow de transferencia en la nube

Lo que se muestra a continuación iniciará los trabajadores requeridos y los cerrará cuando el proceso haya finalizado:

python dataflow_python_examples/data_ingestion.py \ --project=$PROJECT --region={{{ project_0.default_region }}} \ --runner=DataflowRunner \ --machine_type=e2-standard-2 \ --staging_location=gs://$PROJECT/test \ --temp_location gs://$PROJECT/test \ --input gs://$PROJECT/data_files/head_usa_names.csv \ --save_main_session

Vuelve a la consola de Cloud y abre el menú de navegación > Dataflow para ver el estado de tu trabajo.

Menú de navegación > Dataflow

Haz clic en el nombre del trabajo para ver el progreso. Una vez que el Estado del trabajo sea Sin errores, puedes continuar con el siguiente paso. Esta canalización de Dataflow tardará aproximadamente cinco minutos en comenzar, completar el trabajo y, luego, apagarse.
Navega a BigQuery (menú de navegación > BigQuery) para verificar si tus datos se propagaron.

Menú de navegación > BigQuery

Haz clic en el nombre de tu proyecto para ver la tabla usa_names en el conjunto de datos lake.

Tabla usa_names

Haz clic en la tabla y, luego, navega hasta la pestaña Vista previa para ver ejemplos de los datos de usa_names.

Nota: Si no ves la tabla usa_names, actualiza la página o visualiza las tablas en la IU clásica de BigQuery.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear una canalización de transferencia de datos de Dataflow

Tarea 10: Transforma los datos

Ahora, crearás una canalización de Dataflow con una fuente de TextIO y un destino de BigQueryIO para transferir datos a BigQuery. En específico, harás lo siguiente:

Transferir los archivos desde Cloud Storage
Convertir las líneas leídas en objetos del diccionario
Transformar los datos que contengan el año a un formato que BigQuery entienda como una fecha
Enviar las filas a BigQuery

Revisa el código de Python de la canalización de transformación

En el editor de código, abre el archivo data_transformation.py. Lee los comentarios en el archivo que explican lo que hace el código.

Tarea 11: Ejecuta la canalización de transformación de Dataflow

Ejecutarás la canalización de Dataflow en la nube. Esto iniciará los trabajadores requeridos y los cerrará cuando el proceso haya finalizado:

Para hacerlo, ejecuta los siguientes comandos:

python dataflow_python_examples/data_transformation.py \ --project=$PROJECT \ --region={{{ project_0.default_region }}} \ --runner=DataflowRunner \ --machine_type=e2-standard-2 \ --staging_location=gs://$PROJECT/test \ --temp_location gs://$PROJECT/test \ --input gs://$PROJECT/data_files/head_usa_names.csv \ --save_main_session

Navega al menú de navegación > Dataflow y haz clic en el nombre del trabajo para ver su estado. Esta canalización de Dataflow tardará aproximadamente cinco minutos en comenzar, completar el trabajo y, luego, apagarse.
Una vez que el Estado del trabajo sea Sin errores en la pantalla de estado del trabajo de Dataflow, navega a BigQuery para verificar que se hayan propagado tus datos.
Deberías ver la tabla usa_names_transformed debajo del conjunto de datos lake.
Haz clic en la tabla y navega hasta la pestaña Vista previa para ver ejemplos de los datos de usa_names_transformed.

Nota: Si no ves la tabla usa_names_transformed, actualiza la página o visualiza las tablas por medio de la IU clásica de BigQuery.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear una canalización de transformación de datos de Dataflow

Tarea 12: Enriquece los datos

Ahora, crearás una canalización de Dataflow con una fuente de TextIO y un destino de BigQueryIO para transferir datos a BigQuery. En específico, harás lo siguiente:

Transferir los archivos desde Cloud Storage
Filtrar la fila del encabezado en los archivos
Convertir las líneas leídas en objetos del diccionario
Enviar las filas a BigQuery

Tarea 13: Revisa el código de Python de la canalización de enriquecimiento de datos

En el Editor de código, abre el archivo data_enrichment.py.
Revisa los comentarios que explican lo que está haciendo el código. Este código propagará los datos en BigQuery.

La línea 83 actualmente se ve así:

values = [x.decode('utf8') for x in csv_row]

Edítala para que se vea así:

values = [x for x in csv_row]

Cuando termines de editar esta línea, recuerda Guardar este archivo actualizado, para ello, selecciona el menú desplegable Archivo del editor y haz clic en Guardar.

Tarea 14: Ejecuta la canalización de Dataflow de enriquecimiento de datos

Aquí ejecutarás la canalización de Dataflow en la nube.

Ejecuta lo siguiente en Cloud Shell para iniciar los trabajadores necesarios y apagarlos cuando se complete la tarea:

python dataflow_python_examples/data_enrichment.py \ --project=$PROJECT \ --region={{{ project_0.default_region }}} \ --runner=DataflowRunner \ --machine_type=e2-standard-2 \ --staging_location=gs://$PROJECT/test \ --temp_location gs://$PROJECT/test \ --input gs://$PROJECT/data_files/head_usa_names.csv \ --save_main_session

Ve al menú de navegación > Dataflow para ver el estado del trabajo. Esta canalización de Dataflow tardará aproximadamente cinco minutos en comenzar, completar el trabajo y, luego, apagarse.
Una vez que el Estado del trabajo sea Sin errores en la pantalla de estado del trabajo de Dataflow, navega a BigQuery para verificar que se hayan propagado tus datos.

Deberías ver la tabla usa_names_enriched debajo del conjunto de datos lake.

Haz clic en la tabla y navega hasta la pestaña Vista previa para ver ejemplos de los datos de usa_names_enriched.

Nota: Si no ves la tabla usa_names_enriched, actualiza la página o visualiza las tablas en la IU clásica de BigQuery.

Prueba la tarea de enriquecimiento de datos completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear una canalización de enriquecimiento de datos de Dataflow

Tarea 15: Data lake a data mart y revisión del código de Python de la canalización

Ahora, crea una canalización de Dataflow que lee los datos de dos fuentes de datos de BigQuery y, luego, une las fuentes de datos. Específicamente, harás lo siguiente:

Transferir archivos desde dos fuentes de BigQuery
Unir las dos fuentes de datos
Filtrar la fila del encabezado en los archivos
Convertir las líneas leídas en objetos del diccionario
Enviar las filas a BigQuery

En el Editor de código, abre el archivo data_lake_to_mart.py. Lee los comentarios en el archivo que explican lo que hace el código. Este código unirá dos tablas y propagará los datos resultantes en BigQuery.

Tarea 16: Ejecuta la canalización de Apache Beam para realizar la unión de datos y crear la tabla resultante en BigQuery

Ahora, ejecuta la canalización de Dataflow en la nube.

Ejecuta el siguiente bloque de código en Cloud Shell para iniciar los trabajadores necesarios y apagarlos cuando se complete la tarea:

python dataflow_python_examples/data_lake_to_mart.py \ --worker_disk_type="compute.googleapis.com/projects//zones//diskTypes/pd-ssd" \ --max_num_workers=4 \ --project=$PROJECT \ --runner=DataflowRunner \ --machine_type=e2-standard-2 \ --staging_location=gs://$PROJECT/test \ --temp_location gs://$PROJECT/test \ --save_main_session \ --region={{{ project_0.default_region }}}

Navega al menú de navegación > Dataflow y haz clic en el nombre de este nuevo trabajo para ver el estado. Esta canalización de Dataflow tardará aproximadamente cinco minutos en comenzar, completar el trabajo y, luego, apagarse.
Una vez que el Estado del trabajo sea Sin errores en la pantalla de estado del trabajo de Dataflow, navega a BigQuery para verificar que se hayan propagado tus datos.

Deberías ver la tabla orders_denormalized_sideinput debajo del conjunto de datos lake.

Haz clic en la tabla y navega a la sección Vista previa para ver ejemplos de datos de orders_denormalized_sideinput.

Nota: Si no ves la tabla orders_denormalized_sideinput, actualiza la página o visualiza las tablas en la IU clásica de BigQuery.

Prueba la tarea de UNIÓN completada

Haz clic en Revisar mi progreso para verificar la tarea realizada.

Crear una canalización data lake a data mart de Dataflow

Pon a prueba tus conocimientos

A continuación, se presentan algunas preguntas de opción múltiple para reforzar tus conocimientos de los conceptos de este lab. Trata de responderlas lo mejor posible.

¡Felicitaciones!

Ejecutaste código de Python con Dataflow para transferir datos a BigQuery y transformarlos.

Próximos pasos y más información

Si buscas más información, consulta la siguiente documentación oficial:

Dataflow
BigQuery
Revisa la Guía de programación de Apache Beam si quieres consultar conceptos más avanzados.
Consulta los siguientes labs:
- Predice las compras de visitantes con un modelo de clasificación en BQML
- Cloud Composer: Copia tablas de BigQuery en diferentes ubicaciones

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 11 de febrero de 2024

Prueba más reciente del lab: 12 de octubre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Google Cloud Skills Boost

Procesamiento ETL en Google Cloud a través de Dataflow y BigQuery (Python)

GSP290

Descripción general

Actividades

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Cómo iniciar tu lab y acceder a la consola de Google Cloud

Activa Cloud Shell

Tarea 1: Asegúrate de que la API de Dataflow esté habilitada correctamente

Prueba la tarea completada

Tarea 2: Descarga el código de partida

Tarea 3. Crea un bucket de Cloud Storage

Prueba la tarea completada

Tarea 4: Copia archivos al bucket

Prueba la tarea completada

Tarea 5: Crea un conjunto de datos de BigQuery

Prueba la tarea completada

Tarea 6: Crea una canalización de Dataflow

Abre el editor de código de Cloud Shell

Tarea 7: Transfiere datos con una canalización de Dataflow

Tarea 8: Revisa el código de Python de la canalización

Tarea 9: Ejecuta la canalización de Apache Beam

Ejecuta la canalización de Dataflow de transferencia en la nube

Prueba la tarea completada

Tarea 10: Transforma los datos

Revisa el código de Python de la canalización de transformación

Tarea 11: Ejecuta la canalización de transformación de Dataflow

Prueba la tarea completada

Tarea 12: Enriquece los datos

Tarea 13: Revisa el código de Python de la canalización de enriquecimiento de datos

Tarea 14: Ejecuta la canalización de Dataflow de enriquecimiento de datos

Prueba la tarea de enriquecimiento de datos completada

Tarea 15: Data lake a data mart y revisión del código de Python de la canalización

Tarea 16: Ejecuta la canalización de Apache Beam para realizar la unión de datos y crear la tabla resultante en BigQuery

Prueba la tarea de UNIÓN completada

Pon a prueba tus conocimientos

¡Felicitaciones!

Próximos pasos y más información

Capacitación y certificación de Google Cloud