arrow_back

Crea y ejecuta un gráfico de canalización con Data Fusion 2.5

Acceder Unirse
Obtén acceso a más de 700 labs y cursos

Crea y ejecuta un gráfico de canalización con Data Fusion 2.5

Lab 2 horas 30 minutos universal_currency_alt 5 créditos show_chart Introductorio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Obtén acceso a más de 700 labs y cursos

Descripción general

En este instructivo, se muestra cómo usar las funciones de Wrangler y de Data pipelines en Cloud Data Fusion para limpiar, transformar y procesar datos de viajes en taxi para realizar más análisis.

Qué aprenderás

En este lab, aprenderás a hacer lo siguiente:

  • Conectar Cloud Data Fusion a un par de fuentes de datos
  • Aplicar transformaciones básicas
  • Unir dos fuentes de datos
  • Escribir datos en un receptor

Introducción

A menudo, los datos requieren varios pasos previos al procesamiento antes de que los analistas puedan aprovecharlos para recopilar estadísticas. Por ejemplo, podría ser necesario ajustar los tipos de datos, quitar anomalías y convertir los identificadores poco precisos en entradas más significativas. Cloud Data Fusion es un servicio para crear canalizaciones de datos ETL/ELT de forma eficiente. Cloud Data Fusion usa un clúster de Cloud Dataproc para realizar todas las transformaciones en la canalización.

El uso de Cloud Data Fusion se mostrará con un ejemplo en este instructivo, donde se usará un subconjunto de los datos de viajes en taxi de NYC TLC en BigQuery.

Configuración y requisitos

En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

  1. Accede a Qwiklabs desde una ventana de incógnito.

  2. Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
    No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.

  3. Cuando esté listo, haga clic en Comenzar lab.

  4. Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.

  5. Haga clic en Abrir Google Console.

  6. Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
    Si usa otras credenciales, se generarán errores o incurrirá en cargos.

  7. Acepta las condiciones y omite la página de recursos de recuperación.

Activa Google Cloud Shell

Google Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud.

Google Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. En la consola de Cloud, en la barra de herramientas superior derecha, haz clic en el botón Abrir Cloud Shell.

  2. Haz clic en Continuar.

El aprovisionamiento y la conexión al entorno demorarán unos minutos. Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. Por ejemplo:

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con el completado de línea de comando.

  • Puedes solicitar el nombre de la cuenta activa con este comando:
gcloud auth list

Resultado:

Credentialed accounts: - @.com (active)

Resultado de ejemplo:

Credentialed accounts: - google1623327_student@qwiklabs.net
  • Puedes solicitar el ID del proyecto con este comando:
gcloud config list project

Resultado:

[core] project =

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: La documentación completa de gcloud está disponible en la guía de descripción general de gcloud CLI .

Verifica los permisos del proyecto

Antes de comenzar a trabajar en Google Cloud, asegúrate de que tu proyecto tenga los permisos correctos en Identity and Access Management (IAM).

  1. En la consola de Google Cloud, en el Menú de navegación (), selecciona IAM y administración > IAM.

  2. Confirma que aparezca la cuenta de servicio predeterminada de Compute {número-del-proyecto}-compute@developer.gserviceaccount.com, y que tenga asignado el rol Editor. El prefijo de la cuenta es el número del proyecto, que puedes encontrar en el Menú de navegación > Descripción general de Cloud > Panel.

Nota: Si la cuenta no aparece en IAM o no tiene asignado el rol Editor, sigue los pasos que se indican a continuación para asignar el rol necesario.
  1. En la consola de Google Cloud, en el Menú de navegación, haz clic en Descripción general de Cloud > Panel.
  2. Copia el número del proyecto (p. ej., 729328892908).
  3. En el Menú de navegación, selecciona IAM y administración > IAM.
  4. En la parte superior de la tabla de funciones, debajo de Ver por principales, haz clic en Otorgar acceso.
  5. En Principales nuevas, escribe lo siguiente:
{project-number}-compute@developer.gserviceaccount.com
  1. Reemplaza {número-del-proyecto} por el número de tu proyecto.
  2. En Rol, selecciona Proyecto (o Básico) > Editor.
  3. Haz clic en Guardar.

Tarea 1: Crea una instancia de Cloud Data Fusion

Puedes encontrar instrucciones detalladas para crear una instancia de Cloud Data Fusion en la Guía sobre cómo crear una instancia de Cloud Data Fusion. Los pasos básicos son los siguientes:

  1. Para asegurarte de que el entorno de entrenamiento está configurado correctamente, primero debes detener y reiniciar la API de Cloud Data Fusion. Ejecuta en Cloud Shell el comando que se muestra a continuación. Tardará unos minutos en completarse.
gcloud services disable datafusion.googleapis.com

El resultado indica que la operación finalizó correctamente.

A continuación, reinicia la conexión a la API de Cloud Data Fusion.

  1. En la barra de búsqueda superior de la consola de Google Cloud, ingresa API de Cloud Data Fusion. Haz clic en el resultado de API de Cloud Data Fusion.

  2. En la página que se carga, haz clic en Habilitar.

  3. Cuando se haya habilitado de nuevo la API, la página se actualizará y mostrará la opción para inhabilitarla, además de otros detalles sobre su uso y rendimiento.

  4. En el menú de navegación, selecciona Data Fusion.

  5. Para crear una instancia de Cloud Data Fusion, haz clic en Crear una instancia.

  6. Asígnale un nombre a tu instancia.

  7. Para el tipo de edición, selecciona Básico.

  8. En Autorización, haz clic en Otorgar permiso.

  9. Deja los otros campos con tus valores predeterminados y haz clic en Crear.

Nota: La creación de la instancia tardará alrededor de 15 minutos.
  1. Una vez que se cree la instancia, necesitarás realizar un paso adicional para proporcionarle a la cuenta de servicio asociada con la instancia los permisos para tu proyecto. Haz clic en el nombre de la instancia para navegar a su página de detalles.

  2. Copia la cuenta de servicio a tu portapapeles.

  3. En la consola de GCP, navega a IAM y administración > IAM.

  4. En la página Permisos de IAM, haz clic en +Otorgar acceso, agrega la cuenta de servicio que copiaste anteriormente como una principal nueva y otorga el rol Agente de servicio de la API de Cloud Data Fusion.

  1. Haz clic en Guardar.

Tarea 2. Carga los datos

Puedes comenzar a usar Cloud Data Fusion una vez que tu instancia esté funcionando. Sin embargo, antes de que Cloud Data Fusion pueda comenzar a transferir datos, debes realizar algunos pasos preliminares.

  1. En este ejemplo, Cloud Data Fusion leerá datos de un bucket de almacenamiento. En la consola de Cloud Shell, ejecuta los siguientes comandos para crear un bucket nuevo y copiar en él los datos relevantes:
export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET gcloud storage cp gs://cloud-training/OCBL017/ny-taxi-2018-sample.csv gs://$BUCKET Nota: El nombre del bucket creado es el ID del proyecto.
  1. En la línea de comandos, ejecuta el siguiente comando para crear un bucket que almacene de manera temporal los elementos que creará Cloud Data Fusion:
gcloud storage buckets create gs://$BUCKET-temp Nota: El nombre del bucket creado es el ID del proyecto seguido de "-temp".
  1. Haz clic en el vínculo Ver instancia en la página de instancias de Data Fusion o en la página de detalles de una instancia. Haz clic en Nombre de usuario Si se te solicita hacer una visita guiada por el servicio, haz clic en No, gracias. Ahora deberías estar en la IU de Cloud Data Fusion.
Nota: Es posible que debas volver a cargar o actualizar las páginas de la IU de Cloud Data Fusion para que se cargue el mensaje.
  1. Wrangler es una herramienta interactiva visual que te permite ver los efectos de las transformaciones en un subconjunto pequeño de tus datos antes de despachar trabajos grandes de procesamiento paralelo en todo el conjunto de datos. En la IU de Cloud Data Fusion, elige Wrangler. En el lado izquierdo, verás un panel con las conexiones previamente configuradas de tus datos, incluida la conexión de Cloud Storage.

  2. Debajo de GCS, selecciona Cloud Storage Predeterminado.

  3. Haz clic en el bucket correspondiente a tu nombre de proyecto.

  4. Selecciona ny-taxi-2018-sample.csv. Los datos se cargan en la pantalla de Wrangler en forma de fila/columna.

  5. En la ventana Parsing Options, establece Use First Row as Header como True. Los datos se dividen en varias columnas.

  6. Haz clic en Confirmar.

Tarea 3: Limpia los datos

Ahora realizarás algunas transformaciones para analizar y limpiar los datos de viajes en taxi.

  1. Haz clic en la flecha Abajo junto a la columna trip_distance, selecciona Cambiar tipo de datos y, luego, haz clic en Flotante. Repite lo mismo con la columna total_amount.

  2. Haz clic en la flecha Abajo junto a la columna pickup_location_id, selecciona Cambiar tipo de datos y, luego, haz clic en Cadena.

  3. Si observas los datos con cuidado, encontrarás algunas anomalías, como distancias de viaje negativas. Para evitar esos valores negativos, puedes filtrarlos en Wrangler. Haz clic en la flecha Abajo junto a la columna trip_distance y selecciona Filtrar. Haz clic si la Condición personalizada y la entrada son >0.0.

  1. Haz clic en Aplicar.

Tarea 4: Crea la canalización

Ya se completó la limpieza básica de datos, y ejecutaste transformaciones en un subconjunto de datos. Ahora puedes crear una canalización por lotes para ejecutar transformaciones en todos tus datos.

Cloud Data Fusion traduce tu canalización creada de manera visual en un programa de Apache Spark o MapReduce que ejecuta transformaciones en un clúster efímero de Cloud Dataproc en paralelo. Esto te permite ejecutar transformaciones complejas con facilidad en grandes cantidades de datos de una forma escalable y confiable sin dificultades asociadas con la infraestructura o la tecnología.

  1. En el lado superior derecho de la IU de Google Cloud Fusion, haz clic en Crear canalización.

  2. En el diálogo que aparece, selecciona Canalización por lotes.

  3. En la IU de Data pipelines, verás un nodo fuente GCSFile conectado a un nodo Wrangler. Este contiene todas las transformaciones que aplicaste en la vista de Wrangler capturada como gramática directiva. Coloca el cursor sobre el nodo Wrangler y selecciona Properties.

  1. En esta etapa, puedes aplicar más transformaciones. Para ello, haz clic en el botón Wrangle. Presiona el ícono rojo de la papelera junto al nombre de la columna extra para borrarla. Haz clic en Validate en la esquina superior derecha para comprobar si hay errores. Para cerrar la herramienta Wrangler, haz clic en el botón X en la esquina superior derecha.

Tarea 5. Agrega una fuente de datos

Los datos de viajes en taxi contienen varias columnas crípticas, como pickup_location_id, que no son evidentes a simple vista para los analistas. Agregarás una fuente de datos a la canalización que asigna la columna pickup_location_id a un nombre de ubicación relevante. Los detalles de la asignación se almacenarán en una tabla de BigQuery.

  1. En la pestaña separada, abre la IU de BigQuery en la consola de Cloud. Haz clic en Listo en la página de inicio de “Te damos la bienvenida a BigQuery en la consola de Cloud”.

  2. En la sección Explorador de la IU de BigQuery, haz clic en los tres puntos junto al ID del proyecto de GCP (que empezará con Qwiklabs).

  3. En el menú que aparece, haz clic en Crear conjunto de datos.

  4. En el campo ID de conjunto de datos, escribe trips.

  5. Haz clic en Crear conjunto de datos.

  6. Para crear la tabla deseada en el conjunto de datos que se creó, navega a Más > Configuración de consulta. Este proceso garantizará que puedas acceder a tu tabla mediante Cloud Data Fusion.

  7. Selecciona el elemento Establecer una tabla de destino para los resultados de la consulta. En Conjunto de datos, ingresa trips y selecciona una de las opciones del menú desplegable. En ID de tabla, ingresa zone_id_mapping. Haz clic en Guardar.

  1. Ingresa la siguiente consulta en el Editor de consultas y, luego, haz clic en Ejecutar:
SELECT zone_id, zone_name, borough FROM `bigquery-public-data.new_york_taxi_trips.taxi_zone_geom`

Puedes ver que esta tabla contiene la asignación de zone_id de su nombre y municipio.

  1. Ahora agregarás una fuente en tu canalización para acceder a la tabla de BigQuery. Vuelve a la pestaña donde tienes abierto Cloud Data Fusion y, desde la paleta de complementos que se encuentra a la izquierda, selecciona BigQuery en la sección Fuente. Un nodo fuente de BigQuery aparecerá en el lienzo junto con los otros dos nodos.

  2. Coloca el cursor sobre el nodo fuente de BigQuery y haz clic en Propiedades.

  3. Para configurar el Nombre de referencia, ingresa zone_mapping, que se usa para identificar esta fuente de datos para fines de linaje.

  1. La configuración del Conjunto de datos y de la Tabla de BigQuery son el conjunto de datos y la tabla que configuraste en BigQuery unos pasos antes: trips y zone_id_mapping. En Nombre del bucket temporal, ingresa el nombre de tu proyecto seguido de “-temp”, que corresponde al bucket que creaste en la tarea 2.

  1. Para propagar el esquema de esta tabla de BigQuery, haz clic en Obtener esquema. Los campos se mostrarán en el lado derecho del asistente.

  2. Haz clic en Validar en la esquina superior derecha para comprobar si hay errores. Haz clic en el botón X en la esquina superior derecha para cerrar la ventana Propiedades de BigQuery.

Tarea 6. Une dos fuentes

Ahora, puedes unir dos fuentes de datos, los viajes en taxi y los nombres de las zonas, para generar un resultado más significativo.

  1. En la sección Analítica de la paleta de complementos, elige Unión. Aparece en el recuadro un nodo de Unión.

  2. Para conectar el nodo Wrangler y el nodo de BigQuery al nodo de Unión, arrastra una flecha de conexión > del borde derecho del nodo fuente y suéltala en el nodo de destino.

  1. Para configurar el nodo de Unión, que es similar a una sintaxis de JOIN de SQL, haz lo siguiente:
  • Haz clic en Propiedades de la Unión.

  • Deja la etiqueta de recurso como Unión.

  • Cambia el tipo de Join Type a Inner

  • Configura Condición de la unión para unir la columnapickup_location_id en el nodo Wrangler a la columna zone_id en el nodo de BigQuery

  • Para generar el esquema de la unión resultante, haz clic en Obtener esquema.

  • En la tabla Esquema de salida que se encuentra a la derecha, quita los campos zone_id y pickup_location_id. Para ello, presiona el ícono rojo de la papelera.

  • Haz clic en Validar en la esquina superior derecha para comprobar si hay errores. Haz clic en el botón X en la esquina superior derecha para cerrar la ventana.

Tarea 7. Almacena el resultado en BigQuery

Almacenarás el resultado de la canalización en una tabla de BigQuery. El lugar donde se almacena tus datos se denomina receptor.

  1. En la sección Receptor de la paleta de complementos, elige BigQuery.

  2. Conecta el nodo de Unión al de BigQuery. Arrastra una flecha de conexión > del borde derecho del nodo fuente y suéltala en el nodo de destino.

  1. Abre el nodo de BigQuery2; para ello, coloca el cursor sobre dicha opción y, luego, haz clic en Propiedades. Configúralo como se muestra a continuación. Usarás una configuración similar a la fuente existente de BigQuery. Proporciona bq_insert para el campo Nombre de referencia y usa trips en el Conjunto de datos y el nombre de su proyecto seguido de “-temp” como Nombre de bucket temporal. Escribirás una nueva tabla que se creará para ejecutar esta canalización. En el campo Tabla, ingresa trips_pickup_name.

  2. Haz clic en Validar en la esquina superior derecha para comprobar si hay errores. Haz clic en el botón X en la esquina superior derecha para cerrar la ventana.

Tarea 8. Implementa y ejecuta la canalización

En este punto, ya creaste tu primera canalización y puedes implementarla y ejecutarla.

  1. Asigna un nombre a la canalización en la esquina superior izquierda de la IU de Data Fusion y haz clic en Guardar.

  1. Ahora implementarás la canalización. En la esquina superior derecha de la página, haz clic en Implementar.

  1. En la siguiente pantalla, haz clic en Ejecutar para comenzar a procesar datos.

Cuando ejecutas una canalización, Cloud Data Fusion aprovisiona un clúster efímero de Cloud Dataproc, ejecuta la canalización y, luego, elimina el clúster. Esto puede tardar algunos minutos. Puedes observar el estado de la transición de la canalización de Aprovisionando a Iniciada y de Iniciada a En ejecución y a Completada durante este tiempo.

Nota: La transición de la canalización puede tardar entre 10 y 15 minutos en completarse correctamente.

Tarea 9: Observa los resultados

Para ver los resultados después de ejecutar una canalización, haz lo siguiente:

  • Vuelve a la pestaña donde tienes abierto BigQuery. Ejecuta la siguiente consulta para ver los valores en la tabla trips_pickup_name:

    SELECT * FROM `trips.trips_pickup_name`

    RESULTADOS DE BQ

Finalice su lab

Cuando haya completado el lab, haga clic en Finalizar lab. Google Cloud Skills Boost quitará los recursos que usó y limpiará la cuenta.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

  • 1 estrella = Muy insatisfecho
  • 2 estrellas = Insatisfecho
  • 3 estrellas = Neutral
  • 4 estrellas = Satisfecho
  • 5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Copyright 2020 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.