Puntos de control
Create a Dataplex lake with two zones and two assets
/ 20
Create and apply a tag template to a zone
/ 20
Assign a Dataplex IAM role to another user
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Crea una malla de datos con Dataplex: Lab de desafío
- GSP514
- Descripción general
- Configuración
- Situación del desafío
- Tarea 1: Crea un lake de Dataplex con dos zonas y dos recursos
- Tarea 2: Crea y aplica una plantilla de etiqueta a una zona
- Tarea 3: Asígnale un rol de IAM de Dataplex a otro usuario
- Tarea 4: Crea un archivo de especificación de calidad de los datos y súbelo a Cloud Storage
- Tarea 5: Define y ejecuta un trabajo de calidad de los datos en Dataplex
- ¡Felicitaciones!
GSP514
Descripción general
En un lab de desafío, se le proporcionarán una situación y un conjunto de tareas. En lugar de seguir instrucciones paso a paso, deberás utilizar las habilidades aprendidas en los labs del curso para decidir cómo completar las tareas por tu cuenta. Un sistema automatizado de puntuación (en esta página) mostrará comentarios y determinará si completaste tus tareas correctamente.
En un lab de desafío, no se explican conceptos nuevos de Google Cloud, sino que se espera que amplíes las habilidades que adquiriste, como cambiar los valores predeterminados y leer o investigar los mensajes de error para corregir sus propios errores.
Debe completar correctamente todas las tareas dentro del período establecido para obtener una puntuación del 100%.
Configuración
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Situación del desafío
Recién comienzas a desempeñarte en tu rol como ingeniero júnior de datos. Hasta ahora, estuviste ayudando a los equipos a crear y administrar recursos de Dataplex.
Se espera que tengas las habilidades y el conocimiento necesarios para realizar estas tareas.
Tu desafío
Se te solicitó ayudar a un equipo de desarrollo recién formado con la creación de una nueva malla de datos usando Dataplex. En específico, debes crear un lake de Dataplex con múltiples zonas y recursos. También debes etiquetar recursos en el nuevo lake y evaluar la calidad de sus datos. Te pidieron llevar a cabo las siguientes tareas:
- Crear un lake de Dataplex con dos zonas y dos recursos
- Crear y aplicar una plantilla de etiquetas para etiquetar una zona completa como datos protegidos
- Asignarle un rol de IAM de Dataplex a otro usuario
- Crear un archivo de especificación de calidad de los datos y subirlo a Cloud Storage
- Definir y ejecutar un trabajo de calidad de los datos en Dataplex
Estos son algunos estándares que debes seguir:
- Asegúrate de que todas las APIs necesarias (como Dataplex, Data Catalog y Dataproc) están habilitadas correctamente.
- Crea todos los recursos en la región
, a menos que se indique lo contrario.
A continuación, se describe cada tarea en detalle. ¡Buena suerte!
Tarea 1: Crea un lake de Dataplex con dos zonas y dos recursos
Ya se crearon en este lab el bucket de Cloud Storage y el conjunto de datos de BigQuery para el paso 2.
- Crea un lake de Dataplex llamado Sales Lake con las siguientes dos zonas regionales:
- Una zona sin procesar con el nombre Raw Customer Zone
- Una zona seleccionada con el nombre Curated Customer Zone
- Conecta un recurso creado previamente a cada zona:
- En la zona sin procesar, conecta el bucket de Cloud Storage llamado
-customer-online-sessions como un nuevo recurso con el nombre Customer Engagements. - En la zona seleccionada, conecta el conjunto de datos de BigQuery llamado
.customer_orders como un nuevo recurso con el nombre Customer Orders.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 2: Crea y aplica una plantilla de etiqueta a una zona
- Crea una plantilla de etiquetas pública con el nombre Protected Customer Data Template con dos campos enumerados:
- El primer campo llamado Raw Data Flag con dos valores:
Yes
yNo
. - El segundo campo llamado Protected Contact Information Flag con dos valores:
Yes
yNo
- Usa esta plantilla para etiquetar la Raw Customer Zone con un valor de
Yes
para ambas marcas.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 3: Asígnale un rol de IAM de Dataplex a otro usuario
- Usa el principio de privilegio mínimo para asignarle el rol de IAM de Dataplex al Usuario 2 (
), que permite subir nuevos archivos de Cloud Storage al recurso de Dataplex llamado Customer Engagements.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 4: Crea un archivo de especificación de calidad de los datos y súbelo a Cloud Storage
Ya se creó en este lab el bucket de Cloud Storage para el paso 2.
- Crea un archivo de especificación de calidad de los datos llamado dq-customer-orders.yaml que tenga las siguientes características:
- Una regla NOT NULL que se aplique a la columna user_id de la tabla customer_orders.ordered_items
- Una regla NOT NULL que se aplique a la columna order_id de la tabla customer_orders.ordered_items
- Debes subir el archivo al bucket de Cloud Storage llamado
-dq-config
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 5: Define y ejecuta un trabajo de calidad de los datos en Dataplex
Ya se creó en este lab el conjunto de datos de BigQuery para el paso 1.
- Define un trabajo de calidad de los datos usando el archivo dq-customer-orders.yaml con las siguientes especificaciones:
Propiedad | Valor |
---|---|
Nombre del trabajo de calidad de los datos | Trabajo de calidad de los datos de pedidos del cliente |
Tabla de destino de BigQuery para los resultados | |
Cuenta de servicio de usuario | Cuenta de servicio predeterminada de Compute Engine |
- Ejecuta de inmediato el trabajo de calidad de los datos.
Haz clic en Revisar mi progreso para verificar el objetivo.
¡Felicitaciones!
Obtén tu próxima insignia de habilidad
Este lab de autoaprendizaje es parte de la Quest para obtener la insignia de habilidad Build a Data Mesh with Dataplex. Si completas esta Quest, obtendrás la insignia de habilidad que se muestra arriba como reconocimiento de tu logro. Comparte la insignia en tu currículum y tus plataformas de redes sociales, y anuncia tu logro con el hashtag #GoogleCloudBadge.
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 4 de julio de 2023
Prueba más reciente del lab: 4 de julio de 2023
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.