Puntos de control
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Cómo explorar metadatos de conjuntos de datos entre proyectos con Data Catalog
- GSP789
- Descripción general
- Comienza el lab
- Situación: director general de una empresa de transporte de la ciudad de Nueva York
- Parte 1: explora el entorno de datos existente con el rol de propietario
- Tarea 1. Verifica que el rol de propietario pueda ver y consultar el conjunto de datos new_york_mv_collisions
- Tarea 2. Verifica que el rol de propietario pueda ver y consultar el conjunto de datos del servicio de bicicletas compartidas
- Parte 2: explora el entorno de datos existente con el acceso de usuario restringido
- Tarea 3. Accede con el usuario Analista de datos y verifica el acceso restringido al proyecto
- Tarea 4. Intenta consultar directamente un conjunto de datos privados
- Parte 3: usa Data Catalog para etiquetar conjuntos de datos en proyectos
- Tarea 5. Crea una plantilla de etiquetas de Data Catalog desde un conjunto de datos de BigQuery
- Tarea 6. Crea una plantilla de Data Catalog nueva
- ¡Felicitaciones!
GSP789
Descripción general
Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.
Administrar los recursos de datos puede llevar mucho tiempo y ser costoso si no se tienen las herramientas adecuadas. Data Catalog proporciona un lugar centralizado donde las organizaciones pueden encontrar, seleccionar y describir sus recursos de datos.
Usa Data Catalog
Existen dos formas principales de interactuar con Data Catalog:
- Buscar recursos de datos a los que tienes acceso
- Etiquetar recursos con metadatos
Qué aprenderás
En este lab, aprenderás a realizar las siguientes tareas:
- Explorar un entorno empresarial simulado con 2 proyectos, 2 conjuntos de datos y 2 cuentas de usuario
- Navegar por una tabla de BigQuery de forma manual en la IU
- Ejecutar consultas para comprender mejor las columnas de datos sensibles y etiquetarlas más adelante
- Usar Data Catalog para buscar conjuntos de datos existentes en los proyectos
- Usar plantillas de etiquetas de Data Catalog para etiquetar recursos con metadatos enriquecidos
¿Por qué es útil?
- Visualiza recursos de datos de varios proyectos dentro de tu organización.
- Crea plantillas de etiquetas reutilizables para agregar descripciones de datos enriquecidos para tus equipos.
- Destaca rápidamente los conjuntos de datos que contienen PII (información de identificación personal).
- El control de acceso a los metadatos se hereda según los usuarios que hayan accedido (no se necesitan LCA independientes para Data Catalog).
Requisitos previos
Muy importante: antes de comenzar este lab, sal de tu cuenta de Gmail personal o corporativa, o bien ejecútalo en modo Incógnito. Así, evitarás la confusión de accesos mientras se ejecuta el lab.
Comienza el lab
-
Si aún no lo hiciste, haz clic en Comenzar lab.
-
Nota: El entorno del lab tardará de 3 a 5 minutos en autogenerar 2 proyectos de Google Cloud, 2 conjuntos de datos prepropagados y 2 cuentas de usuario. No es necesario que esperes a que se complete la creación de los recursos para seguir leyendo este lab (accederás luego de leer la situación que se presenta a continuación).
-
Haz clic en Open Bike Console en el lab. También puedes ir a la consola de Cloud en una nueva ventana de incógnito del navegador. No accedas con ninguna de las cuentas proporcionadas todavía. Continúa con la lectura de la situación, y posteriormente se te indicará qué cuenta debes usar.
Nota importante: Una vez que comiences, no podrás pausar el lab. Además, si lo finalizas, se borrarán todos los proyectos que tengas activos como estudiante.
Situación: director general de una empresa de transporte de la ciudad de Nueva York
Eres el director de una empresa de transporte que opera en la ciudad de Nueva York. Tienes equipos de analistas de datos que consultan los conjuntos de datos que recopilaste sobre los viajes en la ciudad de Nueva York (en bicicleta y en automóvil).
Desafíos:
- Deseas controlar el acceso a algunos de tus conjuntos de datos que contienen información sensible.
- Tu equipo se queja de que es difícil encontrar el conjunto de datos adecuado entre tantos otros conjuntos a los que tienen acceso.
- Para cumplir con los requisitos normativos recientes, necesitas encontrar una manera muy clara para marcar los conjuntos de datos que contienen PII (información de identificación personal).
Conjuntos de datos para tu organización
- Viajes en bicicletas compartidas en la ciudad de Nueva York
- Accidentes de tránsito de la ciudad de Nueva York
Cada equipo de ingeniería de datos mantiene sus conjuntos de datos en su propio proyecto de Google Cloud para administrar mejor el acceso y la facturación. Si bien esta forma de organizar los datos es ideal para ellos, no lo es para tu equipo de analistas, ya que estos conjuntos de datos son más difíciles de encontrar.
No todos los roles de analista son iguales
Para volver más complicado el asunto, tienes diferentes niveles de analistas de datos dentro del equipo de IE que trabaja para ti:
- Analistas de datos: privilegios mínimos
- Propietario: todos los privilegios de administrador
Revisa lo que se crea automáticamente para ti
Para simular mejor un auténtico entorno empresarial con varios proyectos y conjuntos de datos para catalogar, tu equipo de ingeniería te otorgó acceso a recursos existentes (el lab los precarga para que no tengas que crearlos).
Como se muestra arriba, tu equipo te proporcionó los datos de acceso a los siguientes recursos:
- 2 proyectos
- 2 cuentas de usuario
El equipo agregó las siguientes notas sobre la restricción de acceso:
- El propietario debe tener acceso completo a todos los proyectos y conjuntos de datos.
- Los analistas de datos no deben tener acceso para ver o consultar el conjunto de datos de accidentes de tránsito de la ciudad de Nueva York (datos sensibles).
Parte 1: explora el entorno de datos existente con el rol de propietario
Recuerda que tu equipo de ingeniería de datos te proporcionó tres proyectos, cada uno con un conjunto de datos diferente de la ciudad de Nueva York. Verifica que el rol de propietario pueda ver y consultar todos los conjuntos de datos.
-
Accede con el correo electrónico y la contraseña autogeneradas de propietario (todos los privilegios de administrador) que se proporcionan como parte de este lab.
-
Acepta los Términos y Condiciones para usar Google Cloud (si se solicita).
Encuentra el proyecto sobre accidentes de tránsito de la ciudad de Nueva York
- Haz clic en el menú desplegable del nombre de tu proyecto que se ubica en la parte superior de la página para seleccionar un proyecto.
- Consulta el nombre de proyecto autogenerado para
NYC Motor Vehicle Collisions Project
de Qwiklabs y encuentra el valor de esa cadena en la ventana emergente Seleccionar un proyecto:
Habilita la API de Data Catalog
- Usa el Menú de navegación > Más productos para desplazarte hacia abajo hasta que veas Data Catalog.
- Coloca el cursor sobre el nombre y, luego, haz clic en el ícono de fijar para que Data Catalog aparezca en la parte superior del menú de navegación.
- Haz clic en Data Catalog. Si aparece una ventana emergente, haz clic en Cerrar.
- Verifica que la API ya esté habilitada (si es así, no verás ninguna solicitud para habilitarla y no deberás hacer nada).
Más adelante en este lab, regresarás para usar Data Catalog, luego de buscar y consultar manualmente los conjuntos de datos en BigQuery.
Navega hasta BigQuery y fíjalo
- Usa el menú de navegación para desplazarte hacia abajo hasta que aparezca BigQuery.
- Coloca el cursor sobre el nombre y, luego, haz clic en el ícono de fijar.
- Haz clic en BigQuery y, luego, en Listo.
Tarea 1. Verifica que el rol de propietario pueda ver y consultar el conjunto de datos new_york_mv_collisions
Verifica que el rol de propietario pueda ver el conjunto de datos new_york_mv_collisions
.
-
En la sección Explorador de BigQuery, haz clic en el nombre de tu proyecto para activar los conjuntos de datos disponibles a los que tienes acceso de visualización.
-
Verifica que puedas ver el conjunto de datos
new_york_mv_collisions
. -
Haz clic en el conjunto de datos
new_york_mv_collisions
para activar las tablas que contiene. -
Haz clic en la tabla
nypd_mv_collisions
y explora los campos disponibles en el esquema.
El esquema debería ser similar al siguiente:
Responde las siguientes preguntas:
Si bien en esta tabla no hay información de identificación personal, como números de teléfono o direcciones de correo electrónico, de todas formas debes tener cuidado cuando compartas el conjunto de datos con el resto del equipo.
El resto de este lab se enfocará en enseñarte formas de acceder a conjuntos de datos restringidos y usar Data Catalog para etiquetar de forma proactiva conjuntos de datos y tablas con metadatos enriquecidos para tu organización.
Verifica que el rol de propietario pueda consultar el conjunto de datos de accidentes de tránsito
Dado que accediste como propietario global, verifica que puedas ver y acceder a los proyectos y los conjuntos de datos, así como ejecutar la consulta que aparece a continuación.
- Copia y pega la siguiente consulta en el Editor de consultas de BigQuery y haz clic en Ejecutar:
¿Cuáles son los 10 factores más comunes en los accidentes de tránsito de la ciudad de Nueva York?
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 2. Verifica que el rol de propietario pueda ver y consultar el conjunto de datos del servicio de bicicletas compartidas
-
Haz clic en Seleccionar un proyecto en la parte superior de la página.
-
Haz clic en la pestaña Todos.
-
Consulta el ID del proyecto autogenerado correcto y busca el conjunto de datos del servicio de bicicletas compartidas:
- Haz clic en el ID del proyecto.
- En la IU de BigQuery, abre el ID del proyecto >
new_york_citibike
> tablacitibike_trips
.
Mira el esquema, los detalles y la vista previa. Luego, responde las siguientes preguntas:
¿Cuáles son las rutas de viajes en bicicletas compartidas más populares según género?
El Conjunto de datos públicos NYC Citi Bike realiza un seguimiento de cada viaje en bicicleta compartida (lugar de comienzo y lugar de finalización), así como de otros campos para cada usuario.
- Agrega la siguiente consulta al Editor de consultas y ejecútala para ver las rutas más populares según el género. Ten en cuenta que los únicos tres valores proporcionados en el conjunto de datos son unknown, male y female, lo que posiblemente no represente todos los valores de género de los usuarios que realizan viajes en bicicletas compartidas:
Haz clic en Revisar mi progreso para verificar el objetivo.
A continuación, aprenderás a etiquetar conjuntos de datos y tablas con datos sensibles.
Resumen de la exploración
- Exploraste cada conjunto de datos de la ciudad de Nueva York (accidentes de tránsito y viajes en bicicletas compartidas).
- Cada conjunto de datos se almacena en un proyecto diferente.
- El rol de propietario (con el cual accediste ahora) te permite ver y consultar cada conjunto de datos.
Parte 2: explora el entorno de datos existente con el acceso de usuario restringido
Hasta el momento, accediste al lab con la cuenta de propietario que te proporcionó tu equipo de ingeniería de datos con el mayor nivel de permisos.
Ahora le pediste a tus equipos de ingeniería que limiten el acceso de los usuarios analistas de datos como se describe a continuación.
Los analistas de datos deben ver lo siguiente:
- Viajes en bicicletas compartidas de la ciudad de Nueva York
Los analistas de datos NO deben ver lo siguiente:
- Accidentes de tránsito de la ciudad de Nueva York
Sal de la cuenta de propietario
-
Haz clic en el ícono de perfil.
-
Haz clic en Salir.
Tarea 3. Accede con el usuario Analista de datos y verifica el acceso restringido al proyecto
-
Haz clic en Usar otra cuenta.
-
Vuelve a acceder a Google Cloud con el correo electrónico y la contraseña del usuario
Analista de datos
que se te proporcionó. -
En la sección Seleccionar un proyecto, verifica que puedas ver solo un proyecto autogenerado de Qwiklabs, no dos.
-
Selecciona el proyecto de Qwiklabs al que tienes acceso.
-
Navega a BigQuery.
Tarea 4. Intenta consultar directamente un conjunto de datos privados
En BigQuery, puedes consultar un proyecto si tienes acceso a él, incluso si no se fijó o no es visible en la sección Explorador. Intenta consultar directamente el conjunto de datos de accidentes de tránsito de la ciudad de Nueva York como usuario analista de datos usando el ID del proyecto.
- Agrega la siguiente consulta utilizada anteriormente y reemplaza el prefijo de ID del proyecto por
NYC Motor Vehicle Collisions Project
:
Recibir un mensaje de error de acceso denegado verifica tu nivel de acceso de analista de datos.
Ya exploraste los diferentes privilegios y accesos que se otorgan a los roles de propietario (el conjunto de privilegios más amplio) y de analistas de datos (el más restrictivo) en cuanto al acceso a los proyectos, los conjuntos de datos y las consultas.
A continuación, intentarás buscar un conjunto de datos oculto con la función de búsqueda de Data Catalog. ¿Crees que se mostrará a los analistas de datos si BigQuery te bloquea?
Parte 3: usa Data Catalog para etiquetar conjuntos de datos en proyectos
Ahora que conoces los conjuntos de datos y los niveles de acceso otorgados a los diferentes roles, abordarás los desafíos planteados anteriormente en la situación de muestra:
Desafíos:
- Deseas controlar el acceso a algunos de tus conjuntos de datos que contienen información sensible.
- Tu equipo se queja de que es difícil encontrar el conjunto de datos adecuado entre tantos otros conjuntos a los que tienen acceso.
Para cumplir con los requisitos normativos recientes, necesitas encontrar una manera muy clara para marcar los conjuntos de datos que contienen PII (información de identificación personal). Abordarás estos desafíos y completarás esta tarea con el servicio de Data Catalog.
- Abre el menú de navegación y haz clic en Data Catalog.
- En la página principal de Data Catalog, en Sistemas, aplica el filtro de BigQuery.
-
Ingresa
qwiklabs-gcp
en la barra de búsqueda de Data Catalog para filtrar los recursos externos de Qwiklabs. -
Verifica que tu vista como analista de datos sea similar a la que se muestra a continuación:
Independientemente del proyecto al que hayas accedido, Data Catalog mostrará TODOS los conjuntos de datos de BigQuery a los que tiene acceso tu rol.
Como usuario analista de datos, no verás new_york_mv_collisions
en Data Catalog aunque exista (lo consultas como propietario):
¿Por qué pasa eso? A continuación, explorarás cómo funciona el control de acceso a nivel de Data Catalog.
Cómo muestra los metadatos Data Catalog
Antes de buscar, descubrir o mostrar recursos de Google Cloud, Data Catalog comprueba que el usuario tenga asignado un rol de IAM con los permisos de lectura de metadatos requeridos por BigQuery, Pub/Sub o algún otro sistema de origen para acceder al recurso.
Ejemplo: Data Catalog verifica que se haya otorgado al usuario un rol con permisos de bigquery.tables.get
antes de mostrar los metadatos de la tabla de BigQuery.
Tarea 5. Crea una plantilla de etiquetas de Data Catalog desde un conjunto de datos de BigQuery
- Haz clic en la entrada de la tabla llamada
new_york_citibike
. Esta es una subtarea del conjunto de datos de transporte privado con conductor que tienes permiso para ver.
En las tablas de BigQuery, Data Catalog te permite etiquetar lo siguiente:
- El conjunto de datos en sí
- La tabla
- Columnas individuales
-
Intenta hacer clic en el botón Adjuntar etiqueta.
-
Verifica que recibas un mensaje de error similar:
- En ese diálogo, coloca el cursor sobre Más información para saber por qué no está disponible.
Parece que el rol de analista de datos puede buscar metadatos en Data Catalog, pero no puede adjuntar etiquetas nuevas.
Ahora, verás cómo funcionan los permisos de etiquetas y las plantillas de etiquetas de Data Catalog.
Plantillas, etiquetas y permisos de Data Catalog
Las plantillas de etiquetas de Data Catalog te ayudan a crear y administrar metadatos comunes sobre recursos de datos en una sola ubicación. Las etiquetas se adjuntan al recurso de datos, lo que significa que se puede descubrir en el sistema de Data Catalog. Con esta función, también puedes compilar aplicaciones adicionales que consuman estos metadatos contextuales de un recurso de datos.
¿Cómo se ve una plantilla de etiqueta?
¿Quién puede crear una plantilla de etiqueta?
Para crear plantillas de etiquetas, el usuario debe tener, como mínimo, acceso de edición al recurso en cuestión (BigQuery para este lab) Y a datacatalog.tagTemplateUser
(bajo la suposición de que ya se creó una etiqueta). Para obtener más información, consulta la Guía de IAM de Data Catalog.
¿Qué pasa si debes crear una nueva plantilla de etiqueta? Entonces, deberías tener, como mínimo, el rol datacatalog.tagTemplateCreator
o roles/datacatalog.tagTemplateOwner
. El rol de propietario te permite borrar las plantillas existentes y te otorga privilegios de administrador adicionales.
A continuación, se muestran los roles predefinidos de Cloud IAM más comunes en Data Catalog:
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
- Para obtener una lista completa de los roles, consulta Roles de Data Catalog
Tarea 6. Crea una plantilla de Data Catalog nueva
-
Accede con el rol de propietario que tiene el permiso
roles/datacatalog.tagTemplateOwner
. -
Selecciona el
NYC Bike Share Project
que usaste anteriormente.
-
Navega a Data Catalog.
-
Crea una plantilla de etiqueta nueva. Para ello, haz clic en Plantillas de etiquetas > Crear plantilla de etiqueta.
-
Proporciona la información básica de la plantilla nueva. Ingresa el nombre Conjuntos de datos de Nueva York.
-
Haz clic en Agregar campo.
-
Asígnale el nombre Contiene PII, marca Hacer que este campo sea obligatorio, selecciona el tipo Booleano y, luego, haz clic en Listo.
-
Haz clic en Agregar campo.
-
Asígnale el nombre Tipo de PII, selecciona el tipo Enumerado, agrega los siguientes valores y haz clic en Listo cuando hayas terminado:
- Valor 1: ninguno
- Valor 2: fecha de nacimiento
- Valor 3: género
- Valor 4: ubicación geográfica
-
Haz clic en Agregar campo.
-
Asígnale el nombre Equipo del propietario de los datos al campo, marca Hacer que este campo sea obligatorio, selecciona el tipo Enumerado, agrega los siguientes valores y haz clic en Listo cuando hayas terminado:
- Valor 1: marketing
- Valor 2: ciencia de datos
- Valor 3: ventas
- Valor 4: ingeniería
- Haz clic en Crear.
Aplica etiquetas a nivel del conjunto de datos
-
Haz clic en Buscar entradas que no usen esa plantilla.
-
Haz clic en el conjunto de datos new_york_mv_collisions.
-
Verás que no hay etiquetas debajo del nombre del conjunto de datos. Luego, selecciona Adjuntar etiquetas.
-
Elige la plantilla que creaste antes y haz clic en Aceptar.
-
Usa el menú desplegable para propagar valores para los campos de plantillas con los siguientes, luego haz clic en Guardar:
- Contiene PII: verdadero
- Tipo de PII: ubicación geográfica
- Equipo de propietarios de datos: ingeniería
- Observa las etiquetas a nivel del conjunto de datos.
Aplica etiquetas a nivel de tabla y columna
Para etiquetar recursos de forma más detallada, puedes aplicar etiquetas a nivel de la tabla y de la columna.
-
Vuelve a los recursos de nuestra búsqueda anterior y haz clic en la tabla
nypd_mv_collisions
. -
Haz clic en Adjuntar etiquetas y configura los siguientes campos para Esquema y etiquetas de columnas:
-
Tabla: nypd_mv_collisions
-
Columna: ubicación
-
Plantilla de etiqueta: New York Datasets
-
Valores de etiquetas:
- Contiene PII: verdadero
- Tipo de PII: ubicación geográfica
- Equipo de propietarios de datos: ingeniería
-
Luego, haz clic en Guardar.
-
Etiqueta el campo de PII para Ubicación geográfica y haz clic en el nombre de la plantilla para verificar que se muestre la etiqueta.
Haz clic en Revisar mi progreso para verificar el objetivo.
Busca conjuntos de datos por etiqueta y clave de etiqueta
Ahora que ya tienes etiquetas, puedes buscar en tu catálogo en función de las etiquetas que acabas de agregar.
- En la barra de búsqueda, copia y pega
tag:qwiklabs-YOUR-PROJECT-HERE.new_york_datasets.contains_pii
, cambia el prefijo de ID del proyecto y reemplázalo por el ID de tu proyecto de Qwiklabs actual.
- Para ver otros ejemplos sobre cómo buscar rápidamente en tu catálogo, consulta Busca y visualiza recursos de datos con Data Catalog.
¡Felicitaciones!
Aprendiste más sobre Data Catalog:
- Cómo explorar un entorno empresarial simulado con 2 proyectos, 2 conjuntos de datos y 2 cuentas de usuario
- Cómo ejecutar consultas para comprender mejor las columnas de datos sensibles que quieres etiquetar más adelante
- Cómo usar Data Catalog para buscar conjuntos de datos existentes en un proyecto
- Cómo usar plantillas de etiquetas de Data Catalog para etiquetar recursos con metadatos enriquecidos
Finaliza la Quest
Este lab de autoaprendizaje forma parte de las Quests BigQuery for Marketing Analysts y Data Catalog Fundamentals. Una Quest es una serie de labs relacionados que forman una ruta de aprendizaje. Si completas esta Quest, obtendrás una insignia como reconocimiento por tu logro. Puedes hacer públicas tus insignias y agregar vínculos a ellas en tu currículum en línea o en tus cuentas de redes sociales. Inscríbete en cualquier Quest que contenga este lab y obtén un crédito inmediato de finalización. Consulta el catálogo de Google Cloud Skills Boost para ver todas las Quests disponibles.
Próximos pasos y más información
- Página de documentación de Data Catalog
- Mira el video destacado de Next
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 11 de julio de 2023
Prueba más reciente del lab: 11 de julio de 2023
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.