
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Data Catalog dejó de estar disponible y se descontinuará el 30 de enero de 2026. Si lo deseas, puedes completar este lab.
Para conocer los pasos para migrar los usuarios, las cargas de trabajo y el contenido de Data Catalog a Dataplex Catalog, consulta Cómo migrar de Data Catalog a Dataplex Catalog (https://cloud.google.com/dataplex/docs/transition-to-dataplex-catalog).
Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.
Administrar los recursos de datos puede llevar mucho tiempo y ser costoso si no se tienen las herramientas adecuadas. Data Catalog proporciona un lugar centralizado donde las organizaciones pueden encontrar, seleccionar y describir sus recursos de datos.
Existen dos formas principales de interactuar con Data Catalog:
En este lab, aprenderás a realizar las siguientes tareas:
Muy importante: antes de comenzar este lab, sal de tu cuenta de Gmail personal o corporativa, o bien ejecútalo en modo Incógnito. De este modo, evitarás la confusión de accesos mientras se ejecuta el lab.
Si aún no lo hiciste, haz clic en Comenzar lab.
Nota: El entorno del lab tardará de 3 a 5 minutos en autogenerar 2 proyectos de Google Cloud, 2 conjuntos de datos prepropagados y 2 cuentas de usuario. No es necesario que esperes a que se complete la creación de los recursos para seguir leyendo este lab (accederás luego de leer la situación que se presenta a continuación).
Haz clic en Open Bike Console en el lab. También puedes ir a la consola de Cloud en una nueva ventana de incógnito del navegador. No accedas con ninguna de las cuentas proporcionadas todavía. Continúa con la lectura de la situación, y posteriormente se te indicará qué cuenta debes usar.
Nota importante: Una vez que comiences, no podrás pausar el lab. Además, si lo finalizas, se borrarán todos los proyectos que tengas activos como estudiante.
Eres el director de una empresa de transporte que opera en la ciudad de Nueva York. Tienes equipos de analistas de datos que consultan los conjuntos de datos que recopilaste sobre los viajes en la ciudad de Nueva York (en bicicleta y en automóvil).
Desafíos:
Cada equipo de ingeniería de datos mantiene sus conjuntos de datos en su propio proyecto de Google Cloud para administrar mejor el acceso y la facturación. Si bien esta forma de organizar los datos es ideal para ellos, no lo es para tu equipo de analistas, ya que estos conjuntos de datos son más difíciles de encontrar.
Para volver más complicado el asunto, tienes diferentes niveles de analistas de datos dentro del equipo de IE que trabaja para ti:
Para simular mejor un auténtico entorno empresarial con varios proyectos y conjuntos de datos para catalogar, tu equipo de ingeniería te otorgó acceso a recursos existentes (el lab los precarga para que no tengas que crearlos).
Como se muestra arriba, tu equipo te proporcionó los datos de acceso a los siguientes recursos:
El equipo agregó las siguientes notas sobre la restricción de acceso:
Recuerda que tu equipo de ingeniería de datos te proporcionó tres proyectos, cada uno con un conjunto de datos diferente de la ciudad de Nueva York. Verifica que el rol de propietario pueda ver y consultar todos los conjuntos de datos.
Accede con el correo electrónico y la contraseña autogeneradas de propietario (todos los privilegios de administrador) que se proporcionan como parte de este lab.
Acepta los Términos y Condiciones para usar Google Cloud (si se solicita).
NYC Motor Vehicle Collisions Project
de Qwiklabs y encuentra el valor de esa cadena en la ventana emergente Seleccionar un proyecto:Más adelante en este lab, regresarás para usar Data Catalog, luego de buscar y consultar manualmente los conjuntos de datos en BigQuery.
Verifica que el rol de propietario pueda ver el conjunto de datos new_york_mv_collisions
.
En la sección Explorador de BigQuery, haz clic en el nombre de tu proyecto para activar los conjuntos de datos disponibles a los que tienes acceso de visualización.
Verifica que puedas ver el conjunto de datos new_york_mv_collisions
.
Haz clic en el conjunto de datos new_york_mv_collisions
para activar las tablas que contiene.
Haz clic en la tabla nypd_mv_collisions
y explora los campos disponibles en el esquema.
El esquema debería ser similar al siguiente:
Responde las siguientes preguntas:
Si bien en esta tabla no hay información de identificación personal, como números de teléfono o direcciones de correo electrónico, de todas formas debes tener cuidado cuando compartas el conjunto de datos con el resto del equipo.
El resto de este lab se enfocará en enseñarte formas de acceder a conjuntos de datos restringidos y usar Data Catalog para etiquetar de forma proactiva conjuntos de datos y tablas con metadatos enriquecidos para tu organización.
Dado que accediste como propietario global, verifica que puedas ver y acceder a los proyectos y los conjuntos de datos, así como ejecutar la consulta que aparece a continuación.
¿Cuáles son los 10 factores más comunes en los accidentes de tránsito de la ciudad de Nueva York?
Haz clic en Revisar mi progreso para verificar el objetivo.
Haz clic en Seleccionar un proyecto en la parte superior de la página.
Haz clic en la pestaña Todos.
Consulta el ID del proyecto autogenerado correcto y busca el conjunto de datos del servicio de bicicletas compartidas:
new_york_citibike
> tabla citibike_trips
.Mira el esquema, los detalles y la vista previa. Luego, responde las siguientes preguntas:
El Conjunto de datos públicos NYC Citi Bike realiza un seguimiento de cada viaje en bicicleta compartida (lugar de comienzo y lugar de finalización), así como de otros campos para cada usuario.
Haz clic en Revisar mi progreso para verificar el objetivo.
A continuación, aprenderás a etiquetar conjuntos de datos y tablas con datos sensibles.
Hasta el momento, accediste al lab con la cuenta de propietario que te proporcionó tu equipo de ingeniería de datos con el mayor nivel de permisos.
Ahora le pediste a tus equipos de ingeniería que limiten el acceso de los usuarios analistas de datos como se describe a continuación.
Los analistas de datos deben ver lo siguiente:
Los analistas de datos NO deben ver lo siguiente:
Haz clic en el ícono de perfil.
Haz clic en Salir.
Haz clic en Usar otra cuenta.
Vuelve a acceder a Google Cloud con el correo electrónico y la contraseña del usuario Analista de datos
que se te proporcionó.
En la sección Seleccionar un proyecto, verifica que puedas ver solo un proyecto autogenerado de Qwiklabs, no dos.
Selecciona el proyecto de Qwiklabs al que tienes acceso.
Navega a BigQuery.
En BigQuery, puedes consultar un proyecto si tienes acceso a él, incluso si no se fijó o no es visible en la sección Explorador. Intenta consultar directamente el conjunto de datos de accidentes de tránsito de la ciudad de Nueva York como usuario analista de datos usando el ID del proyecto.
NYC Motor Vehicle Collisions Project
:Recibir un mensaje de error de acceso denegado verifica tu nivel de acceso de analista de datos.
Ya exploraste los diferentes privilegios y accesos que se otorgan a los roles de propietario (el conjunto de privilegios más amplio) y de analistas de datos (el más restrictivo) en cuanto al acceso a los proyectos, los conjuntos de datos y las consultas.
A continuación, intentarás buscar un conjunto de datos oculto con la función de búsqueda de Data Catalog. ¿Crees que se mostrará a los analistas de datos si BigQuery te bloquea?
Ahora que conoces los conjuntos de datos y los niveles de acceso otorgados a los diferentes roles, abordarás los desafíos planteados anteriormente en la situación de muestra:
Desafíos:
Para cumplir con los requisitos normativos recientes, necesitas encontrar una manera muy clara para marcar los conjuntos de datos que contienen PII (información de identificación personal). Abordarás estos desafíos y completarás esta tarea con el servicio de Data Catalog.
Ingresa qwiklabs-gcp
en la barra de búsqueda de Data Catalog para filtrar los recursos externos de Qwiklabs.
Verifica que tu vista como analista de datos sea similar a la que se muestra a continuación:
Independientemente del proyecto al que hayas accedido, Data Catalog mostrará TODOS los conjuntos de datos de BigQuery a los que tiene acceso tu rol.
Como usuario analista de datos, no verás new_york_mv_collisions
en Data Catalog aunque exista (lo consultas como propietario):
¿Por qué pasa eso? A continuación, explorarás cómo funciona el control de acceso a nivel de Data Catalog.
Antes de buscar, descubrir o mostrar recursos de Google Cloud, Data Catalog comprueba que el usuario tenga asignado un rol de IAM con los permisos de lectura de metadatos requeridos por BigQuery, Pub/Sub o algún otro sistema de origen para acceder al recurso.
Ejemplo: Data Catalog verifica que se haya otorgado al usuario un rol con permisos de bigquery.tables.get
antes de mostrar los metadatos de la tabla de BigQuery.
new_york_citibike
. Esta es una subtarea del conjunto de datos de transporte privado con conductor que tienes permiso para ver.En las tablas de BigQuery, Data Catalog te permite etiquetar lo siguiente:
Intenta hacer clic en el botón Adjuntar etiqueta.
Verifica que recibas un mensaje de error similar:
Parece que el rol de analista de datos puede buscar metadatos en Data Catalog, pero no puede adjuntar etiquetas nuevas.
Ahora, verás cómo funcionan los permisos de etiquetas y las plantillas de etiquetas de Data Catalog.
Las plantillas de etiquetas de Data Catalog te ayudan a crear y administrar metadatos comunes sobre recursos de datos en una sola ubicación. Las etiquetas se adjuntan al recurso de datos, lo que significa que se puede descubrir en el sistema de Data Catalog. Con esta función, también puedes compilar aplicaciones adicionales que consuman estos metadatos contextuales de un recurso de datos.
Para crear plantillas de etiquetas, el usuario debe tener, como mínimo, acceso de edición al recurso en cuestión (BigQuery para este lab) Y a datacatalog.tagTemplateUser
(bajo la suposición de que ya se creó una etiqueta). Para obtener más información, consulta la Guía de IAM de Data Catalog.
¿Qué pasa si debes crear una nueva plantilla de etiqueta? Entonces, deberías tener, como mínimo, el rol datacatalog.tagTemplateCreator
o roles/datacatalog.tagTemplateOwner
. El rol de propietario te permite borrar las plantillas existentes y te otorga privilegios de administrador adicionales.
A continuación, se muestran los roles predefinidos de Cloud IAM más comunes en Data Catalog:
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
Accede con el rol de propietario que tiene el permiso roles/datacatalog.tagTemplateOwner
.
Selecciona el NYC Bike Share Project
que usaste anteriormente.
Navega a Data Catalog.
Crea una plantilla de etiqueta nueva. Para ello, haz clic en Plantillas de etiquetas > Crear plantilla de etiqueta.
Proporciona la información básica de la plantilla nueva. Ingresa el nombre Conjuntos de datos de Nueva York.
Selecciona la Ubicación como
Haz clic en Agregar campo.
Asígnale el nombre Contiene PII, marca Hacer que este campo sea obligatorio, selecciona el tipo Booleano y, luego, haz clic en Listo.
Haz clic en Agregar campo.
Asígnale el nombre Tipo de PII, selecciona el tipo Enumerado, agrega los siguientes valores y haz clic en Listo cuando hayas terminado:
Haz clic en Agregar campo.
Asígnale el nombre Equipo del propietario de los datos al campo, marca Hacer que este campo sea obligatorio, selecciona el tipo Enumerado, agrega los siguientes valores y haz clic en Listo cuando hayas terminado:
Haz clic en Buscar entradas que no usen esa plantilla.
Haz clic en el conjunto de datos new_york_mv_collisions.
Verás que no hay etiquetas debajo del nombre del conjunto de datos. Luego, selecciona Adjuntar etiquetas.
Elige la plantilla que creaste antes y haz clic en Aceptar.
Usa el menú desplegable para propagar valores para los campos de plantillas con los siguientes, luego haz clic en Guardar:
Para etiquetar recursos de forma más detallada, puedes aplicar etiquetas a nivel de la tabla y de la columna.
Vuelve a los recursos de nuestra búsqueda anterior y haz clic en la tabla nypd_mv_collisions
.
Haz clic en Adjuntar etiquetas y configura los siguientes campos para Esquema y etiquetas de columnas:
Tabla: nypd_mv_collisions
Columna: ubicación
Plantilla de etiqueta: New York Datasets
Valores de etiquetas:
Luego, haz clic en Guardar.
Etiqueta el campo de PII para Ubicación geográfica y haz clic en el nombre de la plantilla para verificar que se muestre la etiqueta.
Haz clic en Revisar mi progreso para verificar el objetivo.
Ahora que ya tienes etiquetas, puedes buscar en tu catálogo en función de las etiquetas que acabas de agregar.
tag:qwiklabs-YOUR-PROJECT-HERE.new_york_datasets.contains_pii
, cambia el prefijo de ID del proyecto y reemplázalo por el ID de tu proyecto de Qwiklabs actual.Aprendiste más sobre Data Catalog:
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 30 de abril de 2024
Prueba más reciente del lab: 30 de abril de 2024
Copyright 2025 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.
Este contenido no está disponible en este momento
Te enviaremos una notificación por correo electrónico cuando esté disponible
¡Genial!
Nos comunicaremos contigo por correo electrónico si está disponible
One lab at a time
Confirm to end all existing labs and start this one