Puntos de control
Create the connection resource
/ 20
Set up access to a Cloud Storage data lake
/ 30
Create the BigLake table
/ 20
Create the external table
/ 10
Update external table to Biglake table
/ 20
BigLake: Qwik Start
- GSP1040
- Descripción general
- Objetivos
- Configuración y requisitos
- Tarea 1. Crea un recurso de conexión
- Tarea 2. Configura el acceso a un data lake de Cloud Storage
- Tarea 3. Crea una tabla de BigLake
- Tarea 4. Consulta una tabla de BigLake con BigQuery
- Tarea 5. Configura las políticas de control de acceso
- Tarea 6. Actualiza las tablas externas a tablas de BigLake
- ¡Felicitaciones!
GSP1040
Descripción general
BigLake es un motor de almacenamiento unificado que simplifica el acceso a los datos para almacenes de datos y data lakes a través de un control de acceso uniforme y detallado en el almacenamiento en múltiples nubes y formatos abiertos.
BigLake extiende la seguridad detallada de BigQuery a nivel de filas y de columnas a las tablas en almacenes de objetos residentes de datos, como Amazon S3, Azure Data Lake Storage Gen2 y Google Cloud Storage. BigLake separa el acceso a la tabla de los datos subyacentes de Cloud Storage a través de la delegación de acceso. Esta función te ayuda a otorgar acceso de forma segura a nivel de fila y de columna a los usuarios y las canalizaciones de la organización sin proporcionarles acceso completo a la tabla.
Después de crear una tabla de BigLake, puedes consultarla como otras tablas de BigQuery. BigQuery aplica controles de acceso a nivel de fila y columna, y cada usuario ve solo la porción de datos que está autorizado a ver. Las políticas de administración se aplican a todo el acceso a los datos a través de las APIs de BigQuery. Por ejemplo, la API de BigQuery Storage permite a los usuarios acceder a datos autorizados a través de motores de consultas de código abierto, como Apache Spark, como se muestra en el siguiente diagrama:
Objetivos
En este lab, aprenderás a hacer lo siguiente:
- Crear y visualizar un recurso de conexión
- Configurar el acceso a un data lake de Cloud Storage
- Crear una tabla de BigLake
- Consultar una tabla de BigLake con BigQuery
- Configurar las políticas de control de acceso
- Actualizar las tablas externas a tablas de BigLake
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Activa Cloud Shell
Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.
- Haz clic en Activar Cloud Shell en la parte superior de la consola de Google Cloud.
Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:
gcloud
es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.
- Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
-
Haz clic en Autorizar.
-
Ahora, el resultado debería verse de la siguiente manera:
Resultado:
- Puedes solicitar el ID del proyecto con este comando (opcional):
Resultado:
Resultado de ejemplo:
gcloud
, consulta la guía con la descripción general de gcloud CLI en Google Cloud.
Tarea 1. Crea un recurso de conexión
Las tablas de BigLake acceden a los datos de Google Cloud Storage a través de un recurso de conexión. Un recurso de conexión puede estar asociado con una sola tabla o un grupo arbitrario de tablas en el proyecto.
-
En el menú de navegación, ve a BigQuery > BigQuery Studio. Haz clic en Listo.
-
Para crear una conexión, haz clic en +AGREGAR y, a continuación, en Conexiones a fuentes de datos externas.
- En la lista Tipo de conexión, selecciona Modelos remotos de Vertex AI, funciones remotas y BigLake (Cloud Resource).
-
En el campo ID de conexión, ingresa
my-connection
. -
En Tipo de ubicación, elige Multirregional y selecciona EE.UU. (varias regiones en Estados Unidos) en el menú desplegable.
-
Haz clic en Crear conexión.
-
Para ver la información de conexión, selecciona la conexión en el menú de navegación.
- En la sección Información de conexión, copia el ID de la cuenta de servicio. Lo necesitarás en la siguiente sección.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 2. Configura el acceso a un data lake de Cloud Storage
En esta sección, le otorgarás al recurso de conexión nuevo acceso de solo lectura al data lake de Cloud Storage para que BigQuery pueda acceder a los archivos en nombre de los usuarios. Recomendamos que otorgues a la cuenta de servicio del recurso de conexión el rol de IAM de Visualizador de objetos de almacenamiento, que permite que la cuenta de servicio acceda a los buckets de Cloud Storage.
-
En el menú de navegación, ve a IAM y administración > IAM.
-
Haz clic en OTORGAR ACCESO.
-
En el campo Principales nuevas, ingresa el ID de cuenta de servicio que copiaste antes.
-
En el campo Seleccionar un rol, elige Cloud Storage y, luego, Visualizador de objetos de Storage.
- Haz clic en Guardar.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 3. Crea una tabla de BigLake
En el siguiente ejemplo, se usa el formato de archivo CSV, pero puedes usar cualquier formato que admita BigLake, como se muestra en Limitaciones. Si conoces la creación de tablas en BigQuery, este proceso debe ser similar. La única diferencia es que debes especificar la conexión de los recursos en la nube asociados.
Si no se proporcionó un esquema y no se le otorgó acceso a la cuenta de servicio al bucket en el paso anterior, este paso fallará con un mensaje de acceso denegado.
Crea un conjunto de datos
-
Regresa a BigQuery > BigQuery Studio.
-
Haz clic en los tres puntos que se ubican junto al nombre de tu proyecto y selecciona Crear conjunto de datos.
-
Para el ID del conjunto de datos, usa
demo_dataset
. -
En Tipo de ubicación, elige Multirregional y selecciona EE.UU. (varias regiones en Estados Unidos) en el menú desplegable.
-
Deja el resto de los campos con los valores predeterminados y haz clic en Crear conjunto de datos.
Ahora que creaste un conjunto de datos, puedes copiar un conjunto de datos existente de Cloud Storage a BigQuery.
Crea la tabla
- Haz clic en los tres puntos junto a demo_dataset, luego, elige Crear tabla.
- En Fuente para Crear tabla desde, elige Google Cloud Storage.
-
Haz clic en Explorar para seleccionar el conjunto de datos. Navega al bucket llamado
y, luego, al archivo customer.csv
para importarlo a BigQuery, después, haz clic en Seleccionar. -
En Destino, verifica que se seleccionó tu proyecto de lab y que estás utilizando el demo_dataset.
-
Para el nombre de la tabla, utiliza
biglake_table
. -
Cambia el tipo de tabla a Tabla externa.
-
Selecciona la casilla para Crear una tabla de BigLake mediante una conexión de Cloud Resource.
Verifica que tu ID de conexión us.my-connection esté seleccionado. Tu configuración debería ser similar a la siguiente:
- En Esquema, habilita Editar como texto y copia y pega el siguiente esquema en el cuadro de texto:
- Haz clic en Crear tabla.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 4. Consulta una tabla de BigLake con BigQuery
Ahora que creaste la tabla de BigLake, puedes usar cualquier cliente de BigQuery para enviar una consulta.
-
En la barra de herramientas de vista previa de biglake_table, haz clic en Consultar > En una pestaña nueva.
-
Ejecuta lo siguiente para consultar la tabla de BigLake a través del editor de BigQuery:
-
Haz clic en Ejecutar.
-
Verifica que puedes ver todas las columnas y los datos en la tabla resultante.
Tarea 5. Configura las políticas de control de acceso
Una vez que se crea una tabla de BigLake, se puede administrar de manera similar que las tablas de BigQuery. Para crear políticas de control de acceso para tablas de BigLake, primero crearás una taxonomía de etiquetas de políticas en BigQuery. Luego, debes aplicar las etiquetas de política a las filas o columnas sensibles. En esta sección, crearás una política a nivel de la columna. Para obtener instrucciones para configurar la seguridad a nivel de fila, consulta la guía de seguridad a nivel de fila.
Para este propósito, se crearon para ti una taxonomía de BigQuery llamada
Agrega las etiquetas de políticas a las columnas
Ahora, usarás la etiqueta de política que creaste para restringir el acceso a determinadas columnas de la tabla de BigQuery. Para este ejemplo, restringirás el acceso a información sensible, como la dirección, el código postal y el número de teléfono.
-
En el menú de navegación, ve a BigQuery > BigQuery Studio.
-
Navega a demo-dataset > biglake_table y haz clic en la tabla para abrir la página del esquema de la tabla.
-
Haz clic en Editar esquema.
-
Marca las casillas junto a los campos address, postal_code y phone.
-
Haz clic en Agregar etiqueta de política.
-
Haz clic en
para expandirlo y seleccionar biglake-policy.
-
Haz clic en Seleccionar.
Ahora, tus columnas deben tener adjuntas las etiquetas de política.
-
Haz clic en Guardar.
-
Verifica que tu esquema de tablas ahora se ve de la siguiente manera.
Verifica la seguridad a nivel de la columna
-
Abre el editor de consultas de biglake_table.
-
Ejecuta lo siguiente para consultar la tabla de BigLake a través del editor de BigQuery:
-
Haz clic en Ejecutar.
Deberías recibir un error de acceso denegado:
- Ahora, ejecuta la siguiente consulta, pero omite las columnas a las que no tienes acceso:
La consulta debe ejecutarse sin problemas y devolver las columnas a las que tienes acceso. En este ejemplo, se muestra que la seguridad a nivel de la columna aplicada a través de BigQuery también se puede aplicar a tablas de BigLake.
Tarea 6. Actualiza las tablas externas a tablas de BigLake
Para actualizar las tablas existentes a las tablas de BigLake, asocia la tabla existente con una conexión de recursos en la nube. Para obtener una lista completa de marcas y argumentos, consulta bq update
y bq mkdef
.
Crea la tabla externa
-
Haz clic en los tres puntos junto a demo_dataset, luego, elige Crear tabla.
-
En Fuente para Crear tabla desde, elige Google Cloud Storage.
-
Haz clic en Explorar para seleccionar el conjunto de datos. Navega al bucket denominado
y, luego, al archivo invoice.csv
para importarlo a BigQuery y haz clic en Seleccionar. -
En Destino, verifica que se seleccionó tu proyecto de lab y que estás utilizando el demo_dataset.
-
Para el nombre de la tabla, utiliza
external_table
. -
Cambia el tipo de tabla a Tabla externa.
- En Esquema, habilita Editar como texto y copia y pega el siguiente esquema en el cuadro de texto:
- Haz clic en Crear tabla.
Haz clic en Revisar mi progreso para verificar el objetivo.
Actualiza la tabla externa a la tabla de BigLake
- Abre una nueva ventana de Cloud Shell y ejecuta el siguiente comando para generar una nueva definición de tabla externa que especifique cuál conexión usar:
- Verifica que se haya creado tu definición de tabla:
- Obtén el esquema de tu tabla:
- Actualiza la tabla con la definición de tabla externa nueva:
Haz clic en Revisar mi progreso para verificar el objetivo.
Verifica la tabla actualizada
-
En el menú de navegación, ve a BigQuery > BigQuery Studio.
-
Navega a demo-dataset y haz doble clic en external_table.
-
Abre la pestaña Detalles.
-
Verifica en la configuración de datos externos que la tabla ahora esté usando el ID de conexión correcto.
¡Genial! Actualizaste correctamente la tabla externa existente a una tabla de BigLake asociándola a una conexión de recurso de nube.
¡Felicitaciones!
En este lab, creaste un recurso de conexión, configuraste el acceso a un data lake de Cloud Storage y creaste una tabla de BigLake a partir de él. Luego, consultaste la tabla de BigLake a través de BigQuery y configuraste las políticas de control de acceso a nivel de columna. Por último, actualizaste una tabla externa existente a una tabla de BigLake con el recurso de conexión.
Próximos pasos/Más información
Asegúrate de consultar la siguiente documentación para practicar más con BigLake:
- Introducción a las tablas de BigLake
- Documentación sobre la creación y administración de tablas de BigLake
- Consulta una tabla de BigLake con conectores
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 16 de enero de 2024
Prueba más reciente del lab: 16 de enero de 2024
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.