arrow_back

BigLake: Qwik Start

Acceder Unirse
Pon a prueba tus conocimientos y compártelos con nuestra comunidad
done
Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

BigLake: Qwik Start

Lab 45 minutos universal_currency_alt 1 crédito show_chart Introductorio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Pon a prueba tus conocimientos y compártelos con nuestra comunidad
done
Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

GSP1040

Labs de autoaprendizaje de Google Cloud

Descripción general

BigLake es un motor de almacenamiento unificado que simplifica el acceso a los datos para almacenes de datos y data lakes a través de un control de acceso uniforme y detallado en el almacenamiento en múltiples nubes y formatos abiertos.

BigLake extiende la seguridad detallada de BigQuery a nivel de filas y de columnas a las tablas en almacenes de objetos residentes de datos, como Amazon S3, Azure Data Lake Storage Gen2 y Google Cloud Storage. BigLake separa el acceso a la tabla de los datos subyacentes de Cloud Storage a través de la delegación de acceso. Esta función te ayuda a otorgar acceso de forma segura a nivel de fila y de columna a los usuarios y las canalizaciones de la organización sin proporcionarles acceso completo a la tabla.

Después de crear una tabla de BigLake, puedes consultarla como otras tablas de BigQuery. BigQuery aplica controles de acceso a nivel de fila y columna, y cada usuario ve solo la porción de datos que está autorizado a ver. Las políticas de administración se aplican a todo el acceso a los datos a través de las APIs de BigQuery. Por ejemplo, la API de BigQuery Storage permite a los usuarios acceder a datos autorizados a través de motores de consultas de código abierto, como Apache Spark, como se muestra en el siguiente diagrama:

Diagrama de la descripción general de BigLake

Objetivos

En este lab, aprenderás a hacer lo siguiente:

  • Crear y visualizar un recurso de conexión
  • Configurar el acceso a un data lake de Cloud Storage
  • Crear una tabla de BigLake
  • Consultar una tabla de BigLake con BigQuery
  • Configurar las políticas de control de acceso
  • Actualizar las tablas externas a tablas de BigLake

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • El botón Abrir la consola de Google Cloud
    • El tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

    El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
  3. De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.

    {{{user_0.username | "Username"}}}

    También puedes encontrar el nombre de usuario en el panel Detalles del lab.

  4. Haz clic en Siguiente.

  5. Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.

    {{{user_0.password | "Password"}}}

    También puedes encontrar la contraseña en el panel Detalles del lab.

  6. Haz clic en Siguiente.

    Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales.
  7. Haga clic para avanzar por las páginas siguientes:

    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para ver un menú con una lista de productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1. Crea un recurso de conexión

Las tablas de BigLake acceden a los datos de Google Cloud Storage a través de un recurso de conexión. Un recurso de conexión puede estar asociado con una sola tabla o un grupo arbitrario de tablas en el proyecto.

  1. En el menú de navegación, ve a BigQuery > BigQuery Studio. Haz clic en Listo.

  2. Para crear una conexión, haz clic en +AGREGAR y, a continuación, en Conexiones a fuentes de datos externas.

Nota: Si se te solicita habilitar la API de BigQuery Connection, haz clic en Habilitar la API.
  1. En la lista Tipo de conexión, selecciona Modelos remotos de Vertex AI, funciones remotas y BigLake (Cloud Resource).

agregar fuente de datos externa

  1. En el campo ID de conexión, ingresa my-connection.

  2. En Tipo de ubicación, elige Multirregional y selecciona EE.UU. (varias regiones en Estados Unidos) en el menú desplegable.

  3. Haz clic en Crear conexión.

  4. Para ver la información de conexión, selecciona la conexión en el menú de navegación.

explorador de mi conexión

  1. En la sección Información de conexión, copia el ID de la cuenta de servicio. Lo necesitarás en la siguiente sección.

Haz clic en Revisar mi progreso para verificar el objetivo. Crear el recurso de conexión

Tarea 2. Configura el acceso a un data lake de Cloud Storage

En esta sección, le otorgarás al recurso de conexión nuevo acceso de solo lectura al data lake de Cloud Storage para que BigQuery pueda acceder a los archivos en nombre de los usuarios. Recomendamos que otorgues a la cuenta de servicio del recurso de conexión el rol de IAM de Visualizador de objetos de almacenamiento, que permite que la cuenta de servicio acceda a los buckets de Cloud Storage.

  1. En el menú de navegación, ve a IAM y administración > IAM.

  2. Haz clic en OTORGAR ACCESO.

  3. En el campo Principales nuevas, ingresa el ID de cuenta de servicio que copiaste antes.

  4. En el campo Seleccionar un rol, elige Cloud Storage y, luego, Visualizador de objetos de Storage.

cuadro de diálogo para agregar principales

  1. Haz clic en Guardar.
Nota: Después de migrar usuarios a tablas de BigLake, quita los permisos directos de Cloud Storage de los usuarios existentes. El acceso directo a los archivos permite que los usuarios omitan las políticas de administración (como la seguridad a nivel de fila y de columna) establecidas en las tablas de BigLake.

Haz clic en Revisar mi progreso para verificar el objetivo. Configurar el acceso a un data lake de Cloud Storage

Tarea 3. Crea una tabla de BigLake

En el siguiente ejemplo, se usa el formato de archivo CSV, pero puedes usar cualquier formato que admita BigLake, como se muestra en Limitaciones. Si conoces la creación de tablas en BigQuery, este proceso debe ser similar. La única diferencia es que debes especificar la conexión de los recursos en la nube asociados.

Nota: Para obtener un rendimiento óptimo, te recomendamos usar los buckets de una sola región o birregionales de Cloud Storage y no buckets multirregionales.

Si no se proporcionó un esquema y no se le otorgó acceso a la cuenta de servicio al bucket en el paso anterior, este paso fallará con un mensaje de acceso denegado.

Crea un conjunto de datos

  1. Regresa a BigQuery > BigQuery Studio.

  2. Haz clic en los tres puntos que se ubican junto al nombre de tu proyecto y selecciona Crear conjunto de datos.

crear conjunto de datos

  1. Para el ID del conjunto de datos, usa demo_dataset.

  2. En Tipo de ubicación, elige Multirregional y selecciona EE.UU. (varias regiones en Estados Unidos) en el menú desplegable.

  3. Deja el resto de los campos con los valores predeterminados y haz clic en Crear conjunto de datos.

    Ahora que creaste un conjunto de datos, puedes copiar un conjunto de datos existente de Cloud Storage a BigQuery.

Crea la tabla

  1. Haz clic en los tres puntos junto a demo_dataset, luego, elige Crear tabla.

crear-tabla-1

  1. En Fuente para Crear tabla desde, elige Google Cloud Storage.
Nota: Se creó un bucket de Cloud Storage con dos conjuntos de datos que usarás en este lab.
  1. Haz clic en Explorar para seleccionar el conjunto de datos. Navega al bucket llamado y, luego, al archivo customer.csv para importarlo a BigQuery, después, haz clic en Seleccionar.

  2. En Destino, verifica que se seleccionó tu proyecto de lab y que estás utilizando el demo_dataset.

  3. Para el nombre de la tabla, utiliza biglake_table.

  4. Cambia el tipo de tabla a Tabla externa.

  5. Selecciona la casilla para Crear una tabla de BigLake mediante una conexión de Cloud Resource.

    Verifica que tu ID de conexión us.my-connection esté seleccionado. Tu configuración debería ser similar a la siguiente:

tabla de destino

  1. En Esquema, habilita Editar como texto y copia y pega el siguiente esquema en el cuadro de texto:
[ { "name": "customer_id", "type": "INTEGER", "mode": "REQUIRED" }, { "name": "first_name", "type": "STRING", "mode": "REQUIRED" }, { "name": "last_name", "type": "STRING", "mode": "REQUIRED" }, { "name": "company", "type": "STRING", "mode": "NULLABLE" }, { "name": "address", "type": "STRING", "mode": "NULLABLE" }, { "name": "city", "type": "STRING", "mode": "NULLABLE" }, { "name": "state", "type": "STRING", "mode": "NULLABLE" }, { "name": "country", "type": "STRING", "mode": "NULLABLE" }, { "name": "postal_code", "type": "STRING", "mode": "NULLABLE" }, { "name": "phone", "type": "STRING", "mode": "NULLABLE" }, { "name": "fax", "type": "STRING", "mode": "NULLABLE" }, { "name": "email", "type": "STRING", "mode": "REQUIRED" }, { "name": "support_rep_id", "type": "INTEGER", "mode": "NULLABLE" } ] Nota: Normalmente, los data lakes no tienen un esquema predefinido. Para los fines de este lab, usaremos uno para que la configuración de las políticas a nivel de la columna sea más clara.
  1. Haz clic en Crear tabla.

Haz clic en Revisar mi progreso para verificar el objetivo. Crear tabla de BigLake

Tarea 4. Consulta una tabla de BigLake con BigQuery

Ahora que creaste la tabla de BigLake, puedes usar cualquier cliente de BigQuery para enviar una consulta.

  1. En la barra de herramientas de vista previa de biglake_table, haz clic en Consultar > En una pestaña nueva.

  2. Ejecuta lo siguiente para consultar la tabla de BigLake a través del editor de BigQuery:

SELECT * FROM `{{{project_0.project_id|Project ID}}}.demo_dataset.biglake_table`
  1. Haz clic en Ejecutar.

  2. Verifica que puedes ver todas las columnas y los datos en la tabla resultante.

Tarea 5. Configura las políticas de control de acceso

Una vez que se crea una tabla de BigLake, se puede administrar de manera similar que las tablas de BigQuery. Para crear políticas de control de acceso para tablas de BigLake, primero crearás una taxonomía de etiquetas de políticas en BigQuery. Luego, debes aplicar las etiquetas de política a las filas o columnas sensibles. En esta sección, crearás una política a nivel de la columna. Para obtener instrucciones para configurar la seguridad a nivel de fila, consulta la guía de seguridad a nivel de fila.

Para este propósito, se crearon para ti una taxonomía de BigQuery llamada y una etiqueta de política asociada llamada biglake-policy.

Agrega las etiquetas de políticas a las columnas

Ahora, usarás la etiqueta de política que creaste para restringir el acceso a determinadas columnas de la tabla de BigQuery. Para este ejemplo, restringirás el acceso a información sensible, como la dirección, el código postal y el número de teléfono.

  1. En el menú de navegación, ve a BigQuery > BigQuery Studio.

  2. Navega a demo-dataset > biglake_table y haz clic en la tabla para abrir la página del esquema de la tabla.

  3. Haz clic en Editar esquema.

  4. Marca las casillas junto a los campos address, postal_code y phone.

destacar columnas del esquema

  1. Haz clic en Agregar etiqueta de política.

  2. Haz clic en para expandirlo y seleccionar biglake-policy.

agregar etiqueta de política a las columnas

  1. Haz clic en Seleccionar.

    Ahora, tus columnas deben tener adjuntas las etiquetas de política.

etiquetas de política adjuntas

  1. Haz clic en Guardar.

  2. Verifica que tu esquema de tablas ahora se ve de la siguiente manera.

esquema de tabla actualizado

Nota: Las señales de advertencia en las columnas indican que no tienes acceso a esos campos en particular en función de las políticas de seguridad vigentes.

Verifica la seguridad a nivel de la columna

  1. Abre el editor de consultas de biglake_table.

  2. Ejecuta lo siguiente para consultar la tabla de BigLake a través del editor de BigQuery:

SELECT * FROM `{{{project_0.project_id|Project ID}}}.demo_dataset.biglake_table`
  1. Haz clic en Ejecutar.

    Deberías recibir un error de acceso denegado:

error de acceso denegado

  1. Ahora, ejecuta la siguiente consulta, pero omite las columnas a las que no tienes acceso:
SELECT * EXCEPT(address, phone, postal_code) FROM `{{{project_0.project_id|Project ID}}}.demo_dataset.biglake_table`

La consulta debe ejecutarse sin problemas y devolver las columnas a las que tienes acceso. En este ejemplo, se muestra que la seguridad a nivel de la columna aplicada a través de BigQuery también se puede aplicar a tablas de BigLake.

Tarea 6. Actualiza las tablas externas a tablas de BigLake

Para actualizar las tablas existentes a las tablas de BigLake, asocia la tabla existente con una conexión de recursos en la nube. Para obtener una lista completa de marcas y argumentos, consulta bq update y bq mkdef.

Crea la tabla externa

  1. Haz clic en los tres puntos junto a demo_dataset, luego, elige Crear tabla.

  2. En Fuente para Crear tabla desde, elige Google Cloud Storage.

  3. Haz clic en Explorar para seleccionar el conjunto de datos. Navega al bucket denominado y, luego, al archivo invoice.csv para importarlo a BigQuery y haz clic en Seleccionar.

  4. En Destino, verifica que se seleccionó tu proyecto de lab y que estás utilizando el demo_dataset.

  5. Para el nombre de la tabla, utiliza external_table.

  6. Cambia el tipo de tabla a Tabla externa.

Nota: Todavía no especifiques una conexión de recurso de nube.
  1. En Esquema, habilita Editar como texto y copia y pega el siguiente esquema en el cuadro de texto:
[ { "name": "invoice_id", "type": "INTEGER", "mode": "REQUIRED" }, { "name": "customer_id", "type": "INTEGER", "mode": "REQUIRED" }, { "name": "invoice_date", "type": "TIMESTAMP", "mode": "REQUIRED" }, { "name": "billing_address", "type": "STRING", "mode": "NULLABLE" }, { "name": "billing_city", "type": "STRING", "mode": "NULLABLE" }, { "name": "billing_state", "type": "STRING", "mode": "NULLABLE" }, { "name": "billing_country", "type": "STRING", "mode": "NULLABLE" }, { "name": "billing_postal_code", "type": "STRING", "mode": "NULLABLE" }, { "name": "total", "type": "NUMERIC", "mode": "REQUIRED" } ]
  1. Haz clic en Crear tabla.

Haz clic en Revisar mi progreso para verificar el objetivo. Crear la tabla externa

Actualiza la tabla externa a la tabla de BigLake

  1. Abre una nueva ventana de Cloud Shell y ejecuta el siguiente comando para generar una nueva definición de tabla externa que especifique cuál conexión usar:
export PROJECT_ID=$(gcloud config get-value project) bq mkdef \ --autodetect \ --connection_id=$PROJECT_ID.US.my-connection \ --source_format=CSV \ "gs://$PROJECT_ID/invoice.csv" > /tmp/tabledef.json
  1. Verifica que se haya creado tu definición de tabla:
cat /tmp/tabledef.json
  1. Obtén el esquema de tu tabla:
bq show --schema --format=prettyjson demo_dataset.external_table > /tmp/schema
  1. Actualiza la tabla con la definición de tabla externa nueva:
bq update --external_table_definition=/tmp/tabledef.json --schema=/tmp/schema demo_dataset.external_table

Haz clic en Revisar mi progreso para verificar el objetivo. Actualizar la tabla externa a una tabla de BigLake

Verifica la tabla actualizada

  1. En el menú de navegación, ve a BigQuery > BigQuery Studio.

  2. Navega a demo-dataset y haz doble clic en external_table.

  3. Abre la pestaña Detalles.

  4. Verifica en la configuración de datos externos que la tabla ahora esté usando el ID de conexión correcto.

configuración de datos externos

¡Genial! Actualizaste correctamente la tabla externa existente a una tabla de BigLake asociándola a una conexión de recurso de nube.

¡Felicitaciones!

En este lab, creaste un recurso de conexión, configuraste el acceso a un data lake de Cloud Storage y creaste una tabla de BigLake a partir de él. Luego, consultaste la tabla de BigLake a través de BigQuery y configuraste las políticas de control de acceso a nivel de columna. Por último, actualizaste una tabla externa existente a una tabla de BigLake con el recurso de conexión.

Próximos pasos/Más información

Asegúrate de consultar la siguiente documentación para practicar más con BigLake:

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 16 de enero de 2024

Prueba más reciente del lab: 16 de enero de 2024

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible