Puntos de control
Create a database for replication
/ 50
Create the Datastream resources
/ 50
Datastream: Replicación de PostgreSQL en BigQuery
GSP1052
Descripción general
En el entorno competitivo de la actualidad, las organizaciones deben poder tomar decisiones basadas en datos en tiempo real de forma rápida y fácil. Datastream para BigQuery ofrece la replicación continua de fuentes de bases de datos operativas, como AlloyDB, MySQL, PostgreSQL y Oracle, directamente a BigQuery, el almacén de datos sin servidores de Google Cloud. Gracias a su arquitectura de ajuste de escala automático y sin servidores, Datastream permite configurar fácilmente una canalización ELT (es decir, de extracción, carga, transformación) para la replicación de datos de baja latencia con el objetivo de obtener estadísticas en tiempo real.
En este lab práctico, implementarás una base de datos de Cloud SQL para PostgreSQL y, luego, importarás un conjunto de datos de muestra con la línea de comandos de gcloud
. A través del uso de la IU, crearás e iniciarás una transmisión de Datastream y replicarás los datos en BigQuery.
Aunque puedes copiar comandos del lab y pegarlos en el lugar apropiado fácilmente, los estudiantes deberían escribir los comandos para reforzar su comprensión de los conceptos básicos.
Actividades
- Preparar una instancia de Cloud SQL para PostgreSQL con la consola de Google Cloud
- Importar datos a una instancia de Cloud SQL
- Crear un perfil de conexión de Datastream para la base de datos de PostgreSQL
- Crear un perfil de conexión de Datastream para el destino de BigQuery
- Crear una transmisión de Datastream e iniciar la replicación
- Validar que los datos existentes y los cambios se repliquen correctamente en BigQuery
Requisitos previos
- Conocimiento de los entornos estándar de Linux
- Conocimiento de los conceptos de captura de datos modificados (CDC)
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Activa Cloud Shell
Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.
- Haz clic en Activar Cloud Shell en la parte superior de la consola de Google Cloud.
Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:
gcloud
es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.
- Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
-
Haz clic en Autorizar.
-
Ahora, el resultado debería verse de la siguiente manera:
Resultado:
- Puedes solicitar el ID del proyecto con este comando (opcional):
Resultado:
Resultado de ejemplo:
gcloud
, consulta la guía con la descripción general de gcloud CLI en Google Cloud.
Tarea 1. Crea una base de datos para la replicación
En esta sección, prepararás una base de datos de Cloud SQL para PostgreSQL con el objetivo de llevar a cabo la replicación con Datastream.
Crea la base de datos de Cloud SQL
- Ejecuta el siguiente comando para habilitar la API de Cloud SQL:
- Ejecuta el siguiente comando para crear una instancia de la base de datos de Cloud SQL para PostgreSQL:
DATASTREAM_IPS
por las IP públicas de Datastream de tu región.
Después de crear la instancia de la base de datos, toma nota de su IP pública, ya que la necesitarás cuando crees el perfil de conexión de Datastream.
Haz clic en Revisar mi progreso para verificar el objetivo.
Completa la base de datos con datos de muestra
Ejecuta el siguiente comando en Cloud Shell para conectarte a la base de datos de PostgreSQL.
Cuando se te solicite la contraseña, ingresa pwd
.
Una vez que te hayas conectado a la base de datos, ejecuta el siguiente comando de SQL para crear un esquema y una tabla de muestra:
Configura la base de datos para la replicación
- Ejecuta el siguiente comando de SQL para crear una publicación y una ranura de replicación:
Tarea 2. Crea los recursos de Datastream e inicia la replicación
Ahora que la base de datos ya está lista, crea los perfiles de conexión de Datastream y comienza a transmitir para iniciar la replicación.
-
Desde el menú de navegación, haz clic en Ver todos los productos. En Análisis, selecciona Datastream.
-
Haz clic en Habilitar para habilitar la API de Datastream.
Crea perfiles de conexión
Crea dos perfiles de conexión, uno para la fuente de PostgreSQL y otro para el destino de BigQuery.
Perfil de conexión de PostgreSQL
- En la consola de Cloud, ve a la pestaña Perfiles de conexión y haz clic en Crear perfil.
- Selecciona el tipo de perfil de conexión PostgreSQL.
-
Usa
postgres-cp
como el nombre y el ID del perfil de conexión. -
Ingresa los detalles de la conexión a la base de datos:
- Región:
- La IP y el puerto de la instancia Cloud SQL que creaste antes
- Nombre de usuario:
postgres
- Contraseña:
pwd
- Base de datos:
postgres
-
Haz clic en Continuar.
-
En la opción de encriptación deja NINGUNA y haz clic en CONTINUAR.
-
Selecciona el método de conectividad Incluir en la lista de IP permitidas y haz clic en Continuar.
-
Haz clic en EJECUTAR PRUEBA para asegurarte de que Datastream pueda conectarse a la base de datos.
-
Haz clic en Crear.
Perfil de conexión de BigQuery
- En la consola de Cloud, ve a la pestaña Perfiles de conexión y haz clic en Crear perfil.
- Selecciona el tipo de perfil de conexión BigQuery.
-
Usa
bigquery-cp
como el nombre y el ID del perfil de conexión. -
Región
-
Haz clic en Crear.
Crea una transmisión
Crea una transmisión para conectar los perfiles de conexión que creaste antes y definir la configuración de los datos que se deben transmitir de la fuente al destino.
- En la consola de Cloud, ve a la pestaña Transmisiones y haz clic en Crear transmisión.
Define los detalles de la transmisión
- Usa
test-stream
como el nombre y el ID de la transmisión. - Región
- Selecciona PostgreSQL como el tipo de fuente.
- Selecciona BigQuery como el tipo de destino.
- Haz clic en CONTINUAR.
Define la fuente
- Selecciona el perfil de conexión postgres-cp que creaste en el paso anterior.
- [Opcional] Haz clic en EJECUTAR PRUEBA para comprobar la conectividad.
- Haz clic en CONTINUAR.
Configura la fuente
- Ingresa el nombre
test_replication
para la ranura de replicación. - Ingresa el nombre
test_publication
para la publicación.
- Selecciona el esquema test para la replicación.
- Haz clic en Continuar.
Define el destino
- Selecciona el perfil de conexión bigquery-cp que creaste en el paso anterior y haz clic en Continuar.
Configura el destino
- Selecciona la opción Región y
como la ubicación del conjunto de datos de BigQuery. - Configura el límite de inactividad en 0 segundos.
- Haz clic en Continuar.
Revisa los detalles y crea la transmisión
- Por último, haz clic en EJECUTAR VALIDACIÓN para validar los detalles de la transmisión. Una vez que finalice correctamente, haz clic en CREAR E INICIAR.
En aproximadamente 1 o 2 minutos, el estado de la transmisión aparecerá como En ejecución.
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 3. Visualiza los datos en BigQuery
Ahora que la transmisión está en ejecución, observa cómo los datos se replican en el conjunto de datos de BigQuery.
- En la consola de Google Cloud, desde el menú de navegación ve a BigQuery.
- En el explorador de BigQuery Studio, expande el nodo del proyecto para ver la lista de conjuntos de datos.
- Expande el nodo del conjunto de datos test.
- Haz clic en la tabla example_table.
- Haz clic en la pestaña VISTA PREVIA para ver los datos en BigQuery.
Tarea 4. Comprueba que los cambios en la fuente se repliquen en BigQuery
- Ejecuta el siguiente comando en Cloud Shell para conectarte a la base de datos de Cloud SQL (la contraseña es
pwd
):
- Ejecuta los siguientes comandos de SQL para aplicar cambios en los datos:
- Abre el espacio de trabajo de SQL de BigQuery y ejecuta la siguiente consulta para ver los cambios en BigQuery:
¡Felicitaciones!
Datastream es una herramienta importante para la integración y el análisis de los datos. Aprendiste aspectos básicos de la replicación de PostgreSQL a BigQuery con Datastream.
Última actualización del manual: 23 de agosto de 2024
Prueba más reciente del lab: 23 de agosto de 2024
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.