arrow_back

Datastream: replicação do PostgreSQL para o BigQuery

Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

Datastream: replicação do PostgreSQL para o BigQuery

Laboratório 1 hora universal_currency_alt 1 crédito show_chart Introdutório
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

GSP1052

Laboratórios autoguiados do Google Cloud

Visão geral

No ambiente competitivo de hoje, as organizações precisam tomar decisões de forma fácil e rápida com base em dados coletados em tempo real. O Datastream para BigQuery oferece replicação otimizada de origens de bancos de dados operacionais como AlloyDB, MySQL, PostgreSQL e Oracle diretamente para o BigQuery, o data warehouse sem servidor do Google Cloud. Com arquitetura sem servidor e com escalonamento automático, o Datastream permite configurar facilmente um pipeline ELT (Extract, Load, Transform, ou extrair, carregar e transformar) para a replicação de dados de baixa latência, gerando insights em tempo real.

Neste laboratório prático, você vai implantar um banco de dados do Cloud SQL para PostgreSQL e importar um conjunto de dados de amostra usando a linha de comando gcloud. Na interface, você vai criar e iniciar um fluxo do Datastream e replicar os dados para o BigQuery.

Embora seja possível copiar e colar os comandos do laboratório no local adequado, os estudantes precisam digitá-los para reforçar o aprendizado dos conceitos principais.

Atividades deste laboratório

  • Preparar uma instância do Cloud SQL para PostgreSQL usando o console do Google Cloud
  • Importar dados para a instância do Cloud SQL
  • Criar um perfil de conexão do Datastream para o banco de dados do PostgreSQL
  • Criar um perfil de conexão do Datastream para o destino do BigQuery
  • Criar um fluxo do Datastream e começar a replicação
  • Validar se os dados existentes e as alterações foram replicados corretamente para o BigQuery

Pré-requisitos

  • Familiaridade com ambientes Linux padrão
  • Familiaridade com conceitos de captura de dados alterados (CDC, na sigla em inglês)

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:

    • O botão Abrir console do Google Cloud
    • O tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

    O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.

    {{{user_0.username | "Nome de usuário"}}}

    Você também encontra o Nome de usuário no painel Detalhes do laboratório.

  4. Clique em Seguinte.

  5. Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.

    {{{user_0.password | "Senha"}}}

    Você também encontra a Senha no painel Detalhes do laboratório.

  6. Clique em Seguinte.

    Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  7. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: clique em Menu de navegação no canto superior esquerdo para acessar uma lista de produtos e serviços do Google Cloud. Ícone do menu de navegação

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

  1. Clique em Ativar o Cloud Shell Ícone "Ativar o Cloud Shell" na parte de cima do console do Google Cloud.

Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

  1. (Opcional) É possível listar o nome da conta ativa usando este comando:
gcloud auth list
  1. Clique em Autorizar.

  2. A saída será parecida com esta:

Saída:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcional) É possível listar o ID do projeto usando este comando:
gcloud config list project

Saída:

[core] project = <project_ID>

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6 Observação: para conferir a documentação completa da gcloud, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.

Tarefa 1: criar um banco de dados para replicação

Nesta seção, você vai preparar um banco de dados do Cloud SQL para PostgreSQL para replicação pelo Datastream.

Criar o banco de dados do Cloud SQL

  1. Execute o seguinte comando para ativar a API Cloud SQL:
gcloud services enable sqladmin.googleapis.com
  1. Execute o seguinte comando para criar uma instância de banco de dados do Cloud SQL para PostgreSQL:
POSTGRES_INSTANCE=postgres-db DATASTREAM_IPS={{{project_0.startup_script.ip_Address | IP_ADDRESS}}} gcloud sql instances create ${POSTGRES_INSTANCE} \ --database-version=POSTGRES_14 \ --cpu=2 --memory=10GB \ --authorized-networks=${DATASTREAM_IPS} \ --region={{{project_0.default_region|REGION}}} \ --root-password pwd \ --database-flags=cloudsql.logical_decoding=on Observação: esse comando cria o banco de dados em . Para outras regiões, substitua DATASTREAM_IPS pelos IPs públicos do Datastream certos para sua região.

Após a criação da instância, anote o IP público dela. Você vai precisar dele mais tarde ao criar o perfil de conexão do Datastream.

Clique em Verificar meu progresso para conferir o objetivo.

Criar um banco de dados para replicação

Preencher o banco de dados com os dados de amostra

Conecte-se ao banco de dados do PostgreSQL executando o seguinte comando no Cloud Shell.

gcloud sql connect postgres-db --user=postgres

Quando a senha for solicitada, digite pwd.

Após se conectar ao banco de dados, execute o seguinte comando SQL para criar um esquema de amostra e uma tabela:

CREATE SCHEMA IF NOT EXISTS test; CREATE TABLE IF NOT EXISTS test.example_table ( id SERIAL PRIMARY KEY, text_col VARCHAR(50), int_col INT, date_col TIMESTAMP ); ALTER TABLE test.example_table REPLICA IDENTITY DEFAULT; INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('hello', 0, '2020-01-01 00:00:00'), ('goodbye', 1, NULL), ('name', -987, NOW()), ('other', 2786, '2021-01-01 00:00:00');

Configurar o banco de dados para replicação

  • Execute o seguinte comando SQL para criar uma publicação e um slot de replicação:
CREATE PUBLICATION test_publication FOR ALL TABLES; ALTER USER POSTGRES WITH REPLICATION; SELECT PG_CREATE_LOGICAL_REPLICATION_SLOT('test_replication', 'pgoutput');

Tarefa 2: criar os recursos do Datastream e começar a replicação

Agora que o banco de dados está pronto, crie os perfis de conexão e o fluxo do Datastream para começar a replicação.

  1. No menu de navegação, clique em Mostrar todos os produtos. Em Análise, selecione Datastream

  2. Clique em Ativar para ativar a API Datastream.

64c95a330abbceb6.png

Criar perfis de conexão

Crie dois perfis de conexão, um para a origem do PostgreSQL e outro para o destino do BigQuery.

Perfil de conexão do PostgreSQL

  1. No console do Cloud, navegue até a guia Perfis de conexão e clique em Criar perfil.
página &quot;Perfis de conexão&quot; com o link &quot;Criar perfil&quot; no canto superior direito
  1. Selecione o tipo de perfil PostgreSQL.
o bloco &quot;PostgreSQL&quot; é uma das opções mostradas
  1. Use postgres-cp como nome e ID do perfil de conexão.

  2. Digite os detalhes de conexão do banco de dados:

  • Região:
  • O IP e a porta da instância do Cloud SQL criada anteriormente
  • Nome de usuário: postgres
  • Senha: pwd
  • Banco de dados: postgres
  1. Clique em Continuar.

  2. Deixe a criptografia como NENHUMA e clique em CONTINUAR.

  3. Selecione o método de conectividade Lista de permissões de IP e clique em Continuar.

  4. Clique em EXECUTAR TESTE para garantir que o Datastream pode alcançar o banco de dados.

  5. Clique em Criar.

Perfil de conexão do BigQuery

  1. No console do Cloud, navegue até a guia Perfis de conexão e clique em Criar perfil.
página &quot;Perfis de conexão&quot; com o link &quot;Criar perfil&quot; no canto superior direito
  1. Selecione o tipo de perfil BigQuery.
o bloco &quot;BigQuery&quot; é uma das opções mostradas
  1. Use bigquery-cp como nome e ID do perfil de conexão.

  2. Região

  3. Clique em Criar.

Criar fluxo

Crie o fluxo que conecta os perfis de conexão criados acima e define a configuração do fluxo de dados da origem até o destino.

  • No console do Cloud, navegue até a guia Fluxos e clique em Criar fluxo.
guia &quot;Fluxos&quot; com o link &quot;Criar fluxo&quot; no canto superior direito

Definir os detalhes do fluxo

  1. Use test-stream como nome e ID do fluxo.
  2. Região
  3. Selecione PostgreSQL como tipo de origem
  4. Selecione BigQuery como tipo de destino
  5. Clique em CONTINUAR.
etapa 1 da página de detalhes da criação de fluxo preenchida

Definir a origem

  1. Selecione o perfil de conexão postgres-cp criado na etapa anterior.
  2. [Opcional] Teste a conectividade clicando em EXECUTAR TESTE.
  3. Clique em CONTINUAR.
etapa 2 da página de criação de fluxo preenchida

Configurar a origem

  1. Especifique o nome do slot de replicação como test_replication.
  2. Especifique o nome de publicação como test_publication.
etapa 3 da página de criação de fluxo preenchida
  1. Selecione o esquema test para replicação.
o esquema &quot;test&quot; selecionado entre várias opções
  1. Clique em Continuar.

Definir o destino

  • Selecione o perfil de conexão bigquery-cp criado na etapa anterior e clique em Continuar.
etapa 4 da página de criação de fluxo com &quot;bigquery-cp&quot; selecionado

Configurar o destino

  1. Escolha "Região" e selecione como local do conjunto de dados do BigQuery.
  2. Defina o limite de inatividade como 0 segundo.
etapa 5 da página de criação de fluxo com a localização selecionada
  1. Clique em Continuar.

Revisar e criar o fluxo

  • Por fim, valide os detalhes do fluxo clicando em EXECUTAR VALIDAÇÃO. Quando a validação for concluída, clique em CRIAR E COMEÇAR.
resultados da validação com marcas de seleção verdes

Aguarde aproximadamente 1 a 2 minutos até que o status do fluxo seja mostrado como "Em execução".

Clique em Verificar meu progresso para conferir o objetivo.

Criar os recursos do Datastream

Tarefa 3: visualizar os dados no BigQuery

Agora que o fluxo está em execução, confira a replicação dos dados para o conjunto de dados do BigQuery.

  1. No menu de navegação do console do Google Cloud, acesse BigQuery.
  2. No explorador do BigQuery Studio, abra o nó do projeto para ver a lista de bancos de dados.
  3. Abra o nó de banco de dados test.
  4. Clique na tabela example_table.
  5. Clique na guia VISUALIZAR para ver os dados no BigQuery.
Observação: pode levar alguns minutos para os dados aparecerem na seção Visualizar. página do explorador do BigQuery com &quot;example_table&quot; visível

Tarefa 4: verificar se as mudanças na origem são replicadas para o BigQuery

  1. Execute o seguinte comando no Cloud Shell para se conectar ao banco de dados do Cloud SQL (a senha é pwd):
gcloud sql connect postgres-db --user=postgres
  1. Execute os seguintes comandos SQL para fazer algumas alterações nos dados:
INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('abc', 0, '2022-10-01 00:00:00'), ('def', 1, NULL), ('ghi', -987, NOW()); UPDATE test.example_table SET int_col=int_col*2; DELETE FROM test.example_table WHERE text_col = 'abc';
  1. Abra o espaço de trabalho do BigQuery SQL e execute a seguinte consulta para ver as mudanças no BigQuery:
SELECT * FROM test.example_table ORDER BY id; resultados da consulta

Parabéns!

O Datastream é um recurso importante de integração e análise de dados. Você aprendeu os conceitos básicos de replicação do PostgreSQL para o BigQuery com o Datastream.

Manual atualizado em 23 de agosto de 2024

Laboratório testado em 23 de agosto de 2024

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível