Acesse mais de 700 laboratórios e cursos

Criar e executar conectores do MySQL e do PostgreSQL para o Data Catalog

Laboratório 1 hora universal_currency_alt 1 crédito show_chart Introdutório

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

GSP814
Visão geral
Configuração e requisitos
Tarefa 1. Ativar a API Data Catalog
Tarefa 2. PostgreSQL para Dataplex
Tarefa 3. MySQL para Dataplex
Parabéns!

Acesse mais de 700 laboratórios e cursos

O Data Catalog foi descontinuado e não estará mais disponível a partir de 30 de janeiro de 2026. Você ainda pode concluir este laboratório, se quiser.

Para saber como fazer a transição dos usuários, das cargas de trabalho e do conteúdo do Data Catalog para o Dataplex Catalog, consulte "Fazer a transição do Data Catalog para o Dataplex Catalog" (https://cloud.google.com/dataplex/docs/transition-to-dataplex-catalog).

GSP814

Visão geral

O Dataplex é a malha de dados inteligente que as organizações usam para conhecer, gerenciar, monitorar e supervisionar em um só lugar os dados em data lakes, data warehouses e data marts permitindo análises em larga escala.

O Data Catalog é um serviço de metadados totalmente gerenciado e escalonável no Dataplex. Ele tem uma interface de pesquisa simples e fácil de usar para descoberta de dados, um sistema de catalogação flexível e avançado para capturar metadados técnicos e comerciais, além de uma base sólida de segurança e conformidade com Cloud Data Loss Prevention (parte da Proteção de dados sensíveis) e integrações com o Identity and Access Management (IAM).

Como usar o Data Catalog

Com o Data Catalog no Dataplex, é possível pesquisar ativos a que você tem acesso e marcar ativos de dados para dar suporte à descoberta e ao controle de acesso. As tags permitem anexar campos de metadados personalizados a recursos de dados específicos para fácil identificação e recuperação (por exemplo, marcar que determinados recursos têm dados protegidos ou sensíveis). Também é possível criar modelos de tags reutilizáveis para atribuição rápida das mesmas tags a diferentes recursos de dados.

O que você vai aprender

Neste laboratório, você vai aprender a:

ativar a API Data Catalog;
configurar os conectores do Dataplex para PostgreSQL e MySQL;
pesquisar as entradas do PostgreSQL e do MySQL no Data Catalog do Dataplex.

Pré-requisitos

Observação: antes de iniciar este laboratório, saia da sua conta pessoal ou corporativa do Gmail ou faça o laboratório usando a navegação anônima. Isso evita problemas de login durante o laboratório.

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

Acesso a um navegador de Internet padrão (recomendamos o Chrome).

Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.

Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.

Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.

Como iniciar seu laboratório e fazer login no console do Google Cloud

Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento. No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.

Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
Clique em Próxima.
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.
Clique nas seguintes janelas:
- Continue na janela de informações do Cloud Shell.
- Autorize o Cloud Shell a usar suas credenciais para fazer chamadas de APIs do Google Cloud.

Depois de se conectar, você verá que sua conta já está autenticada e que o projeto está configurado com seu Project_ID, . A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

A gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

(Opcional) É possível listar o nome da conta ativa usando este comando:

gcloud auth list

Clique em Autorizar.

Saída:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`

(Opcional) É possível listar o ID do projeto usando este comando:

gcloud config list project

Saída:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}}

Observação: consulte a documentação completa da gcloud no Google Cloud no guia de visão geral da gcloud CLI.

Tarefa 1. Ativar a API Data Catalog

No console do Google Cloud, clique no Menu de navegação () > APIs e serviços > Biblioteca.
Na barra de pesquisa, digite Data Catalog e selecione a API Data Catalog do Google Cloud.
Clique em Ativar.

Observação: se você encontrar o erro "Falha ao realizar a ação" após tentar ativar a API Data Catalog, clique em Fechar, atualize a guia do navegador e clique de novo em Ativar.

Clique em Verificar meu progresso para conferir o objetivo. Ativar a API Data Catalog

Tarefa 2. PostgreSQL para Dataplex

Criar uma variável para o ID do projeto

No Cloud Shell, execute o seguinte comando para definir o ID do projeto como uma variável de ambiente:

export PROJECT_ID=$(gcloud config get-value project)

Criar o banco de dados do PostgreSQL

Execute este comando para clonar o repositório do GitHub:

gsutil cp gs://spls/gsp814/cloudsql-postgresql-tooling.zip . unzip cloudsql-postgresql-tooling.zip

Mude o diretório de trabalho para o do repositório clonado:

cd cloudsql-postgresql-tooling/infrastructure/terraform

Execute os seguintes comandos para mudar a região e a zona de us-central1 e us-central1-a para a região e a zona padrão atribuídas a você:

export REGION={{{project_0.default_region|REGION}}} sed -i "s/us-central1/$REGION/g" variables.tf

export ZONE={{{project_0.default_zone|ZONE}}} sed -i "s/$REGION-a/$ZONE/g" variables.tf

Execute o script init-db.sh:

cd ~/cloudsql-postgresql-tooling bash init-db.sh

Isso cria e preenche a instância do PostgreSQL com um esquema aleatório. Esse processo pode levar de 10 a 15 minutos para ser concluído.

Observação: se Error: Failed to load "tfplan" as a plan file for exibido, execute de novo o script init-db.

Logo depois, você receberá a seguinte resposta:

CREATE TABLE factory_warehouse69945.home17e97c57 ( house57588 DATE, paragraph64180 SMALLINT, ip_address61569 JSONB, date_time44962 REAL, food19478 JSONB, state8925 VARCHAR(25), cpf75444 REAL, date_time96090 SMALLINT, reason7955 CHAR(5), phone_number96292 INT, size97593 DATE, date_time609 CHAR(5), location70431 DATE ) COMPLETED

Clique em Verificar meu progresso para conferir o objetivo. Criar o banco de dados do PostgreSQL

Configurar a conta de serviço

Crie uma conta de serviço:

gcloud iam service-accounts create postgresql2dc-credentials \ --display-name "Service Account for PostgreSQL to Data Catalog connector" \ --project $PROJECT_ID

Crie e faça o download da chave da conta de serviço:

gcloud iam service-accounts keys create "postgresql2dc-credentials.json" \ --iam-account "postgresql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com"

Agora adicione o papel de admin do Data Catalog à conta de serviço:

gcloud projects add-iam-policy-binding $PROJECT_ID \ --member "serviceAccount:postgresql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com" \ --quiet \ --project $PROJECT_ID \ --role "roles/datacatalog.admin"

Clique em Verificar meu progresso para conferir o objetivo. Criar uma conta de serviço para o PostgreSQL

Executar o conector do PostgreSQL para o Dataplex

Acesse este repositório do GitHub para criar o conector PostgreSQL por conta própria.

Para facilitar a utilização, este laboratório usa uma imagem Docker.

As variáveis necessárias foram geradas pela configuração do Terraform.

Migre os diretórios para o local dos scripts do Terraform:

cd infrastructure/terraform/

Copie as seguintes variáveis de ambiente:

public_ip_address=$(terraform output -raw public_ip_address) username=$(terraform output -raw username) password=$(terraform output -raw password) database=$(terraform output -raw db_name)

Retorne ao diretório raiz do exemplo de código:

cd ~/cloudsql-postgresql-tooling

Execute o conector:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/postgresql2datacatalog:stable \ --datacatalog-project-id=$PROJECT_ID \ --datacatalog-location-id=$REGION \ --postgresql-host=$public_ip_address \ --postgresql-user=$username \ --postgresql-pass=$password \ --postgresql-database=$database

Logo depois, você receberá a seguinte resposta:

============End postgresql-to-datacatalog============

Clique em Verificar meu progresso para conferir o objetivo. Executar o conector PostgreSQL para o Data Catalog

Confira os resultados do script

Acesse o Dataplex no console do Google Cloud clicando no Menu de navegação () > Mostrar todos os produtos > Analytics > Dataplex.
Clique em Modelos de tag.

Os seguintes modelos de tag postgresql vão aparecer:

Clique em Grupos de entradas.

O seguinte grupo de entradas postgresql vai aparecer:

Clique no grupo de entradas postgresql. Seu console mostrará o seguinte:

Essa é a vantagem real de um grupo de entradas: as entradas do postgresql são exibidas na interface.

Clique em uma das entradas de warehouse. Confira os detalhes e as tags da entrada personalizada:

Essa é a vantagem real do conector: ele permite pesquisar os metadados no Dataplex.

Limpar

Para excluir os recursos criados, execute o seguinte comando, que remove os metadados do PostgreSQL:

./cleanup-db.sh

Execute o contêiner mais limpo:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/postgresql-datacatalog-cleaner:stable \ --datacatalog-project-ids=$PROJECT_ID \ --rdbms-type=postgresql \ --table-container-type=schema

Por último, exclua o banco de dados do PostgreSQL:

./delete-db.sh

No menu do Dataplex, em Descobrir, clique na página Pesquisar.
Na barra de pesquisa, insira PostgreSQL e clique em Pesquisar.

Os modelos de tag do PostgreSQL não aparecem mais nos resultados:

Verifique se a seguinte resposta aparece no Cloud Shell antes de continuar:

Cloud SQL Instance deleted COMPLETED

Em seguida, você vai aprender a fazer o mesmo com uma instância do MySQL.

Tarefa 3. MySQL para Dataplex

Criar o banco de dados do MySQL

Execute o seguinte comando no Cloud Shell para retornar ao diretório principal:

Execute o seguinte comando para fazer o download dos scripts para criar e preencher a instância do MySQL:

gsutil cp gs://spls/gsp814/cloudsql-mysql-tooling.zip . unzip cloudsql-mysql-tooling.zip

Mude o diretório de trabalho para o do repositório clonado:

cd cloudsql-mysql-tooling/infrastructure/terraform

Execute os seguintes comandos para mudar a região e a zona de us-central1 e us-central1-a para a região e a zona padrão atribuídas a você:

export REGION={{{project_0.default_region|REGION}}} sed -i "s/us-central1/$REGION/g" variables.tf

export ZONE={{{project_0.default_zone|ZONE}}} sed -i "s/$REGION-a/$ZONE/g" variables.tf

Execute o script init-db.sh:

cd ~/cloudsql-mysql-tooling bash init-db.sh

Isso cria e preenche a instância do MySQL com um esquema aleatório. Depois de alguns minutos, você receberá a seguinte resposta:

CREATE TABLE factory_warehouse14342.persons88a5ebc4 ( address9634 TEXT, cpf12934 FLOAT, food88799 BOOL, food4761 LONGTEXT, credit_card44049 FLOAT, city8417 TINYINT, name76076 DATETIME, address19458 TIME, reason49953 DATETIME ) COMPLETED

Observação: se a mensagem Error: Failed to load "tfplan" as a plan file for exibida, execute de novo o script init-db.

Clique em Verificar meu progresso para conferir o objetivo. Criar o banco de dados do MySQL