arrow_back

Como avaliar a qualidade dos dados com o Dataplex

Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

Como avaliar a qualidade dos dados com o Dataplex

Laboratório 1 hora 30 minutos universal_currency_alt 1 crédito show_chart Introdutório
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

GSP1158

Laboratórios autoguiados do Google Cloud

Visão geral

O Dataplex é a malha de dados inteligente que as organizações usam para conhecer, gerenciar, monitorar e supervisionar em um só lugar os dados em data lakes, data warehouses e data marts, permitindo análises em escala.

O Dataplex inclui uma funcionalidade muito útil para configurar e executar verificações de qualidade de dados em recursos do Dataplex, como tabelas do BigQuery e arquivos do Cloud Storage. Assim, é possível integrar tarefas de qualidade de dados do Dataplex nos fluxos de trabalho diários ao validar dados do pipeline de produção, monitorar regularmente a qualidade dos dados de acordo com um conjunto de critérios e criar relatórios de qualidade de dados voltados aos requisitos regulatórios.

Neste laboratório, você vai aprender a avaliar a qualidade dos dados com o Dataplex criando um arquivo personalizado de especificação de qualidade para configurar e executar um job de verificação nos dados do BigQuery.

Atividades deste laboratório

  • Criar um data lake, uma zona e um recurso do Dataplex
  • Revisar a qualidade dos dados em uma tabela do BigQuery
  • Criar e fazer o upload de um arquivo de especificação de qualidade de dados
  • Definir e executar um job de qualidade de dados
  • Analisar os resultados de um job de qualidade de dados

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:

    • O botão Abrir console do Google Cloud
    • O tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

    O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.

    {{{user_0.username | "Nome de usuário"}}}

    Você também encontra o Nome de usuário no painel Detalhes do laboratório.

  4. Clique em Seguinte.

  5. Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.

    {{{user_0.password | "Senha"}}}

    Você também encontra a Senha no painel Detalhes do laboratório.

  6. Clique em Seguinte.

    Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  7. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: clique em Menu de navegação no canto superior esquerdo para acessar uma lista de produtos e serviços do Google Cloud. Ícone do menu de navegação

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

  1. Clique em Ativar o Cloud Shell Ícone "Ativar o Cloud Shell" na parte de cima do console do Google Cloud.

Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

  1. (Opcional) É possível listar o nome da conta ativa usando este comando:
gcloud auth list
  1. Clique em Autorizar.

  2. A saída será parecida com esta:

Saída:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcional) É possível listar o ID do projeto usando este comando:
gcloud config list project

Saída:

[core] project = <project_ID>

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6 Observação: para conferir a documentação completa da gcloud, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.

Ativar a API Dataproc

  1. No console do Google Cloud, insira API Cloud Dataproc na barra de pesquisa na parte de cima.

  2. Clique no resultado para API Cloud Dataproc no Marketplace.

  3. Selecione Ativar.

Tarefa 1: criar um data lake, uma zona e um recurso no Dataplex

Para configurar e executar tarefas de qualidade de dados, primeiro é preciso criar alguns recursos do Dataplex.

Nessa tarefa, crie um novo data lake do Dataplex para armazenar informações do cliente de e-commerce, adicione uma zona bruta ao data lake e depois anexe um conjunto de dados pré-criado do BigQuery como um novo recurso na zona.

Criar um lake

  1. No Menu de navegação do console do Google Cloud (Menu de navegação), acesse Analytics > Dataplex.

Se a mensagem Conheça a nova experiência do Dataplex for exibida, clique em Fechar.

  1. Em Gerenciar lakes, clique em Gerenciar.

  2. Clique em Criar lake.

  3. Insira as informações necessárias para criar um novo lake:

Propriedade Valor
Nome de exibição Lake de e-commerce
ID Mantenha o valor padrão.
Região

Não altere os outros valores.

  1. Clique em Criar.

A criação do lake pode levar até três minutos.

Adicionar uma zona ao lake

  1. Na guia Gerenciar, clique no nome do seu lake.

  2. Clique em Adicionar zona.

  3. Insira as informações necessárias para criar uma nova zona:

Propriedade Valor
Nome de exibição Zona bruta de contato com o cliente
ID Mantenha o valor padrão.
Tipo Zona bruta
Locais dos dados Regional

Não altere os outros valores.

Por exemplo, a opção Ativar descoberta de metadados em Configurações de descoberta está ativada por padrão e permite que usuários autorizados encontrem os dados na zona.

  1. Clique em Criar.

Pode levar até dois minutos para a criação da zona.

Realize a próxima tarefa quando o status da zona mudar para Ativo.

Anexar um recurso a uma zona

  1. Na guia Zonas, clique no nome da sua zona.

  2. Na guia Recursos, clique em Adicionar recursos.

  3. Clique em Adicionar um recurso.

  4. Insira as informações necessárias para anexar um novo recurso:

Propriedade Valor
Tipo Conjunto de dados do BigQuery
Nome de exibição Dados de contato
ID Mantenha o valor padrão.
Conjunto de dados .customers

Não altere os outros valores.

  1. Clique em Concluído.

  2. Clique em Continuar.

  3. Em Configurações de descoberta, selecione Herdar para herdar as configurações de descoberta no nível da zona e clique em Continuar.

  4. Clique em Enviar.

Clique em Verificar meu progresso para conferir o objetivo. Criar um data lake, uma zona e um recurso no Dataplex

Tarefa 2: revisar a qualidade dos dados em uma tabela do BigQuery

Na tarefa anterior, você criou um novo recurso do Dataplex com um conjunto de dados do BigQuery chamado customers que foi pré-gerado para este laboratório. Esse conjunto de dados inclui uma tabela chamada contact_info com informações de contatos brutos de clientes de uma empresa fictícia de e-commerce.

Nessa tarefa, consulte a tabela para identificar possíveis problemas de qualidade de dados que podem ser incluídos como verificações em um job desse tipo. Você também detecta outro conjunto pré-criado que pode ser usado para armazenar resultados daquele job em uma tarefa posterior.

  1. No console do Google Cloud, abra o Menu de navegação (Menu de navegação), navegue para BigQuery > SQL Workspace.

  2. No painel "Explorador", expanda a seta ao lado do ID do projeto para listar o conteúdo:

Além do customer_contact_raw_zone criado pelo Dataplex para gerenciar essa zona, também foram criados dois conjuntos de dados do BigQuery para este laboratório:

  • customers
  • customers_dq_dataset

O conjunto de dados customers inclui uma tabela contact_info com dados de contato de clientes, como ID, nome, e-mail e muito mais. É essa tabela que você vai analisar em busca de problemas de qualidade de dados neste laboratório.

O conjunto de dados denominado clients_dq_dataset não tem nenhuma tabela. Ao criar um job de qualidade de dados em uma tarefa posterior, você vai usar esse conjunto como destino para uma nova tabela contendo os resultados do job.

Lista de conjuntos de dados do BigQuery

  1. No Editor SQL, clique em Escrever nova consulta. Cole a seguinte consulta e clique em Executar:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

Essa consulta seleciona 50 registros da tabela original e ordena os registros pelo ID do cliente nos resultados.

  1. Confira as descobertas no painel Resultados.

Alguns registros não têm IDs de clientes ou estão com os e-mails incorretos, o que pode dificultar a ordenação.

Dados incompletos na tabela contact-info

Clique em Verificar meu progresso para conferir o objetivo. Revisar a qualidade dos dados em uma tabela do BigQuery

Tarefa 3: criar e fazer o upload de um arquivo de especificação de qualidade de dados

Os requisitos de verificação de qualidade de dados do Dataplex são definidos nos arquivos de especificação YAML do CloudDQ. Depois de criar, esse arquivo é enviado para um bucket do Cloud Storage que fica acessível ao job de qualidade de dados.

O arquivo YAML tem quatro seções principais:

  • Uma lista de regras a serem executadas (regras predefinidas ou personalizadas)
  • Filtros de linha para selecionar um subconjunto de dados para validação
  • Vinculações de regras para aplicar as regras definidas à(s) tabela(s)
  • Dimensões de regra opcionais para especificar os tipos de regras que o arquivo YAML pode incluir

Nessa tarefa, você define um novo arquivo de especificação YAML para verificações de qualidade de dados que detectam IDs de cliente e e-mails nulos na tabela especificada do BigQuery. Depois de escolher o arquivo, faça o upload dele em um bucket pré-criado do Cloud Storage para uso em uma tarefa posterior de checagem de qualidade de dados.

Criar o arquivo de especificação de qualidade de dados

  1. No Cloud Shell, execute o seguinte comando para criar um novo arquivo vazio de especificação de qualidade de dados:
nano dq-customer-raw-data.yaml
  1. Cole o seguinte código:
metadata_registry_defaults: dataplex: projects: {{{project_0.project_id | Project ID}}} locations: {{{project_0.default_region | Region}}} lakes: ecommerce-lake zones: customer-contact-raw-zone row_filters: NONE: filter_sql_expr: |- True INTERNATIONAL_ITEMS: filter_sql_expr: |- REGEXP_CONTAINS(item_id, 'INTNL') rule_dimensions: - consistency - correctness - duplication - completeness - conformance - integrity - timeliness - accuracy rules: NOT_NULL: rule_type: NOT_NULL dimension: completeness VALID_EMAIL: rule_type: REGEX dimension: conformance params: pattern: |- ^[^@]+[@]{1}[^@]+$ rule_bindings: VALID_CUSTOMER: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: id row_filter_id: NONE rule_ids: - NOT_NULL VALID_EMAIL_ID: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: email row_filter_id: NONE rule_ids: - VALID_EMAIL
  1. Revise o código para identificar as duas regras primárias de qualidade de dados definidas no arquivo.

O arquivo dq-customer-raw-data.yaml começa com parâmetros-chave para identificar os recursos do Dataplex, incluindo o ID do projeto, a região e os nomes do lake e da zona.

Depois, especifica as dimensões de regra permitidas e duas regras principais:

  • a regra para valores NOT_NULL se refere à dimensão de integridade, como valores nulos;
  • a regra para valores VALID_EMAIL se refere-se à dimensão de conformidade, como valores inválidos.

Por último, as regras são vinculadas a entidades (tabelas) e colunas por vinculações para validação da qualidade de dados:

  • A primeira vinculação da regra VALID_CUSTOMER associa NOT_NULL à coluna id da tabela contact_info, que vai validar se a coluna ID tiver algum valor NULL.
  • A segunda vinculação da regra VALID_EMAIL_ID associa VALID_EMAIL à coluna email da tabela contact_info, que vai procurar e-mails válidos.
  1. Pressione Ctrl+X e Y para salvar e fechar o arquivo.

Fazer upload do arquivo no Cloud Storage

  • No Cloud Shell, execute o seguinte comando para fazer o upload do arquivo em um bucket do Cloud Storage criado para este laboratório:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Clique em Verificar meu progresso para conferir o objetivo. Criar e fazer o upload de um arquivo de especificação de qualidade de dados

Tarefa 4: definir e executar um job de qualidade de dados no Dataplex

O processo de qualidade de dados usa um arquivo YAML de especificação de qualidade de dados para executar um job desse tipo e gera métricas que são gravadas em um conjunto de dados do BigQuery.

Nessa tarefa, defina e execute um job de qualidade de dados utilizando o arquivo YAML de especificação enviado ao Cloud Storage na tarefa anterior. Durante a configuração do job, especifique também um conjunto de dados pré-criado do BigQuery chamado customer_dq_dataset para armazenar os resultados.

  1. No Menu de navegação do console do Google Cloud (Menu de navegação), acesse Analytics > Dataplex.

  2. Em Gerenciar lakes, clique em Processo.

  3. Clique em Criar tarefa.

  4. Em "Verificar a qualidade dos dados", clique em Cria tarefa.

  5. Insira as informações necessárias para criar um novo job de qualidade de dados:

Propriedade Valor
Lake do Dataplex ecommerce-lake
Nome de exibição Job de qualidade de dados do cliente
ID Mantenha o valor padrão.
Selecionar o arquivo GCS -bucket/dq-customer-raw-data.yaml
Selecionar conjunto de dados do BigQuery .customers_dq_dataset
Tabela do BigQuery dq_results
Conta de serviço de usuário Conta de serviço padrão do Compute Engine

Não altere os outros valores.

A conta de serviço padrão do Compute Engine foi pré-configurada neste laboratório com os papéis e permissões apropriados do IAM. Para mais informações, revise a documentação do Dataplex Criar uma conta de serviço (em inglês).

  1. Clique em Continuar.

  2. Em Iniciar, selecione Imediatamente.

  3. Clique em Criar.

Pode levar vários minutos para o job ser concluído. Talvez você precise atualizar a página para verificar se ele foi executado com êxito.

Job executado com sucesso

Clique em Verificar meu progresso para conferir o objetivo. Definir e executar um job de qualidade de dados no Dataplex

Tarefa 5: revisar os resultados de qualidade de dados no BigQuery

Nessa tarefa, revise as tabelas em clients_dq_dataset para identificar os registros que não têm IDs de clientes ou que têm valores de e-mails incorretos.

  1. No console do Google Cloud, abra o Menu de navegação (Menu de navegação), navegue para BigQuery > SQL Workspace.

  2. No painel "Explorador", expanda a seta ao lado do ID do projeto para listar o conteúdo:

  3. Expanda a seta ao lado do conjunto de dados customer_dq_dataset.

  4. Clique na tabela dq_summary.

  5. Clique na guia Visualização para conferir os resultados.

A tabela dq summary mostra informações úteis sobre a qualidade geral dos dados, incluindo o número de registros que não cumprem as duas regras no arquivo de especificação.

  1. Vá para a última coluna chamada failed_records_query.

  2. Clique na seta para baixo na primeira linha para expandir o texto e visualizar a consulta inteira dos resultados da regra VALID_EMAIL.

A consulta é bastante longa e termina com ORDER BY _dq_validation_rule_id.

  1. Clique em Escrever nova consulta. Copie e cole a consulta no Editor SQL e clique em Executar.

Os resultados da consulta mostram os valores de e-mail inválidos no campo contact_info.

Resultados de qualidade de dados para VALID_EMAIL

  1. Repita as etapas 7 a 8 para a segunda célula que contém a consulta referente aos resultados da regra VALID_CUSTOMER.

Na consulta, identificamos que existem 10 registros na tabela contact_info sem valores de ID.

Resultados de qualidade de dados para VALID_CUSTOMER

Clique em Verificar meu progresso para conferir o objetivo. Análise dos resultados de qualidade de dados na tabela do BigQuery

Parabéns!

Você aprendeu a avaliar a qualidade dos dados com o Dataplex criando um arquivo personalizado de especificação de qualidade para executar um job de verificação nos dados em uma tabela do BigQuery.

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 4 de julho de 2023

Laboratório testado em 4 de julho de 2023

Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível