Checkpoints
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Como analisar metadados do conjunto de dados entre projetos com o Data Catalog
- GSP789
- Informações gerais
- Inicie o laboratório
- Cenário: CEO da NYC Transportation Company
- Parte 1: analise o ambiente de dados atual com o papel de proprietário
- Tarefa 1: verifique se o papel de proprietário pode acessar e consultar o conjunto de dados new_york_mv_collisions
- Tarefa 2: verifique se o papel de proprietário pode visualizar e consultar o conjunto de dados de aluguel de bicicletas
- Parte 2: analise o ambiente de dados com acesso de usuário restrito
- Tarefa 3: faça login com o usuário analista de dados e confirme o acesso restrito ao projeto
- Tarefa 4: tente consultar diretamente um conjunto de dados privado
- Parte 3: use o Data Catalog para incluir tags em conjuntos de dados de projetos
- Tarefa 5: crie um modelo de tag do Data Catalog com base em um conjunto de dados do BigQuery
- Tarefa 6: crie um novo modelo do Data Catalog
- Parabéns!
GSP789
Informações gerais
O Data Catalog é um serviço de administração de metadados totalmente gerenciado e escalonável no Dataplex.
Sem as ferramentas certas, o gerenciamento de recursos de dados pode ser demorado e caro. O Data Catalog fornece um local centralizado onde as organizações podem localizar, selecionar e descrever os recursos de dados.
Como usar o Data Catalog
Existem duas maneiras principais de interagir com o Data Catalog:
- Procurar os recursos de dados a que você tem acesso
- Incluir tags em recursos com metadados
O que você vai aprender
Neste curso, você vai aprender a:
- Analisar um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
- Navegar manualmente em uma tabela do BigQuery na IU.
- Executar consultas para entender melhor as colunas de dados sensíveis que serão marcadas com tag.
- Usar o Data Catalog para procurar conjuntos de dados em projetos.
- Usar os modelos de tag do Data Catalog para incluir tags em recursos com metadados avançados
Por que isso é útil?
- Ver recursos de dados em vários projetos na organização
- Criar modelos de tag reutilizáveis e adicionar descrições de dados completas para suas equipes
- Destacar rapidamente os conjuntos de dados com PII (informações de identificação pessoal)
- Controlar o acesso aos metadados, o que é herdado com base nos usuários conectados (sem necessidade de ACLs separadas do Data Catalog)
Pré-requisitos
Importante: antes de iniciar este laboratório, saia da sua conta pessoal ou corporativa do Gmail ou faça o laboratório usando a navegação anônima. Isso evita confusão no processo de login enquanto o laboratório está em execução.
Inicie o laboratório
-
Clique em Começar o laboratório se ainda não tiver feito isso.
-
Dica: leva de três a cinco minutos para o ambiente do laboratório gerar automaticamente dois projetos do Google Cloud, dois conjuntos de dados pré-preenchidos e duas contas de usuário. Não é necessário esperar a conclusão dos recursos do laboratório para continuar lendo. Você não fará login após ler o cenário a seguir.
-
Clique em Abrir console de bicicletas no laboratório ou acesse o Console do Cloud em uma janela anônima do navegador. Não faça login com as contas fornecidas até agora. Continue lendo o cenário. Você receberá instruções depois sobre qual conta usar.
Observação importante: uma vez iniciado, o laboratório não pode ser pausado. Se ele for encerrado, os projetos em execução do estudante serão excluídos.
Cenário: CEO da NYC Transportation Company
Você é CEO de uma empresa de transportes na cidade de Nova York. As equipes de analistas consultam os conjuntos de dados que você coletou sobre o transporte por bicicleta e carro em Nova York.
Desafios:
- Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
- A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.
- Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal).
Conjuntos de dados para sua organização
- Viagens em NY por aluguel de bicicletas
- Colisões de veículos motorizados em NY
Cada equipe de engenharia de dados mantém seu conjunto de dados em um projeto separado do Google Cloud. Assim fica mais fácil gerenciar o acesso e o faturamento. Embora isso seja melhor para elas, fica mais difícil para a equipe de analistas encontrar esses conjuntos de dados.
Nem todos os papéis de analista são iguais
Para complicar ainda mais, existem diferentes níveis de analistas de dados trabalhando para você na equipe de BI:
- Analistas de dados: com privilégios mínimos
- Proprietário: administrador total
Saiba o que está sendo criado automaticamente
Para simular melhor um ambiente corporativo real com vários projetos e conjuntos de dados para catalogar, sua equipe de engenharia permitiu que você acessasse recursos. Isso significa que o laboratório pré-carrega esses recursos para que você não precise criá-los.
Como mostrado acima, sua equipe forneceu logins a você para:
- dois projetos;
- duas contas de usuário.
Além disso, ela adicionou as seguintes observações sobre a restrição do acesso:
- O proprietário deve ter acesso total aos projetos e conjuntos de dados.
- Os analistas de dados não podem ter acesso de leitura ou consulta ao conjunto de dados sobre colisões de veículos motorizados em NY (dados sensíveis).
Parte 1: analise o ambiente de dados atual com o papel de proprietário
Lembre que a equipe de engenharia de dados disponibilizou três projetos, cada um com um conjunto de dados diferente sobre a cidade de Nova York. Verifique se o Papel de proprietário pode acessar e consultar todos os conjuntos de dados.
-
Faça login usando o e-mail e a senha gerados automaticamente para o Proprietário (administrador total) como parte deste laboratório.
-
Aceite os Termos e Condições para usar o Google Cloud (se solicitado).
Encontre o projeto sobre colisões em Nova York
- Clique no menu suspenso do nome do projeto na parte de cima da página e selecione um projeto.
- Consulte o nome do projeto gerado automaticamente pelo Qwiklabs para
NYC Motor Vehicle Collisions Project
e encontre o valor da string no pop-up "Selecione um projeto":
Ativar a API Data Catalog
- Use Menu de navegação > Mais produtos e role para baixo até o Data Catalog aparecer.
- Passe o cursor sobre o nome e clique no ícone de fixação. Isso move o Data Catalog para a parte superior do menu de navegação.
- Clique em Data Catalog. Se um pop-up aparecer, clique em Fechar.
- Verifique se a API já está ativada. Se a mensagem que solicita a ativação da API não for exibida, ela já estará ativada e você não precisa fazer nada.
Depois de pesquisar e consultar manualmente os conjuntos de dados no BigQuery, volte a este laboratório para usar o Data Catalog.
Acessar e fixar o BigQuery
- No Menu de navegação, role para baixo até encontrar o BigQuery.
- Passe o cursor sobre o nome e clique no ícone de fixação.
- Clique em BigQuery e depois em Concluído.
Tarefa 1: verifique se o papel de proprietário pode acessar e consultar o conjunto de dados new_york_mv_collisions
Verifique se o papel de proprietário pode visualizar o conjunto de dados new_york_mv_collisions
.
-
Em Explorer no BigQuery, clique no nome do seu projeto para abrir os conjuntos de dados disponíveis que você tem acesso de visualização.
-
Verifique se você pode ver o conjunto de dados
new_york_mv_collisions
. -
Clique no conjunto de dados
new_york_mv_collisions
para abrir as tabelas que ele contém. -
Clique na tabela
nypd_mv_collisions
e analise os campos disponíveis no esquema.
O esquema será semelhante a este:
Responda às perguntas a seguir.
Embora a tabela não contenha informações de identificação pessoal, como número de telefone ou endereço de e-mail, ainda é preciso ter cuidado ao compartilhar esse conjunto de dados com toda a equipe.
No restante do laboratório, você vai aprender maneiras de acessar conjuntos de dados restritos e usar o Data Catalog para incluir tags de maneira proativa em conjuntos de dados e tabelas com metadados avançados para sua organização.
Verifique se o papel de proprietário pode consultar o conjunto de dados sobre colisões
Uma vez que você fez login como um proprietário global, confirme se é possível ver e acessar os projetos e conjuntos de dados. Verifique se você pode executar a consulta a seguir.
- Copie e cole a consulta a seguir no Editor de consultas do BigQuery e clique em Executar:
Quais são os 10 fatores mais comuns nas colisões de carro em NY?
Clique em Verificar meu progresso para ver o objetivo.
Tarefa 2: verifique se o papel de proprietário pode visualizar e consultar o conjunto de dados de aluguel de bicicletas
-
Clique em Selecionar um projeto na parte de cima da página.
-
Selecione a guia Todos.
-
Encontre o conjunto de dados de compartilhamento de bicicletas consultando o ID do projeto correto gerado automaticamente:
- Clique no ID do projeto.
- Na IU do BigQuery, abra a tabela ID do projeto >
new_york_citibike
>citibike_trips
.
Ao acessar o esquema, os detalhes e a prévia, responda às perguntas a seguir.
Quais são os trajetos mais usados pelo aluguel de bicicletas por gêneros?
O Conjunto de dados público sobre bicicletas na cidade de Nova York rastreia cada viagem (local de saída e de chegada), bem como outros campos dos usuários.
- Adicione a consulta abaixo ao editor de consultas e clique em Executar para conferir os trajetos mais usados por gênero. O conjunto de dados fornece somente três valores: desconhecido, masculino e feminino, que podem não representar todos os valores de gênero dos ciclistas:
Clique em Verificar meu progresso para conferir o objetivo.
A seguir, você vai aprender a incluir tags em conjuntos de dados e tabelas com dados confidenciais.
Resumo da análise
- Você analisou cada conjunto de dados sobre NY (colisões e viagens com aluguel de bicicletas).
- Cada conjunto de dados fica armazenado em um projeto diferente.
- O papel de proprietário (que você está usando agora) pode visualizar e consultar cada conjunto de dados.
Parte 2: analise o ambiente de dados com acesso de usuário restrito
Até o momento, você só usou a conta de proprietário fornecida pela equipe de engenharia de dados com as permissões de mais alto nível.
Você pediu para as equipes de engenharia limitarem o acesso aos usuários analistas de dados da seguinte maneira.
Os analistas de dados podem ver:
- Aluguel de bicicletas em NY
Os analistas de dados NÃO podem ver:
- Colisões de veículos motorizados em NY
Saia da conta de proprietário
-
Clique no ícone de perfil.
-
Saia da conta.
Tarefa 3: faça login com o usuário analista de dados e confirme o acesso restrito ao projeto
-
Clique em Usar outra conta.
-
Entre novamente no Google Cloud com o e-mail e a senha do
Data Analyst User
[usuário analista de dados]. -
Em Selecionar um projeto, verifique se você pode ver somente um, e não dois projetos gerados automaticamente pelo Qwiklabs.
-
Selecione o projeto do Qwiklabs que você pode acessar.
-
Acesse o BigQuery.
Tarefa 4: tente consultar diretamente um conjunto de dados privado
No BigQuery, é possível consultar um projeto (se você tiver acesso) sem ele estar fixado ou disponível na seção "Explorer". Tente consultar o conjunto de dados sobre colisões em Nova York diretamente como um usuário analista de dados usando o ID do projeto.
- Adicione abaixo a consulta anterior e substitua o prefixo do ID do projeto pelo ID no
NYC Motor Vehicle Collisions Project
:
A mensagem de erro de acesso negado verifica seu nível de acesso de analista de dados.
Você já conheceu os diferentes privilégios e acessos concedidos aos papéis de proprietário (o conjunto de privilégios mais amplo) e analista de dados (mais limitado) na hora de acessar projetos, conjuntos de dados e consultas.
A seguir, você vai tentar encontrar um conjunto de dados escondido usando o recurso de pesquisa do Data Catalog. Você acha que ele aparecerá para os analistas de dados se o BigQuery bloquear você?
Parte 3: use o Data Catalog para incluir tags em conjuntos de dados de projetos
Você já conhece os conjuntos de dados e os níveis de acesso concedidos a diferentes papéis. Agora, você vai solucionar os desafios definidos anteriormente no cenário:
Desafios:
- Alguns conjuntos de dados contêm informações sensíveis e você quer controlar o acesso a elas.
- A equipe reclama que é difícil encontrar o conjunto de dados correto entre os vários que ela pode acessar.
Para obedecer aos requisitos regulatórios recentes, você precisa de uma forma clara de indicar os conjuntos de dados com PII (informações de identificação pessoal). Solucione esses desafios e conclua a tarefa com o serviço do Data Catalog.
- Abra o menu de navegação e clique em Data Catalog.
- Na página inicial do Data Catalog, em Sistemas, filtre por BigQuery.
-
Insira
qwiklabs-gcp
na barra de pesquisa do Data Catalog para filtrar os recursos externos do Qwiklabs. -
Confira se sua visualização como analista de dados é parecida com esta:
Qualquer que seja o projeto em que você fez login, o Data Catalog mostrará TODOS os conjuntos de dados do BigQuery que seu papel pode acessar.
Como analista de dados, não vai aparecer o new_york_mv_collisions
no Data Catalog, mesmo que esse valor exista, porque já consultou esse conjunto como proprietário.
Por quê? A seguir, saiba como funciona o controle de acesso no nível do Data Catalog.
Como o Data Catalog exibe metadados
Antes de pesquisar, descobrir ou exibir recursos do Google Cloud, o Data Catalog verifica se o usuário recebeu uma função do IAM com as permissões de leitura de metadados exigidas pelo BigQuery, o Pub/Sub ou outro sistema de origem para acessar o recurso.
Exemplo: o Data Catalog verifica se o usuário recebeu um papel com a permissão bigquery.tables.get
antes de exibir os metadados da tabela do BigQuery.
Tarefa 5: crie um modelo de tag do Data Catalog com base em um conjunto de dados do BigQuery
- Clique na entrada de nome
new_york_citibike
da tabela. Essa é uma subtarefa do conjunto de dados sobre aluguel de bicicletas que você tem permissão para visualizar.
Nas tabelas do BigQuery, o Data Catalog permite incluir tags:
- no conjunto de dados;
- na tabela;
- em colunas individuais.
-
Tente clicar no botão Anexar tag.
-
Verifique se este erro aparece:
- Nessa caixa de diálogo, passe o cursor sobre Saiba mais para saber o motivo do recurso não estar disponível.
Parece que o papel de analista de dados pode procurar metadados no Data Catalog, mas não pode anexar novas tags.
A seguir, você vai descobrir como funcionam as permissões de inclusão de tags e os modelos de tag do Data Catalog.
Modelos, tags e permissões do Data Catalog
Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao recurso de dados, o que significa que podem ser encontradas no sistema do Data Catalog. Ao usar esse recurso, você também pode criar mais aplicativos que consomem metadados contextuais sobre um recurso de dados.
Qual é a aparência de um modelo de tag?
Quem pode criar um modelo de tag?
Para criar modelos de tag, o usuário precisa ter, no mínimo, acesso para editar o recurso em questão (o BigQuery, neste laboratório) E datacatalog.tagTemplateUser
, se o modelo já tiver sido criado. Para saber mais, consulte o Guia de IAM do Data Catalog.
E se for preciso criar um modelo de tag novo? No mínimo, você precisaria ser datacatalog.tagTemplateCreator
ou roles/datacatalog.tagTemplateOwner
. O proprietário pode excluir modelos e outros privilégios de administrador.
Papéis do Cloud IAM mais comuns predefinidos para o Data Catalog:
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
- Consulte papéis do Data Catalog para acessar uma lista completa de papéis
Tarefa 6: crie um novo modelo do Data Catalog
-
Faça login com o papel de proprietário que tem a permissão
roles/datacatalog.tagTemplateOwner
. -
Selecione o
projeto de aluguel de bicicletas em Nova York
que você usou antes.
-
Navegue até o Data Catalog.
-
Clique em Modelos de tag > Criar modelo de tag.
-
Insira informações básicas no novo modelo e dê o nome Conjuntos de dados de Nova York.
-
Clique em Adicionar campo.
-
Dê o nome Contém PII ao novo campo, marque Tornar este campo obrigatório, selecione o tipo Booleano e, por fim, clique em Concluído.
-
Selecione Adicionar campo.
-
Dê o nome de Tipo de PII ao campo, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:
- Valor 1: nenhum
- Valor 2: data de nascimento
- Valor 3: gênero
- Valor 4: localização geográfica
-
Selecione Adicionar campo.
-
Dê o nome Equipe do proprietário dos dados ao campo, marque Tornar este campo obrigatório, selecione o tipo Enumerado, adicione os valores a seguir e clique em Concluído quando terminar:
- Valor 1: marketing
- Valor 2: ciência de dados
- Valor 3: vendas
- Valor 4: engenharia
- Clique em Criar.
Inclua tags no nível do conjunto de dados
-
Clique em Pesquisar entradas que não usam este modelo.
-
Clique no conjunto de dados new_york_mv_collisions.
-
Observe que não há tags abaixo do nome do conjunto de dados. Depois disso, clique em Anexar tags.
-
Escolha o modelo que você criou antes e clique em OK.
-
Use o menu suspenso para preencher os valores dos campos do modelo com os dados a seguir. Depois disso, clique em Salvar:
- Contém PII: verdadeiro
- Tipo de PII: localização geográfica
- Equipe do proprietário dos dados: engenharia
- Confira as tags no nível do conjunto de dados.
Insira tags no nível da tabela e da coluna
É possível incluir tags no nível da tabela e da coluna para detalhar ainda mais o processo.
-
Volte aos recursos da pesquisa anterior e clique na tabela
nypd_mv_collisions
. -
Clique em Anexar tags e defina os campos a seguir como Tags de coluna e esquema:
-
Tabela: nypd_mv_collisions
-
Coluna: local
-
Modelo de tag: conjuntos de dados de Nova York
-
Valores de tag:
- Contém PII: verdadeiro
- Tipo de PII: localização geográfica
- Equipe do proprietário dos dados: engenharia
-
Clique em Salvar.
-
Inclua a tag PII no campo para geolocalização e verifique se ela aparece quando você clica no nome do modelo.
Clique em Verificar meu progresso para conferir o objetivo.
Pesquise conjuntos de dados por tag e chave de tag
Agora, com as tag incluídas, é possível pesquisar seu catálogo usando as que você adicionou.
- Na barra de pesquisa, copie e cole
tag:qwiklabs-YOUR-PROJECT-HERE.new_york_datasets.contains_pii
e substitua o prefixo do ID do projeto pelo ID atual no Qwiklabs.
- Para outros exemplos de como pesquisar rapidamente no seu catálogo, consulte Pesquisar e visualizar recursos de dados com o Data Catalog.
Parabéns!
Você aprendeu sobre outras funções do Data Catalog. como:
- Análise de um ambiente corporativo simulado com dois projetos, dois conjuntos de dados e duas contas de usuário.
- Execução de consultas para entender melhor as colunas de dados sensíveis em que você quer incluir tags depois.
- Uso do Data Catalog para procurar os conjuntos de dados em um projeto
- Uso dos modelos de tag do Data Catalog para incluir tags em recursos com metadados avançados
Terminar a Quest
Este laboratório autoguiado é parte das Quests BigQuery for Marketing Analysts e Data Catalog Fundamentals. Uma Quest é uma série de laboratórios relacionados que formam um programa de aprendizado. Ao concluir uma Quest, você ganha um selo como reconhecimento da sua conquista. É possível publicar os selos e incluir um link para eles no seu currículo on-line ou nas redes sociais. Inscreva-se em qualquer Quest que tenha este laboratório para receber os créditos de conclusão na mesma hora. Consulte o catálogo do Google Cloud Ensina para conferir todas as Quests disponíveis.
Próximas etapas / Saiba mais
- Veja a página de documentação do Data Catalog.
- Assista ao próximo vídeo de destaque.
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 11 de julho de 2023
Laboratório testado em 11 de julho de 2023
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.