Checkpoints
Retrieve dataset files
/ 50
Publish the results to BigQuery
/ 50
Como trabalhar com o Cloud Dataprep no Google Cloud
- GSP050
- Informações gerais
- Configuração e requisitos
- Tarefa 1: abrir o Google Cloud Dataprep
- Tarefa 2: recuperar arquivos do conjunto de dados
- Tarefa 3: criar um fluxo
- Tarefa 4: limpar dados do cliente
- Tarefa 5: unir conjuntos de dados de várias transações
- Tarefa 6: modificar etapas do roteiro
- Tarefa 7: juntar os dados de transações aos dados de clientes
- Tarefa 8: criar e renomear novas colunas
- Tarefa 9: publicar os resultados no BigQuery
- Parabéns!
Este laboratório foi desenvolvido com nossa parceira, a Alteryx. Suas informações pessoais podem ser compartilhadas com a Alteryx, patrocinadora do laboratório, caso você tenha escolhido receber atualizações de produtos, anúncios e ofertas em seu perfil de conta.
GSP050
Informações gerais
O Cloud Dataprep é a ferramenta de preparação de dados de autoatendimento do Google criada em colaboração com a Alteryx. Neste laboratório, você vai aprender a limpar e enriquecer vários conjuntos de dados usando o Cloud Dataprep. Os exercícios do laboratório se baseiam em uma simulação de caso de uso.
Cenário de caso de uso:
Você trabalha para uma empresa de serviços técnicos que vende três produtos por assinatura mensal:
- Prata (preço: US$ 9,99/mês)
- Ouro (preço: US$ 14,99/mês)
- Platina (preço: US$ 29,99/mês)
A empresa ocasionalmente oferece descontos, portanto, alguns preços de produtos podem ser ligeiramente inferiores aos listados acima. Seu objetivo geral é fornecer uma análise da atividade de vendas por código postal ao longo de três anos.
Para isso, você precisará juntar sua fonte de dados de contato com o cliente (no local do CEP) aos dados de vendas da sua fonte de dados de compras. Depois de juntar os dados, você agregará os resultados.
O que você vai aprender
Neste laboratório, você vai aprender a fazer o seguinte:
- Limpar e criar perfis de dados com o Cloud Dataprep
- Combinar vários conjuntos de dados usando o Cloud Dataprep
- Calcular os resultados de fórmulas no Cloud Dataprep
Configuração e requisitos
Antes de clicar no botão Start Lab
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:
- O botão Abrir console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta. -
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Nome de usuário"}}} Você também encontra o Nome de usuário no painel Detalhes do laboratório.
-
Clique em Seguinte.
-
Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.
{{{user_0.password | "Senha"}}} Você também encontra a Senha no painel Detalhes do laboratório.
-
Clique em Seguinte.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais. -
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Ativar o Cloud Shell
O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.
- Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.
Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:
gcloud
é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.
- (Opcional) É possível listar o nome da conta ativa usando este comando:
-
Clique em Autorizar.
-
A saída será parecida com esta:
Saída:
- (Opcional) É possível listar o ID do projeto usando este comando:
Saída:
Exemplo de saída:
gcloud
, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.
Tarefa 1: abrir o Google Cloud Dataprep
-
No console do Google, acesse o Menu de navegação e, em ANALYTICS, selecione Dataprep.
-
Para entrar no Cloud Dataprep, marque a caixa indicando que concorda com os Termos de Serviço e clique em Aceitar.
-
Marque a caixa de seleção e clique em Concordar e continuar quando solicitado para compartilhar informações da conta com a Alteryx.
-
Clique em Permitir para autorizar a Alteryx a acessar o projeto.
-
Selecione suas credenciais do laboratório para fazer login e clique em Permitir.
-
Marque a caixa de seleção e clique em Aceitar para concordar com os Termos de Serviço da Alteryx.
-
Se for solicitado o uso do local padrão para o bucket de armazenamento, clique em Continuar.
-
Novos usuários verão um tutorial para selecionar conjuntos de dados. Para sair dessa tela, clique em Cancelar ou feche-a.
-
Clique no ícone do Dataprep no canto superior esquerdo para acessar a tela inicial.
Tarefa 2: recuperar arquivos do conjunto de dados
Nesta seção, você vai adicionar os arquivos da atividade de vendas ao bucket de armazenamento criado pelo Dataprep.
- Volte ao console do Cloud.
-
Confira o nome do bucket. No menu de navegação, selecione Cloud Storage > Bucket.
-
Anote o nome do bucket do Dataprep que será usado na próxima etapa.
-
Na linha de comando do Cloud Shell, execute o comando abaixo substituindo
[YOUR-BUCKET-NAME]
pelo nome do bucket do Dataprep:
A saída ficará assim:
Clique em Verificar meu progresso para conferir o objetivo.
Tarefa 3: criar um fluxo
Volte para a guia do Cloud Dataprep. Para escrever seus dados em Wrangle, é preciso criar um fluxo. Um fluxo é um grupo de conjuntos de dados relacionados e as conexões entre eles.
- Clique em Criar fluxo no canto superior direito:
- Nomeie o fluxo
Qwiklab1
, mantenha a descrição em branco e clique em Ok.
Nesse ponto, seu fluxo já estará criado. O Dataprep cria alguns marcadores de posição no fluxo para ajudar você a começar. A primeira etapa é importar e adicionar dados ao Dataprep e ao Fluxo.
-
No Conjunto de dados, clique em + para adicionar uma nova fonte de dados e clique no link Importar conjuntos de dados.
-
No menu de navegação esquerdo, clique em
Cloud Storage
>dataprep-staging-xxx...
>gsp050
para acessar os dados de amostra armazenados na seção anterior. -
Clique em + ao lado de cada arquivo listado. Quando você clica em um arquivo, ele é transferido para o lado direito da tela. Para adicionar os conjuntos de dados ao seu fluxo, clique em Importar e adicionar ao fluxo:
O Cloud Dataprep leva você de volta à página Exibição de Fluxo, que agora contém os conjuntos de dados adicionados. São criados marcadores de posição adicionais para o roteiro e a saída.
Tarefa 4: limpar dados do cliente
Agora que você tem os dados, a próxima etapa é projetar um roteiro de preparação de dados para limpar o conjunto de dados do cliente. No modelo, já existe um roteiro adicionado usando os dados de lab_2013_transactions.csv
. Vamos pular este roteiro por enquanto e criar o nosso próprio.
- Para criar um novo roteiro:
- Clique no ícone de adição (+) ao lado de
lab_customers.csv
. - Depois clique em Adicionar novo roteiro.
- Clique com o botão direito do mouse neste novo nó de roteiro.
- No menu suspenso, selecione Edit name and description.
- Altere o nome para
lab_customers
e clique em OK.
-
Um novo nó de Roteiro será criado e um painel será aberto no lado direito, exibindo informações sobre o roteiro, incluindo dados e eventuais etapas de transformação atuais.
-
Clique no botão azul Editar roteiro (como alternativa, é possível clicar duas vezes no próprio nó de roteiro).
O Cloud Dataprep abre a opção "Transformer grid". Essa é uma interface semelhante a uma planilha, onde é possível criar as etapas do roteiro de preparação de dados. Você criará o roteiro de transformação na página "Transformer" e verá os resultados aplicados à amostra. Quando o resultado for satisfatório, execute o job no conjunto de dados.
Cada coluna tem um nome e um ícone que especificam o tipo dos dados inferidos. Os tipos de dados são exibidos quando você clica no ícone à esquerda do nome da coluna:
Quando você clica em uma opção da coluna, o painel Detalhes abre à direita.
O painel "Detalhes" é dinâmico e exibe informações sobre o que você selecionou, inclusive as informações de coluna ou transformações sugeridas. Clique em X no canto superior direito do painel para fechá-lo por enquanto.
Nas etapas a seguir, analise os dados na visualização em grade e aplique as etapas de transformação ao seu roteiro.
Quando você abre a opção "Transformer Grid", o Cloud Dataprep cria automaticamente o perfil de conteúdo do conjunto de dados e gera histogramas no nível da coluna e indicadores de qualidade de dados. Essas informações de perfil podem ser usadas para guiar seu processo de preparação de dados.
Aplique um filtro
- Role para a direita até chegar à coluna start_date. Confira a barra horizontal na coluna superior:
Esta é a barra de qualidade de dados. A parte verde exibe os valores válidos, e a cinza representa os valores faltando ou nulos. Uma barra vermelha indica que os dados não são do mesmo tipo. Quando você clica nas seções da barra de qualidade, aparecem sugestões que contêm condicionais de qualidade de dados. Esses condicionais testam se cada registro é válido, vazio ou inválido, dependendo da seção da barra em que você clicou.
Ao aplicar start_date
e end_date
como filtro, adicione uma transformação para remover pontos onde a coluna start_date está vazia.
- Clique na parte cinza da barra de qualidade de dados na coluna
start_date
.
O Cloud Dataprep gera uma lista de transformações sugeridas à direita, de acordo com sua seleção. Passe o cursor sobre um dos cartões de sugestão e o Dataprep mostrará como os dados vão aparecer se a sugestão for aplicada. Se você selecionar um cartão, o Cloud Dataprep vai atualizar a grade para mostrar a transformação.
- Clique em Adicionar no cartão de sugestão "Excluir linhas com valores ausentes de
start_date
" à direita.
As linhas destacadas em vermelho foram removidas do conjunto de dados.
Preencha os valores que estão faltando
Veja a coluna end_date. Com base na barra de qualidade de dados, há um grande número de linhas com valores faltando. Para trabalhar facilmente com essa coluna, insira um valor vazio nessas linhas. Por exemplo, 1º de janeiro de 2050.
- Clique na seção cinza da barra de qualidade de dados na coluna
end_date
.
Outro conjunto de transformações sugeridas aparecerá. Haverá uma sugestão Defina valores ausentes como NULL(). Nesse caso, como o Dataprep não sabe exatamente o valor a ser preenchido, ele cria um modelo que pode ser alterado.
- No cartão de sugestão, clique em Editar.
O builder Adicionar etapa será aberto. A transformação sugerida pelo Cloud Dataprep já foi preenchida, mas você pode fazer ajustes no código.
- No box Formula, substitua
NULL()
por'2050/1/1'
, com as aspas. A fórmula completa ficará assim:
- Clique em Adicionar.
Agora os problemas de qualidade de dados no conjunto de dados lab_customers
foram resolvidos e a parte cinza da barra de qualidade desapareceu.
Tarefa 5: unir conjuntos de dados de várias transações
Agora vamos trabalhar nos conjuntos de dados de transações.
- Clique no nome do fluxo
QWIKLAB1
no topo da tela:
Isso levará você de volta à visualização do fluxo.
Crie um único conjunto de dados que reúna os conjuntos de dados das transações de 2013, 2014 e 2015.
-
Clique no conjunto de dados
lab_2013_transactions
. -
Clique no sinal de adição (+) e em Adicionar novo roteiro.
O Cloud Dataprep vai criar um novo roteiro e um conjunto de dados em Wrangle chamado Roteiro sem título
.
-
Clique com o botão direito do mouse nesse novo conjunto. No menu suspenso, selecione Edit name and description.
-
Mude o nome para
Combined Transactions
e clique em OK.
- Clique duas vezes em Transações combinadas para editar o roteiro. O roteiro é aberto em "Transformer Grid". Os dados da grade são os dados estruturados do conjunto
lab_2013_transactions.csv
.
Combine diversos conjuntos de dados com o mesmo esquema usando a transformação "Union".
- Antes de fazer uma transformação, veja o botão à esquerda de "Transformer Grid". Aqui os metadados são exibidos:
Eles resumem quais dados são carregados na grade. Os dados carregados são uma amostra de todo o conjunto de dados até 10 MB.
- Veja a parte superior de "Transformer Grid" perto do nome do roteiro. Aqui é possível conferir qual amostra está aparecendo no momento.
OU
A amostra exibida corresponde aos dados iniciais da fonte. Para conjuntos de dados pequenos (menos de 10 MB), o Dataprep carrega o conjunto de dados completo na amostragem de dados inicial.
- Clique no ícone Roteiro, na parte de cima.
-
Clique em Adicionar nova etapa.
-
Digite "Union" no campo de pesquisa e clique no resultado para acessar essa ferramenta.
O campo "Union Output" mostra o esquema de saída do seu conjunto de dados. Cada caixa representa uma coluna. O Cloud Dataprep baseia o esquema de saída no esquema do conjunto de dados em que a transformação de união foi iniciada. Nesse caso, as colunas do conjunto de dados "Transações combinadas" determinam as colunas que vão aparecer na saída combinada.
-
Clique em Adicionar dados.
-
Verifique as
lab_2014_transactions
. No menu suspenso do canto inferior esquerdo, selecioneAlinhar por nome
e clique em Aplicar. -
Clique em Adicionar ao roteiro para combinar os conjuntos de dados. Após adicionar a união ao script, confira a coluna
transaction_date
.
Agora o conjunto de dados inclui registros de janeiro de 2013 a dezembro de 2014.
- Dois dos três conjuntos de dados estão unidos. Verifique os metadados e as linhas adicionais.
Tarefa 6: modificar etapas do roteiro
Ao trabalhar com dados, você pode fazer ajustes ou remover certas transformações. O Dataprep facilita muito sua edição. Neste caso, dois dos três conjuntos de dados foram unidos. Mas, em vez de adicionar uma nova etapa para unir o conjunto de dados restante, basta editar o que já está pronto.
- Clique no ícone Desfazer para voltar à última ação, que neste caso é a etapa de união.
Agora seu roteiro está vazio. A grade e os metadados também são atualizados para refletir o estado original.
-
Clique no ícone Redo para refazer a etapa de união.
-
No painel "Roteiro", clique com o botão direito do mouse na etapa de união e selecione Editar.
-
A ferramenta de união vai abrir novamente. Clique novamente em Adicionar dados e verifique
lab_2015_transactions
. No menu suspenso do canto inferior esquerdo, selecioneAlinhar por nome
e clique em Aplicar. -
Analise os mapeamentos de coluna a coluna. Clique em Adicionar ao roteiro para combinar os três conjuntos de dados.
-
Após adicionar a união ao script, confira a coluna
transaction_date
.
Agora o conjunto de dados inclui registros de janeiro de 2013 a dezembro de 2015. Quantas linhas são exibidas agora nos metadados?
- Clique no nome do fluxo
QWIKLAB1
para retornar à "Visualização de fluxo".
A visualização do fluxo é atualizada a fim de mostrar como os três conjuntos de dados de transações se combinam para formar o conjunto de dados "Transações combinadas":
Tarefa 7: juntar os dados de transações aos dados de clientes
Agora que os conjuntos de dados estão combinados, os dados das transações serão enriquecidos com informações sobre o local de cada compra. Para fazer isso, junte os dados do cliente com os dados das transações. Ao realizar uma junção, trate o conjunto de dados maior como o conjunto de dados principal, ou o "lado esquerdo" da junção. O conjunto de dados menor será o conjunto detalhado ou o "lado direito" da junção. No Cloud Dataprep, o conjunto de dados em que a junção foi iniciada automaticamente tornou-se o conjunto de dados principal.
-
Clique duas vezes em Transações combinadas para reeditar o roteiro.
-
Clique no ícone Juntar, na barra de ferramentas do Transformer, para abrir a ferramenta Juntar.
-
Clique no conjunto de dados
lab_customers
para agregá-lo ao outro conjunto de dados e clique em Aceitar. -
Na tela seguinte, edite as chaves e condições de Join. À esquerda temos uma visualização das correspondências das chaves de junção. À direita estão as opções para editar o tipo e as chaves de junção e as estatísticas de visualização. O Dataprep tentará inferir automaticamente as chaves de junção corretas com base em valores comuns entre os conjuntos de dados.
Também é possível editar as chaves de junção. Passe o cursor na seção "Chaves de junção" e clique no ícone de edição (o lápis) para modificar uma chave de junção ou em Adicionar para criar uma nova.
Para estes conjuntos de dados, o Cloud Dataprep escolheu uma junção interna na coluna customer_id
. Ou seja, o conjunto de dados de saída serão os registros que tiverem o mesmo customer_id.
-
Clique em Next.
-
Na tela seguinte, você pode escolher quais colunas manter ou descartar após a junção. No painel Output Columns, selecione os campos abaixo para adicionar essas colunas à ferramenta Join:
customer_id (current)
transaction_date
ticket_price
product
address_state
address_zip
region
START_DATE
end_date
Todas as colunas não selecionadas serão descartadas. Os resultados ficarão assim:
- Clique em Revisar para exibir o resultado da junção em "Transformer Grid".
- Clique em Adicionar ao roteiro.
Tarefa 8: criar e renomear novas colunas
Como etapa final, faça outra limpeza dos dados para o relatório. Será preciso criar algumas colunas com os valores necessários para visualização.
Veja agora outra maneira de criar transformações no Dataprep usando os menus das colunas.
- Clique na seta suspensa ao lado de transaction_date > Extrair > Data e hora > Ano (AAAA).
Um novo builder de fórmula já preenchido com as ações selecionadas será exibido. Uma exibição também será gerada na grade.
- Clique em Adicionar.
Uma nova coluna foi criada com o nome year_transaction_date
. Na etapa anterior, você podia nomear a nova coluna enquanto editava a transformação. Caso você exclua o nome, o Dataprep gera uma nova coluna com base na etapa de transformação executada ou no número da coluna, se nenhuma coluna de origem tiver sido selecionada.
-
Você precisará renomear essa coluna manualmente. Clique na seta suspensa ao lado de year_transaction_date > Renomear.
-
Insira
activity_year
no campo. Clique em Adicionar para aceitar as alterações.
É possível renomear várias colunas com essa transformação clicando em Adicionar para agregar mais mapeamentos.
Tarefa 9: publicar os resultados no BigQuery
Você concluiu a preparação dos dados e pode gerar o arquivo de resultados no Cloud Storage. O Cloud Dataprep executa seu roteiro de transformação de dados para gerar o arquivo de saída usando o mecanismo do BigQuery.
-
Clique em Executar no canto superior direito do Transformer Grid.
-
Na caixa de diálogo Executar job, defina as configurações do job e o destino de saída. Por padrão, o Cloud Dataprep cria um arquivo CSV no Cloud Storage.
-
Passe o mouse sobre a ação de publicação e clique em Editar à direita.
-
Clique na guia BigQuery à esquerda.
-
Selecione o banco de dados
Dataprep
e clique no botão Create a new table à direita. -
Insira
transactions_by_customer
como o nome da nova tabela e selecione Append to this table every run como opção de gravação. -
Na parte de baixo, clique em Atualizar para atualizar as configurações de saída.
-
Agora clique em Executar para iniciar seu job do BigQuery. Isso vai levar alguns minutos. Você pode acompanhar o processamento do job na página "Jobs" do Dataprep. Quando terminar, uma mensagem de êxito vai aparecer, como mostrado abaixo, e os dados serão carregados para a nova tabela do BigQuery.
- Passe o mouse sobre o job concluído e clique em Perfil para exibir seus dados organizados. A visualização será parecida com a seguinte:
-
Os resultados serão exibidos ao consultar diretamente o BigQuery. No console do Google Cloud, navegue até ANALYTICS > BigQuery. Clique no conjunto de dados do
Dataprep
. -
Insira
select * from Dataprep.transactions_by_customer;
no Editor de consultas. Clique em Run para ver os dados que foram publicados.
O Cloud Dataprep é simples assim. É fácil limpar e enriquecer várias fontes de dados com uma interface visual intuitiva.
Clique em Verificar meu progresso para conferir o objetivo.
Parabéns!
Você concluiu o laboratório Como trabalhar com o Google Cloud Dataprep. Neste laboratório, você começou criando novos fluxos e transformando dados. Em seguida, você aprendeu a usar a interface do Dataprep para filtrar dados confusos, unir e juntar vários arquivos e criar e renomear colunas. Por fim, você produziu um arquivo de resultados e o exportou para o Google Cloud Storage.
Próximas etapas / Saiba mais
Você pode continuar usando o Dataprep Professional Edition com uma avaliação gratuita de 30 dias disponível aqui. Não se esqueça de sair da sua conta de laboratório temporária e fazer login novamente com seu e-mail válido do Google Cloud. Recursos avançados, como conectividade adicional, orquestração de pipeline e qualidade de dados adaptativa, também estão disponíveis na edição Premium, disponível no Google Cloud Marketplace.
Leia os guias de instruções para saber como descobrir, limpar e melhorar os dados com o Google Dataprep.
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 27 de setembro de 2023
Laboratório testado pela última vez em 27 de setembro de 2023
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.