
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Retrieve dataset files
/ 50
Publish the results to BigQuery
/ 50
Este laboratório foi desenvolvido com nossa parceira, a Alteryx. Suas informações pessoais podem ser compartilhadas com a Alteryx, patrocinadora do laboratório, caso você tenha escolhido receber atualizações de produtos, anúncios e ofertas em seu perfil de conta.
O Cloud Dataprep é a ferramenta de preparação de dados de autoatendimento do Google criada em colaboração com a Alteryx. Neste laboratório, você vai aprender a limpar e enriquecer vários conjuntos de dados usando o Cloud Dataprep. Os exercícios do laboratório se baseiam em uma simulação de caso de uso.
Você trabalha para uma empresa de serviços técnicos que vende três produtos por assinatura mensal:
A empresa ocasionalmente oferece descontos, portanto, alguns preços de produtos podem ser ligeiramente inferiores aos listados acima. Seu objetivo geral é fornecer uma análise da atividade de vendas por código postal ao longo de três anos.
Para isso, você precisará juntar sua fonte de dados de contato com o cliente (no local do CEP) aos dados de vendas da sua fonte de dados de compras. Depois de juntar os dados, você agregará os resultados.
Neste laboratório, você vai aprender a fazer o seguinte:
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento. No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
Clique em Próxima.
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
Você também encontra a senha no painel Detalhes do Laboratório.
Clique em Próxima.
Acesse as próximas páginas:
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.
Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:
gcloud
é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.
Clique em Autorizar.
A saída será parecida com esta:
Saída:
Saída:
Exemplo de saída:
gcloud
, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.
No console do Google, acesse o Menu de navegação e, em ANALYTICS, selecione Dataprep.
Para entrar no Cloud Dataprep, marque a caixa indicando que concorda com os Termos de Serviço e clique em Aceitar.
Marque a caixa de seleção e clique em Concordar e continuar quando solicitado para compartilhar informações da conta com a Alteryx.
Clique em Permitir para autorizar a Alteryx a acessar o projeto.
Selecione suas credenciais do laboratório para fazer login e clique em Permitir.
Marque a caixa de seleção e clique em Aceitar para concordar com os Termos de Serviço da Alteryx.
Se for solicitado o uso do local padrão para o bucket de armazenamento, clique em Continuar.
Novos usuários verão um tutorial para selecionar conjuntos de dados. Para sair dessa tela, clique em Cancelar ou feche-a.
Clique no ícone do Dataprep no canto superior esquerdo para acessar a tela inicial.
Nesta seção, você vai adicionar os arquivos da atividade de vendas ao bucket de armazenamento criado pelo Dataprep.
Confira o nome do bucket. No menu de navegação, selecione Cloud Storage > Bucket.
Anote o nome do bucket do Dataprep que será usado na próxima etapa.
Na linha de comando do Cloud Shell, execute o comando abaixo substituindo [YOUR-BUCKET-NAME]
pelo nome do bucket do Dataprep:
A saída ficará assim:
Clique em Verificar meu progresso para conferir o objetivo.
Volte para a guia do Cloud Dataprep. Para escrever seus dados em Wrangle, é preciso criar um fluxo. Um fluxo é um grupo de conjuntos de dados relacionados e as conexões entre eles.
Qwiklab1
, mantenha a descrição em branco e clique em Ok.Nesse ponto, seu fluxo já estará criado. O Dataprep cria alguns marcadores de posição no fluxo para ajudar você a começar. A primeira etapa é importar e adicionar dados ao Dataprep e ao Fluxo.
No Conjunto de dados, clique em + para adicionar uma nova fonte de dados e clique no link Importar conjuntos de dados.
No menu de navegação esquerdo, clique em Cloud Storage
> dataprep-staging-xxx...
> gsp050
para acessar os dados de amostra armazenados na seção anterior.
Clique em + ao lado de cada arquivo listado. Quando você clica em um arquivo, ele é transferido para o lado direito da tela. Para adicionar os conjuntos de dados ao seu fluxo, clique em Importar e adicionar ao fluxo:
O Cloud Dataprep leva você de volta à página Exibição de Fluxo, que agora contém os conjuntos de dados adicionados. São criados marcadores de posição adicionais para o roteiro e a saída.
Agora que você tem os dados, a próxima etapa é projetar um roteiro de preparação de dados para limpar o conjunto de dados do cliente. No modelo, já existe um roteiro adicionado usando os dados de lab_2013_transactions.csv
. Vamos pular este roteiro por enquanto e criar o nosso próprio.
lab_customers.csv
.lab_customers
e clique em OK.Um novo nó de Roteiro será criado e um painel será aberto no lado direito, exibindo informações sobre o roteiro, incluindo dados e eventuais etapas de transformação atuais.
Clique no botão azul Editar roteiro (como alternativa, é possível clicar duas vezes no próprio nó de roteiro).
O Cloud Dataprep abre a opção "Transformer grid". Essa é uma interface semelhante a uma planilha, onde é possível criar as etapas do roteiro de preparação de dados. Você criará o roteiro de transformação na página "Transformer" e verá os resultados aplicados à amostra. Quando o resultado for satisfatório, execute o job no conjunto de dados.
Cada coluna tem um nome e um ícone que especificam o tipo dos dados inferidos. Os tipos de dados são exibidos quando você clica no ícone à esquerda do nome da coluna:
Quando você clica em uma opção da coluna, o painel Detalhes abre à direita.
O painel "Detalhes" é dinâmico e exibe informações sobre o que você selecionou, inclusive as informações de coluna ou transformações sugeridas. Clique em X no canto superior direito do painel para fechá-lo por enquanto.
Nas etapas a seguir, analise os dados na visualização em grade e aplique as etapas de transformação ao seu roteiro.
Quando você abre a opção "Transformer Grid", o Cloud Dataprep cria automaticamente o perfil de conteúdo do conjunto de dados e gera histogramas no nível da coluna e indicadores de qualidade de dados. Essas informações de perfil podem ser usadas para guiar seu processo de preparação de dados.
Esta é a barra de qualidade de dados. A parte verde exibe os valores válidos, e a cinza representa os valores faltando ou nulos. Uma barra vermelha indica que os dados não são do mesmo tipo. Quando você clica nas seções da barra de qualidade, aparecem sugestões que contêm condicionais de qualidade de dados. Esses condicionais testam se cada registro é válido, vazio ou inválido, dependendo da seção da barra em que você clicou.
Ao aplicar start_date
e end_date
como filtro, adicione uma transformação para remover pontos onde a coluna start_date está vazia.
start_date
.O Cloud Dataprep gera uma lista de transformações sugeridas à direita, de acordo com sua seleção. Passe o cursor sobre um dos cartões de sugestão e o Dataprep mostrará como os dados vão aparecer se a sugestão for aplicada. Se você selecionar um cartão, o Cloud Dataprep vai atualizar a grade para mostrar a transformação.
start_date
" à direita.As linhas destacadas em vermelho foram removidas do conjunto de dados.
Veja a coluna end_date. Com base na barra de qualidade de dados, há um grande número de linhas com valores faltando. Para trabalhar facilmente com essa coluna, insira um valor vazio nessas linhas. Por exemplo, 1º de janeiro de 2050.
end_date
.Outro conjunto de transformações sugeridas aparecerá. Haverá uma sugestão Defina valores ausentes como NULL(). Nesse caso, como o Dataprep não sabe exatamente o valor a ser preenchido, ele cria um modelo que pode ser alterado.
O builder Adicionar etapa será aberto. A transformação sugerida pelo Cloud Dataprep já foi preenchida, mas você pode fazer ajustes no código.
NULL()
por '2050/1/1'
, com as aspas. A fórmula completa ficará assim:Agora os problemas de qualidade de dados no conjunto de dados lab_customers
foram resolvidos e a parte cinza da barra de qualidade desapareceu.
Agora vamos trabalhar nos conjuntos de dados de transações.
QWIKLAB1
no topo da tela:Isso levará você de volta à visualização do fluxo.
Crie um único conjunto de dados que reúna os conjuntos de dados das transações de 2013, 2014 e 2015.
Clique no conjunto de dados lab_2013_transactions
.
Clique no sinal de adição (+) e em Adicionar novo roteiro.
O Cloud Dataprep vai criar um novo roteiro e um conjunto de dados em Wrangle chamado Roteiro sem título
.
Clique com o botão direito do mouse nesse novo conjunto. No menu suspenso, selecione Edit name and description.
Mude o nome para Combined Transactions
e clique em OK.
lab_2013_transactions.csv
.Eles resumem quais dados são carregados na grade. Os dados carregados são uma amostra de todo o conjunto de dados até 10 MB.
OU
A amostra exibida corresponde aos dados iniciais da fonte. Para conjuntos de dados pequenos (menos de 10 MB), o Dataprep carrega o conjunto de dados completo na amostragem de dados inicial.
Clique em Adicionar nova etapa.
Digite "Union" no campo de pesquisa e clique no resultado para acessar essa ferramenta.
O campo "Union Output" mostra o esquema de saída do seu conjunto de dados. Cada caixa representa uma coluna. O Cloud Dataprep baseia o esquema de saída no esquema do conjunto de dados em que a transformação de união foi iniciada. Nesse caso, as colunas do conjunto de dados "Transações combinadas" determinam as colunas que vão aparecer na saída combinada.
Clique em Adicionar dados.
Verifique as lab_2014_transactions
. No menu suspenso do canto inferior esquerdo, selecione Alinhar por nome
e clique em Aplicar.
Clique em Adicionar ao roteiro para combinar os conjuntos de dados. Após adicionar a união ao script, confira a coluna transaction_date
.
Agora o conjunto de dados inclui registros de janeiro de 2013 a dezembro de 2014.
Ao trabalhar com dados, você pode fazer ajustes ou remover certas transformações. O Dataprep facilita muito sua edição. Neste caso, dois dos três conjuntos de dados foram unidos. Mas, em vez de adicionar uma nova etapa para unir o conjunto de dados restante, basta editar o que já está pronto.
Agora seu roteiro está vazio. A grade e os metadados também são atualizados para refletir o estado original.
Clique no ícone Redo para refazer a etapa de união.
No painel "Roteiro", clique com o botão direito do mouse na etapa de união e selecione Editar.
A ferramenta de união vai abrir novamente. Clique novamente em Adicionar dados e verifique lab_2015_transactions
. No menu suspenso do canto inferior esquerdo, selecione Alinhar por nome
e clique em Aplicar.
Analise os mapeamentos de coluna a coluna. Clique em Adicionar ao roteiro para combinar os três conjuntos de dados.
Após adicionar a união ao script, confira a coluna transaction_date
.
Agora o conjunto de dados inclui registros de janeiro de 2013 a dezembro de 2015. Quantas linhas são exibidas agora nos metadados?
QWIKLAB1
para retornar à "Visualização de fluxo".A visualização do fluxo é atualizada a fim de mostrar como os três conjuntos de dados de transações se combinam para formar o conjunto de dados "Transações combinadas":
Agora que os conjuntos de dados estão combinados, os dados das transações serão enriquecidos com informações sobre o local de cada compra. Para fazer isso, junte os dados do cliente com os dados das transações. Ao realizar uma junção, trate o conjunto de dados maior como o conjunto de dados principal, ou o "lado esquerdo" da junção. O conjunto de dados menor será o conjunto detalhado ou o "lado direito" da junção. No Cloud Dataprep, o conjunto de dados em que a junção foi iniciada automaticamente tornou-se o conjunto de dados principal.
Clique duas vezes em Transações combinadas para reeditar o roteiro.
Clique no ícone Juntar, na barra de ferramentas do Transformer, para abrir a ferramenta Juntar.
Clique no conjunto de dados lab_customers
para agregá-lo ao outro conjunto de dados e clique em Aceitar.
Na tela seguinte, edite as chaves e condições de Join. À esquerda temos uma visualização das correspondências das chaves de junção. À direita estão as opções para editar o tipo e as chaves de junção e as estatísticas de visualização. O Dataprep tentará inferir automaticamente as chaves de junção corretas com base em valores comuns entre os conjuntos de dados.
Também é possível editar as chaves de junção. Passe o cursor na seção "Chaves de junção" e clique no ícone de edição (o lápis) para modificar uma chave de junção ou em Adicionar para criar uma nova.
Para estes conjuntos de dados, o Cloud Dataprep escolheu uma junção interna na coluna customer_id
. Ou seja, o conjunto de dados de saída serão os registros que tiverem o mesmo customer_id.
Clique em Next.
Na tela seguinte, você pode escolher quais colunas manter ou descartar após a junção. No painel Output Columns, selecione os campos abaixo para adicionar essas colunas à ferramenta Join:
customer_id (current)
transaction_date
ticket_price
product
address_state
address_zip
region
START_DATE
end_date
Todas as colunas não selecionadas serão descartadas. Os resultados ficarão assim:
Como etapa final, faça outra limpeza dos dados para o relatório. Será preciso criar algumas colunas com os valores necessários para visualização.
Veja agora outra maneira de criar transformações no Dataprep usando os menus das colunas.
Um novo builder de fórmula já preenchido com as ações selecionadas será exibido. Uma exibição também será gerada na grade.
Uma nova coluna foi criada com o nome year_transaction_date
. Na etapa anterior, você podia nomear a nova coluna enquanto editava a transformação. Caso você exclua o nome, o Dataprep gera uma nova coluna com base na etapa de transformação executada ou no número da coluna, se nenhuma coluna de origem tiver sido selecionada.
Você precisará renomear essa coluna manualmente. Clique na seta suspensa ao lado de year_transaction_date > Renomear.
Insira activity_year
no campo. Clique em Adicionar para aceitar as alterações.
É possível renomear várias colunas com essa transformação clicando em Adicionar para agregar mais mapeamentos.
Você concluiu a preparação dos dados e pode gerar o arquivo de resultados no Cloud Storage. O Cloud Dataprep executa seu roteiro de transformação de dados para gerar o arquivo de saída usando o mecanismo do BigQuery.
Clique em Executar no canto superior direito do Transformer Grid.
Na caixa de diálogo Executar job, defina as configurações do job e o destino de saída. Por padrão, o Cloud Dataprep cria um arquivo CSV no Cloud Storage.
Passe o mouse sobre a ação de publicação e clique em Editar à direita.
Clique na guia BigQuery à esquerda.
Selecione o banco de dados Dataprep
e clique no botão Create a new table à direita.
Insira transactions_by_customer
como o nome da nova tabela e selecione Append to this table every run como opção de gravação.
Na parte de baixo, clique em Atualizar para atualizar as configurações de saída.
Agora clique em Executar para iniciar seu job do BigQuery. Isso vai levar alguns minutos. Você pode acompanhar o processamento do job na página "Jobs" do Dataprep. Quando terminar, uma mensagem de êxito vai aparecer, como mostrado abaixo, e os dados serão carregados para a nova tabela do BigQuery.
Os resultados serão exibidos ao consultar diretamente o BigQuery. No console do Google Cloud, navegue até ANALYTICS > BigQuery. Clique no conjunto de dados do Dataprep
.
Insira select * from Dataprep.transactions_by_customer;
no Editor de consultas. Clique em Run para ver os dados que foram publicados.
O Cloud Dataprep é simples assim. É fácil limpar e enriquecer várias fontes de dados com uma interface visual intuitiva.
Clique em Verificar meu progresso para conferir o objetivo.
Você concluiu o laboratório Como trabalhar com o Google Cloud Dataprep. Neste laboratório, você começou criando novos fluxos e transformando dados. Em seguida, você aprendeu a usar a interface do Dataprep para filtrar dados confusos, unir e juntar vários arquivos e criar e renomear colunas. Por fim, você produziu um arquivo de resultados e o exportou para o Google Cloud Storage.
Você pode continuar usando o Dataprep Professional Edition com uma avaliação gratuita de 30 dias disponível aqui. Não se esqueça de sair da sua conta de laboratório temporária e fazer login novamente com seu e-mail válido do Google Cloud. Recursos avançados, como conectividade adicional, orquestração de pipeline e qualidade de dados adaptativa, também estão disponíveis na edição Premium, disponível no Google Cloud Marketplace.
Leia os guias de instruções para saber como descobrir, limpar e melhorar os dados com o Google Dataprep.
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 27 de setembro de 2023
Laboratório testado pela última vez em 27 de setembro de 2023
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
One lab at a time
Confirm to end all existing labs and start this one