Checkpoints
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Visão geral
- Configuração e requisitos
- Tarefa 1: crie um bucket do Cloud Storage no seu projeto
- Tarefa 2: inicializar o Cloud Dataprep
- Tarefa 3: criar um fluxo
- Tarefa 4: importar os conjuntos de dados
- Tarefa 5: preparar o arquivo "Candidate"
- Tarefa 6: organizar o arquivo Contributions e mescle ao arquivo Candidates
- Tarefa 7: resumo dos dados
- Tarefa 8: renomear as colunas
- Parabéns!
Este laboratório foi desenvolvido com nossa parceira, a Trifacta. Suas informações pessoais podem ser compartilhadas com a Trifacta, patrocinadora do laboratório, caso você tenha optado por receber atualizações de produtos, anúncios e ofertas no perfil de conta.
GSP105
Visão geral
O Cloud Dataprep by Trifacta é um serviço de dados inteligente para realizar a exploração visual, limpeza e preparação dos dados para análise. É um serviço sem servidor que funciona em qualquer escala. Não é necessário implantar ou gerenciar uma infraestrutura. Prepare seus dados com alguns cliques e sem código.
Neste laboratório, você usará o Dataprep para manipular um conjunto de dados. Você vai importar conjuntos de dados, corrigir dados não correspondentes, e também transformar e mesclar os dados. Se tudo isso for novidade, ao final do laboratório você terá aprendido a realizar todas essas tarefas.
Atividades
Neste laboratório, você vai aprender a usar o Dataprep para concluir estas tarefas:
- Importar dados
- Corrigir dados não correspondentes
- Transformar dados
- Agrupar dados
Configuração e requisitos
Antes de clicar no botão Start Lab
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:
- O botão Abrir console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta. -
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Nome de usuário"}}} Você também encontra o Nome de usuário no painel Detalhes do laboratório.
-
Clique em Seguinte.
-
Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.
{{{user_0.password | "Senha"}}} Você também encontra a Senha no painel Detalhes do laboratório.
-
Clique em Seguinte.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais. -
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Ativar o Cloud Shell
O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.
- Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.
Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:
gcloud
é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.
- (Opcional) É possível listar o nome da conta ativa usando este comando:
-
Clique em Autorizar.
-
A saída será parecida com esta:
Saída:
- (Opcional) É possível listar o ID do projeto usando este comando:
Saída:
Exemplo de saída:
gcloud
, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.
Tarefa 1: crie um bucket do Cloud Storage no seu projeto
-
No console do Cloud, selecione Menu de navegação() > Cloud Storage > Buckets.
-
Clique em Criar bucket.
-
Na caixa de diálogo Criar um bucket, dê um Nome exclusivo ao bucket. Não altere as outras configurações.
-
Desmarque a opção Aplicar a prevenção do acesso público neste bucket em
Escolher como controlar o acesso a objetos
. -
Clique em Criar.
Você criou um bucket. Lembre do nome dele nas próximas etapas.
Teste a tarefa concluída
Clique em Verificar meu progresso para conferir a tarefa realizada. Se o bucket do Cloud Storage foi criado, vai aparecer uma pontuação de avaliação.
Tarefa 2: inicializar o Cloud Dataprep
- Abra o Cloud Shell e execute o seguinte comando:
Uma mensagem vai aparecer informando que a identidade do serviço foi criada.
-
Selecione Menu de navegação > Dataprep.
-
Marque a caixa de seleção para aceitar os Termos de Serviço do Google Dataprep e clique em Accept.
-
Marque a caixa de seleção para autorizar o compartilhamento das informações da sua conta com a Trifacta e clique em Agree and Continue.
-
Clique em Allow para que a Trifacta acesse os dados do projeto.
-
Clique no seu nome de usuário de aluno para fazer login no Cloud Dataprep by Trifacta. Ele está em Username no painel esquerdo do laboratório.
-
Clique em Allow para autorizar que o Cloud Dataprep acesse sua conta do Google Cloud do laboratório.
-
Marque a caixa de seleção para aceitar os Termos de Serviço da Trifacta e clique em Accept.
-
Clique em Continue na tela First time set up para criar o local de armazenamento padrão.
O Dataprep será aberto.
Teste a tarefa concluída
Clique em Verificar meu progresso para conferir a tarefa realizada. Se tiver inicializado o Cloud Dataprep com o local de armazenamento padrão, você verá uma pontuação de avaliação.
Tarefa 3: criar um fluxo
O Cloud Dataprep usa um espaço de trabalho flow
para acessar e manipular conjuntos de dados.
- Clique no ícone Flows. Depois clique no botão Create e selecione Blank Flow:
- Clique em Untitled Flow e digite um nome e uma descrição para o fluxo. Como este laboratório usa dados de 2016 da Comissão Eleitoral Federal dos Estados Unidos (FEC), nomeie o fluxo como "FEC-2016" e adicione "Comissão Eleitoral Federal dos Estados Unidos de 2016" na descrição.
- Clique em OK.
A página do fluxo "FEC-2016" é aberta.
Tarefa 4: importar os conjuntos de dados
Nesta seção, você vai importar e adicionar dados ao fluxo FEC-2016.
-
Clique em Add Datasets e selecione o link Import Datasets.
-
No painel do menu à esquerda, selecione Cloud Storage para importar conjuntos de dados do Cloud Storage e clique no lápis para editar o caminho do arquivo.
- Digite
gs://spls/gsp105
na caixa de texto Choose a file or folder e clique em Go.
Talvez seja preciso ampliar a janela do navegador para ver os botões Go e Cancel.
-
Clique em us-fec/.
-
Clique no ícone + ao lado de
cn-2016.txt
para criar um conjunto de dados que será exibido no painel direito. Clique no título do conjunto de dados no painel direito e mude o nome para "Candidate Master 2016". -
Da mesma maneira, adicione o conjunto de dados
itcont-2016-orig.txt
e mude o nome dele para "Campaign Contributions 2016". -
Depois que os conjuntos de dados estiverem listados no painel direito, clique em Import & Add to Flow.
Você verá os dois conjuntos de dados listados como um fluxo.
Tarefa 5: preparar o arquivo "Candidate"
- Por padrão, o conjunto de dados "Candidate Master 2016" estará selecionado. No painel direito, clique em Edit Recipe.
A página "Transformer" do conjunto "Candidate Master 2016" é aberta na visualização em grade.
Você vai criar o roteiro de transformação na página "Transformer" e ver os resultados aplicados à amostra. Quando o resultado for satisfatório, execute o job no conjunto de dados.
- Cada cabeçalho de coluna tem um nome e um valor que especificam o tipo de dados. Para ver os tipos de dados, clique no ícone da coluna:
-
Quando você clica no nome da coluna, o painel Details é aberto à direita.
-
Clique em X no canto superior direito do painel Details para fechar.
Nas etapas a seguir, você vai analisar dados na visualização em grade e aplicar etapas de transformação ao roteiro.
- A "Column5" apresenta dados de 1990 a 2064. Amplie a "column5" (como em uma planilha) para separar cada ano. Clique para selecionar o agrupamento mais alto, que representa o ano de 2016.
Isso cria uma etapa para selecionar esses valores.
- No painel Suggestions à direita, na seção Keep rows, clique em Add para adicionar essa etapa ao roteiro.
Agora o painel "Recipe" à direita tem a seguinte etapa:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- Na "Column6" ("State"), passe o cursor e clique na parte não correspondente (vermelha) do cabeçalho para selecionar as linhas incompatíveis.
Role para baixo até o fim (destacado em vermelho) e observe os valores incompatíveis. A maioria desses registros tem o valor "P" em column7 e "US" em column6. A incompatibilidade acontece porque "column6" está marcada como uma coluna "State" (indicada pelo ícone de sinalização), mas inclui valores não relacionados a estados (como "US").
- Para corrigir esse problema e cancelar a transformação, clique em X na parte superior do painel "Suggestions". Depois clique e mude o ícone de sinalização em "Column6" para uma coluna "String".
Não há mais incompatibilidade, e o marcador da coluna agora está verde.
- Filtre somente os candidatos presidenciais, que são os registros com o valor "P" na "column7". No histograma de "column7", passe o cursor sobre as duas barras para ver qual é "H" e qual é "P". Clique na barra "P".
- No painel direito "Suggestions", clique em Add para aceitar a etapa no roteiro.
Tarefa 6: organizar o arquivo Contributions e mescle ao arquivo Candidates
Na página "Join", você pode adicionar o conjunto de dados atual a outro conjunto ou roteiro com base nas informações comuns a ambos.
Organize o arquivo "Contributions" antes de mesclá-lo com o arquivo "Candidates".
- Clique em FEC-2016 (o seletor do conjunto de dados) na parte superior da página de visualização em grade.
-
Clique no item Campaign Contributions 2016 esmaecido para selecioná-lo.
-
No painel direito, clique em Add > Recipe e Edit Recipe.
-
Clique no ícone do recipe na parte superior direita da página e em Add New Step.
Remova os delimitadores adicionais do conjunto de dados.
- Insira o seguinte comando de linguagem Wrangle na caixa de pesquisa:
O "Transformation Builder" analisa o comando Wrangle e preenche os campos de transformação "Find" e "Replace".
-
Clique em Add para adicionar a transformação ao roteiro.
-
Adicione uma nova etapa ao roteiro. Clique em New Step e digite "Join" na caixa de pesquisa.
-
Clique em Join datasets para abrir a página "Joins".
-
Clique em "Candidate Master 2016" para mesclá-lo com "Campaign Contributions 2016". Depois clique em Accept no canto inferior direito.
- No lado direito, passe o cursor pela seção "Join keys" e clique no lápis (ícone "Editar").
O Dataprep infere chaves comuns. Há muitos valores comuns que o Dataprep sugere como chaves "Join".
- No painel "Add Key", clique em column2 = column11 na seção "Suggested join keys".
- Clique em Save and continue.
As colunas 2 e 11 serão abertas para análise.
- Clique em Next e marque a caixa de seleção à esquerda do rótulo "Column" para adicionar as colunas de ambos os conjuntos de dados ao conjunto de dados mesclado.
- Clique em Review e em Add to Recipe para retornar à visualização em grade.
Tarefa 7: resumo dos dados
Para gerar um resumo útil, agregue e conte as contribuições na coluna 16, calcule a média delas e agrupe os candidatos por IDs, nomes e afiliação partidária nas colunas 2, 24 e 8, respectivamente.
- Na parte superior do painel "Recipe" à direita, clique em New Step e digite a fórmula abaixo na caixa de pesquisa Transformation para ver os dados agregados.
Uma amostra inicial dos dados mesclados e agregados é exibida, representando uma tabela de resumo dos candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.
- Clique em Add para abrir uma tabela de resumo dos principais candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.
Tarefa 8: renomear as colunas
Para facilitar a interpretação dos dados, você pode renomear as colunas.
- Adicione cada uma das etapas de renomeação e arredondamento ao roteiro. Para isso, clique em New Step e digite:
-
Em seguida, clique em Add.
-
Adicione a última New Step para arredondar o valor de "Average Contribution":
- Em seguida, clique em Add.
Os resultados serão parecidos com o seguinte:
Parabéns!
Você usou o Dataprep para adicionar um conjunto de dados e criou roteiros para transformar os dados em resultados úteis.
Próximas etapas / Saiba mais
Este laboratório faz parte de uma série chamada Qwik Starts. Ela foi desenvolvida para apresentar a você alguns dos recursos disponíveis no Google Cloud. Pesquise "Qwik Starts" no catálogo de laboratórios para encontrar algum que seja do seu interesse.
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 6 de junho de 2024
Laboratório testado em 6 de junho de 2024
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.