arrow_back

Dataprep: Qwik Start

Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

Dataprep: Qwik Start

Laboratório 1 hora universal_currency_alt 1 crédito show_chart Introdutório
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Teste e compartilhe seu conhecimento com nossa comunidade.
done
Tenha acesso a mais de 700 laboratórios, selos de habilidade e cursos

Este laboratório foi desenvolvido com nossa parceira, a Trifacta. Suas informações pessoais podem ser compartilhadas com a Trifacta, patrocinadora do laboratório, caso você tenha optado por receber atualizações de produtos, anúncios e ofertas no perfil de conta.

GSP105

Laboratórios autoguiados do Google Cloud

Visão geral

O Cloud Dataprep by Trifacta é um serviço de dados inteligente para realizar a exploração visual, limpeza e preparação dos dados para análise. É um serviço sem servidor que funciona em qualquer escala. Não é necessário implantar ou gerenciar uma infraestrutura. Prepare seus dados com alguns cliques e sem código.

Neste laboratório, você usará o Dataprep para manipular um conjunto de dados. Você vai importar conjuntos de dados, corrigir dados não correspondentes, e também transformar e mesclar os dados. Se tudo isso for novidade, ao final do laboratório você terá aprendido a realizar todas essas tarefas.

Atividades

Neste laboratório, você vai aprender a usar o Dataprep para concluir estas tarefas:

  • Importar dados
  • Corrigir dados não correspondentes
  • Transformar dados
  • Agrupar dados

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:

    • O botão Abrir console do Google Cloud
    • O tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

    O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.

    {{{user_0.username | "Nome de usuário"}}}

    Você também encontra o Nome de usuário no painel Detalhes do laboratório.

  4. Clique em Seguinte.

  5. Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.

    {{{user_0.password | "Senha"}}}

    Você também encontra a Senha no painel Detalhes do laboratório.

  6. Clique em Seguinte.

    Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  7. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: clique em Menu de navegação no canto superior esquerdo para acessar uma lista de produtos e serviços do Google Cloud. Ícone do menu de navegação

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

  1. Clique em Ativar o Cloud Shell Ícone "Ativar o Cloud Shell" na parte de cima do console do Google Cloud.

Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

  1. (Opcional) É possível listar o nome da conta ativa usando este comando:
gcloud auth list
  1. Clique em Autorizar.

  2. A saída será parecida com esta:

Saída:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcional) É possível listar o ID do projeto usando este comando:
gcloud config list project

Saída:

[core] project = <project_ID>

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6 Observação: para conferir a documentação completa da gcloud, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.

Tarefa 1: crie um bucket do Cloud Storage no seu projeto

  1. No console do Cloud, selecione Menu de navegação(Ícone do menu de navegação) > Cloud Storage > Buckets.

  2. Clique em Criar bucket.

  3. Na caixa de diálogo Criar um bucket, dê um Nome exclusivo ao bucket. Não altere as outras configurações.

Observação: para saber mais sobre nomes de buckets, confira a documentação do Cloud Storage.
  1. Desmarque a opção Aplicar a prevenção do acesso público neste bucket em Escolher como controlar o acesso a objetos.

  2. Clique em Criar.

Você criou um bucket. Lembre do nome dele nas próximas etapas.

Teste a tarefa concluída

Clique em Verificar meu progresso para conferir a tarefa realizada. Se o bucket do Cloud Storage foi criado, vai aparecer uma pontuação de avaliação.

crie um bucket do Cloud Storage

Tarefa 2: inicializar o Cloud Dataprep

  1. Abra o Cloud Shell e execute o seguinte comando:
gcloud beta services identity create --service=dataprep.googleapis.com

Uma mensagem vai aparecer informando que a identidade do serviço foi criada.

  1. Selecione Menu de navegação > Dataprep.

  2. Marque a caixa de seleção para aceitar os Termos de Serviço do Google Dataprep e clique em Accept.

  3. Marque a caixa de seleção para autorizar o compartilhamento das informações da sua conta com a Trifacta e clique em Agree and Continue.

  4. Clique em Allow para que a Trifacta acesse os dados do projeto.

  5. Clique no seu nome de usuário de aluno para fazer login no Cloud Dataprep by Trifacta. Ele está em Username no painel esquerdo do laboratório.

  6. Clique em Allow para autorizar que o Cloud Dataprep acesse sua conta do Google Cloud do laboratório.

  7. Marque a caixa de seleção para aceitar os Termos de Serviço da Trifacta e clique em Accept.

  8. Clique em Continue na tela First time set up para criar o local de armazenamento padrão.

O Dataprep será aberto.

Teste a tarefa concluída

Clique em Verificar meu progresso para conferir a tarefa realizada. Se tiver inicializado o Cloud Dataprep com o local de armazenamento padrão, você verá uma pontuação de avaliação.

Inicialize o Cloud Dataprep

Tarefa 3: criar um fluxo

O Cloud Dataprep usa um espaço de trabalho flow para acessar e manipular conjuntos de dados.

  1. Clique no ícone Flows. Depois clique no botão Create e selecione Blank Flow:

Ícone Flows, botão Create, opção &quot;Blank Flow&quot;

  1. Clique em Untitled Flow e digite um nome e uma descrição para o fluxo. Como este laboratório usa dados de 2016 da Comissão Eleitoral Federal dos Estados Unidos (FEC), nomeie o fluxo como "FEC-2016" e adicione "Comissão Eleitoral Federal dos Estados Unidos de 2016" na descrição.
  2. Clique em OK.

A página do fluxo "FEC-2016" é aberta.

Tarefa 4: importar os conjuntos de dados

Nesta seção, você vai importar e adicionar dados ao fluxo FEC-2016.

  1. Clique em Add Datasets e selecione o link Import Datasets.

  2. No painel do menu à esquerda, selecione Cloud Storage para importar conjuntos de dados do Cloud Storage e clique no lápis para editar o caminho do arquivo.

Página do Cloud Storage

  1. Digite gs://spls/gsp105 na caixa de texto Choose a file or folder e clique em Go.

Talvez seja preciso ampliar a janela do navegador para ver os botões Go e Cancel.

  1. Clique em us-fec/.

  2. Clique no ícone + ao lado de cn-2016.txt para criar um conjunto de dados que será exibido no painel direito. Clique no título do conjunto de dados no painel direito e mude o nome para "Candidate Master 2016".

  3. Da mesma maneira, adicione o conjunto de dados itcont-2016-orig.txt e mude o nome dele para "Campaign Contributions 2016".

  4. Depois que os conjuntos de dados estiverem listados no painel direito, clique em Import & Add to Flow.

Dois conjuntos de dados listados no painel direito

Você verá os dois conjuntos de dados listados como um fluxo.

Tarefa 5: preparar o arquivo "Candidate"

  1. Por padrão, o conjunto de dados "Candidate Master 2016" estará selecionado. No painel direito, clique em Edit Recipe.

Página do conjunto de dados &quot;Candidate Master 2016&quot;

A página "Transformer" do conjunto "Candidate Master 2016" é aberta na visualização em grade.

Visualização em grade da página &quot;Transformer&quot; de &quot;Candidate Master 2016&quot;

Você vai criar o roteiro de transformação na página "Transformer" e ver os resultados aplicados à amostra. Quando o resultado for satisfatório, execute o job no conjunto de dados.

  1. Cada cabeçalho de coluna tem um nome e um valor que especificam o tipo de dados. Para ver os tipos de dados, clique no ícone da coluna:

column6

  1. Quando você clica no nome da coluna, o painel Details é aberto à direita.

  2. Clique em X no canto superior direito do painel Details para fechar.

Nas etapas a seguir, você vai analisar dados na visualização em grade e aplicar etapas de transformação ao roteiro.

  1. A "Column5" apresenta dados de 1990 a 2064. Amplie a "column5" (como em uma planilha) para separar cada ano. Clique para selecionar o agrupamento mais alto, que representa o ano de 2016.

column5

Isso cria uma etapa para selecionar esses valores.

  1. No painel Suggestions à direita, na seção Keep rows, clique em Add para adicionar essa etapa ao roteiro.

 Painel &quot;Suggestions&quot;

Agora o painel "Recipe" à direita tem a seguinte etapa:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Na "Column6" ("State"), passe o cursor e clique na parte não correspondente (vermelha) do cabeçalho para selecionar as linhas incompatíveis.

column6

Role para baixo até o fim (destacado em vermelho) e observe os valores incompatíveis. A maioria desses registros tem o valor "P" em column7 e "US" em column6. A incompatibilidade acontece porque "column6" está marcada como uma coluna "State" (indicada pelo ícone de sinalização), mas inclui valores não relacionados a estados (como "US").

  1. Para corrigir esse problema e cancelar a transformação, clique em X na parte superior do painel "Suggestions". Depois clique e mude o ícone de sinalização em "Column6" para uma coluna "String".

column6

Não há mais incompatibilidade, e o marcador da coluna agora está verde.

  1. Filtre somente os candidatos presidenciais, que são os registros com o valor "P" na "column7". No histograma de "column7", passe o cursor sobre as duas barras para ver qual é "H" e qual é "P". Clique na barra "P".

column7

  1. No painel direito "Suggestions", clique em Add para aceitar a etapa no roteiro.

Mantenha a caixa das linhas

Tarefa 6: organizar o arquivo Contributions e mescle ao arquivo Candidates

Na página "Join", você pode adicionar o conjunto de dados atual a outro conjunto ou roteiro com base nas informações comuns a ambos.

Organize o arquivo "Contributions" antes de mesclá-lo com o arquivo "Candidates".

  1. Clique em FEC-2016 (o seletor do conjunto de dados) na parte superior da página de visualização em grade.

FEC-2016 na parte superior da página da visualização em grade

  1. Clique no item Campaign Contributions 2016 esmaecido para selecioná-lo.

  2. No painel direito, clique em Add > Recipe e Edit Recipe.

  3. Clique no ícone do recipe na parte superior direita da página e em Add New Step.

Ícone &quot;Recipe&quot; e botão &quot;Add New Step&quot;

Remova os delimitadores adicionais do conjunto de dados.

  1. Insira o seguinte comando de linguagem Wrangle na caixa de pesquisa:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

O "Transformation Builder" analisa o comando Wrangle e preenche os campos de transformação "Find" e "Replace".

Transformation Builder

  1. Clique em Add para adicionar a transformação ao roteiro.

  2. Adicione uma nova etapa ao roteiro. Clique em New Step e digite "Join" na caixa de pesquisa.

Caixa &quot;Search transformations&quot;

  1. Clique em Join datasets para abrir a página "Joins".

  2. Clique em "Candidate Master 2016" para mesclá-lo com "Campaign Contributions 2016". Depois clique em Accept no canto inferior direito.

Linha de &quot;Candidate Master 2016&quot;

  1. No lado direito, passe o cursor pela seção "Join keys" e clique no lápis (ícone "Editar").

Caixa &quot;Join conditions&quot;

O Dataprep infere chaves comuns. Há muitos valores comuns que o Dataprep sugere como chaves "Join".

  1. No painel "Add Key", clique em column2 = column11 na seção "Suggested join keys".

Painel &quot;Add Key&quot;

  1. Clique em Save and continue.

As colunas 2 e 11 serão abertas para análise.

  1. Clique em Next e marque a caixa de seleção à esquerda do rótulo "Column" para adicionar as colunas de ambos os conjuntos de dados ao conjunto de dados mesclado.

Lista de rótulos de coluna

  1. Clique em Review e em Add to Recipe para retornar à visualização em grade.

Tarefa 7: resumo dos dados

Para gerar um resumo útil, agregue e conte as contribuições na coluna 16, calcule a média delas e agrupe os candidatos por IDs, nomes e afiliação partidária nas colunas 2, 24 e 8, respectivamente.

  1. Na parte superior do painel "Recipe" à direita, clique em New Step e digite a fórmula abaixo na caixa de pesquisa Transformation para ver os dados agregados.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Uma amostra inicial dos dados mesclados e agregados é exibida, representando uma tabela de resumo dos candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.

Página &quot;Campaign contributions&quot;

  1. Clique em Add para abrir uma tabela de resumo dos principais candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.

Tarefa 8: renomear as colunas

Para facilitar a interpretação dos dados, você pode renomear as colunas.

  1. Adicione cada uma das etapas de renomeação e arredondamento ao roteiro. Para isso, clique em New Step e digite:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Em seguida, clique em Add.

  2. Adicione a última New Step para arredondar o valor de "Average Contribution":

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Em seguida, clique em Add.

Os resultados serão parecidos com o seguinte:

Tabela de resultados com colunas para Candidate_Id, Candidate_Name, Part_Affiliation e Total_Contribution_Sum

Parabéns!

Você usou o Dataprep para adicionar um conjunto de dados e criou roteiros para transformar os dados em resultados úteis.

Próximas etapas / Saiba mais

Este laboratório faz parte de uma série chamada Qwik Starts. Ela foi desenvolvida para apresentar a você alguns dos recursos disponíveis no Google Cloud. Pesquise "Qwik Starts" no catálogo de laboratórios para encontrar algum que seja do seu interesse.

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 6 de junho de 2024

Laboratório testado em 6 de junho de 2024

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível