Checkpoints
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Engineer Data for Predictive Modeling with BigQuery ML: laboratório com desafio
GSP327
Informações gerais
Nos laboratórios com desafio, apresentamos uma situação e um conjunto de tarefas. Para concluí-las, em vez de seguir instruções detalhadas, você usará o que aprendeu nos laboratórios do curso. Um sistema automático de pontuação (mostrado nesta página) vai avaliar seu desempenho.
Nos laboratórios com desafio, não ensinamos novos conceitos do Google Cloud. O objetivo dessas tarefas é aprimorar aquilo que você já aprendeu, como a alteração de valores padrão ou a leitura e pesquisa de mensagens para corrigir seus próprios erros.
Para alcançar a pontuação de 100%, você precisa concluir todas as tarefas no tempo definido.
Este laboratório é recomendado para estudantes que se inscreveram no selo de habilidade Engineer Data for Predictive Modeling with BigQuery ML. Tudo pronto para começar o desafio?
Configuração
Antes de clicar no botão Start Lab
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
- Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Cenário do desafio
A TaxiCab Inc contratou você para o cargo de engenheiro de dados. Sua tarefa é importar dados históricos para um conjunto de dados funcional do BigQuery e criar um modelo básico, que usa as informações disponíveis para prever o preço da corrida assim que ela começar. Os diretores da empresa querem criar um aplicativo que mostra aos usuários o preço estimado da corrida. Os dados de origem serão incluídos no projeto.
Seu conhecimento deve ser suficiente para realizar essas tarefas sem guias explicativos.
Seu desafio
Assim que abrir o novo laptop na sua mesa, você receberá uma solicitação da diretoria da empresa para criar um modelo básico de previsão do valor da corrida no BQML. Realize as tarefas a seguir para importar e limpar os dados, depois crie o modelo e faça previsões em lote com os dados novos. Assim, os diretores podem avaliar o desempenho do modelo e decidir se a funcionalidade será implantada ou não no aplicativo.
Tarefa 1: limpe os dados de treinamento
Você já criou o conjunto de dados taxirides
e importou os dados históricos para a tabela historical_taxi_rides_raw
. Os dados incluem as informações de corridas de 2015.
Para concluir esta tarefa, faça o seguinte:
- Limpe os dados em
historical_taxi_rides_raw
e copie parano mesmo conjunto de dados. É possível usar o BigQuery, o DataPrep ou o DataFlow para criar a tabela e limpar os dados. O nome da coluna de destino deve ser .
Algumas dicas úteis:
- Primeiro, abra o conjunto de dados de origem na UI do BQ para conhecer o esquema de origem.
- Para saber mais sobre os dados disponíveis no momento da previsão, consulte a tabela
taxirides.report_prediction_data
, que mostra o formato em que eles serão estruturados.
Tarefas de limpeza de dados:
- Confira se
trip_distance
é maior que. - Remova as linhas em que
fare_amount
tem um valor muito baixo (por exemplo, menor queUS$
). - Verifique se as latitudes e longitudes são relevantes para o caso de uso.
- Veja se
passenger_count
é maior que. - Adicione
tolls_amount
efare_amount
acomo a variável de destino, já que "total_amount" inclui gorjetas. - Como o conjunto de dados de origem é grande (mais de 1 bilhão de linhas), crie uma amostra com menos de 1 milhão de linhas.
- Copie apenas os campos que serão usados no modelo (
report_prediction_data
pode servir como guia).
Clique em Verificar meu progresso para conferir o objetivo.
Tarefa 2: crie um modelo do BigQuery ML
-
Com base nos dados em
, crie um modelo do BigQuery ML que faça previsões de . -
Chame este modelo de
.
Algumas dicas úteis:
- É possível encapsular as transformações de dados adicionais em uma cláusula TRANSFORM().
- É importante lembrar que apenas os recursos na cláusula
TRANSFORM()
serão transmitidos para o modelo. Você pode usar* EXCEPT(feature_to_leave_out)
para transmitir recursos sem chamá-los explicitamente. - As funções SIG
ST_distance()
eST_GeogPoint()
no BigQuery podem ser usadas para calcular com facilidade a distância euclidiana (ou seja, o deslocamento do táxi entre os pontos de partida e chegada da corrida):
Clique em Verificar meu progresso para conferir o objetivo.
Tarefa 3: faça uma previsão em lote com os dados novos
Os diretores estão curiosos para saber os resultados do seu modelo com os dados novos (neste caso, todos os dados coletados em 2015). Esses dados estão em taxirides.report_prediction_data
. Apenas os valores conhecidos no momento da previsão são incluídos na tabela.
- Use
ML.PREDICT
e seu modelo para prever. Depois, armazene os resultados em uma tabela chamada 2015_fare_amount_predictions
.
Clique em Verificar meu progresso para conferir o objetivo. 2015_fare_amount_predictions
Parabéns!
Conquiste seu próximo selo de habilidade
Este laboratório autoguiado faz parte do selo de habilidade Engineer Data for Predictive Modeling with BigQuery ML. Ao concluir o curso, você ganha o selo acima como reconhecimento pela sua conquista. Ele pode ser adicionado ao seu currículo e compartilhado nas plataformas sociais. Use #GoogleCloudBadge para anunciar sua conquista.
Este selo de habilidade faz parte do programa de aprendizado Data Engineer do Google Cloud. Se você já concluiu os outros selos deste programa, consulte o catálogo para ver mais opções para se inscrever.
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 25 de março de 2024
Laboratório testado em 11 de setembro de 2023
Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.