
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Calculate trips taken by Yellow taxi in each month of 2015
/ 10
Calculate average speed of Yellow taxi trips in 2015
/ 10
Test whether fields are good inputs to your fare forecasting model
/ 20
Create a BigQuery dataset to store models
/ 10
Create a taxifare model
/ 20
Evaluate classification model performance
/ 10
Predict taxi fare amount
/ 20
O BigQuery é um banco de dados de análise NoOps, totalmente gerenciado e de baixo custo desenvolvido pelo Google. Ele permite consultar muitos terabytes de dados sem ter que gerenciar uma infraestrutura nem precisar de um administrador de banco de dados.
Com o BigQuery ML, os analistas de dados podem usar modelos de machine learning com o mínimo de programação para criar, treinar, avaliar e fazer previsões.
Neste laboratório, você vai analisar milhões de corridas dos táxis amarelos de Nova York, disponibilizadas em um conjunto de dados público do BigQuery. Esses dados serão usados para criar um modelo de machine learning dentro do BigQuery que estima as tarifas cobradas com base nas entradas, avaliar o desempenho e fazer previsões com o modelo.
Neste laboratório, você vai aprender a realizar estas tarefas:
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
Você também encontra o Nome de usuário no painel Detalhes do laboratório.
Clique em Seguinte.
Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.
Você também encontra a Senha no painel Detalhes do laboratório.
Clique em Seguinte.
Acesse as próximas páginas:
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e as notas de versão.
O console do BigQuery vai abrir.
Pergunta: Quantas corridas os táxis amarelos fizeram por mês em 2015?
Este é o resultado:
Notamos que cada mês de 2015 teve mais de 10 milhões de corridas de táxi em Nova York, uma quantidade nada modesta.
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Pergunta: qual foi a velocidade média das corridas dos táxis amarelos em 2015?
Este é o resultado:
Durante o dia, a velocidade média é de aproximadamente 18 a 19 km/h, mas ela quase dobra para 34 km/h às 5h da manhã. Isso faz sentido, já que provavelmente há menos tráfego nesse horário.
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Agora você criará um modelo de machine learning no BigQuery para estimar o preço de uma corrida de táxi em Nova York, com base no conjunto de dados históricos das corridas e em dados sobre as corridas. Estimar a tarifa antes da corrida pode ajudar bastante ao planejar a viagem, tanto para o passageiro quanto para a empresa de táxi.
O conjunto de dados público sobre os táxis amarelos de Nova York é fornecido pela cidade e foi carregado no BigQuery para você analisar.
Consulte a lista completa dos campos e depois visualize o conjunto de dados para encontrar atributos úteis que podem ajudar um modelo de machine learning a entender a relação entre os dados históricos das corridas de táxi e as tarifas cobradas.
Sua equipe decide testar se os campos abaixo serão úteis para o modelo de previsão de tarifas:
Alguns detalhes sobre a consulta:
SELECT * from taxitrips
).taxitrips
faz a maior parte da extração para o conjunto de dados de Nova York, e SELECT
contém o rótulo e os atributos do treinamento.WHERE
remove os dados que você não quer adicionar ao treinamento.WHERE
também inclui uma cláusula de amostra para coletar apenas 1/1.000 dos dados.TRAIN
para criar rapidamente um conjunto EVAL
independente.O resultado será parecido com este:
Qual é o rótulo (resposta correta)?
total_fare
é o rótulo (o que será estimado). Como você criou esse campo com base em tolls_amount
e fare_amount
, pode desconsiderar a inclusão das gorjetas dos clientes no modelo, porque elas são opcionais.
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Nesta seção, você criará um novo conjunto de dados do BigQuery que armazenará seus modelos de ML.
No painel Explorer à esquerda, clique no ícone Ver ações ao lado do ID do projeto, e depois clique em Criar conjunto de dados.
Na caixa de diálogo "Criar conjunto de dados", digite as seguintes informações:
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Agora que você selecionou os atributos iniciais, já pode criar o primeiro modelo de ML no BigQuery.
Há diversos tipos de modelos à sua disposição:
Depois, clique em Executar para treinar o modelo.
Aguarde o modelo ser treinado (5 a 10 minutos).
Após treinar o modelo, aparecerá a mensagem "This statement will create a new model named qwiklabs-gcp-03-xxxxxxxx:taxi.taxifare_model.", o que indica que o modelo foi treinado com sucesso.
Em seguida, você avaliará o desempenho do modelo com novos dados de avaliação.
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Para modelos de regressão linear, é importante usar uma métrica de perda como a raiz do erro quadrático médio (REMQ) (página em inglês). Continue treinando e melhorando o modelo até ele atingir a menor REMQ.
No BQML, é possível consultar o campo mean_squared_error
ao avaliar seu modelo de ML treinado. Adicione SQRT()
para gerar a REMQ.
Agora que o treinamento terminou, você pode avaliar o desempenho do modelo com essa consulta usando ML.EVALUATE
.
Agora você está avaliando o modelo com outro conjunto de viagens de táxi usando seu filtro params.EVAL
.
Linha |
REMQ |
1 |
9.477056435999074 |
Após avaliar o modelo, você receberá uma REMQ de 9,47. Como adotamos a raiz do erro quadrático médio (REMQ), o erro 9,47 pode ser avaliado nas mesmas unidades que total_fare. Portanto, cerca de US$ 9,47.
Saber se essa métrica de perda é aceitável ou não para a produção do seu modelo depende totalmente dos critérios de referência definidos antes do treinamento. A referência define um nível mínimo aceitável de desempenho e acurácia para o modelo.
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
Agora, escreva uma consulta para fazer previsões com seu novo modelo.
Agora serão exibidas as previsões de tarifas de táxi do modelo, as tarifas reais e outras informações sobre as viagens. Os resultados serão parecidos com estes:
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa corretamente, receberá uma pontuação de avaliação.
A criação de modelos de machine learning é um processo iterativo. Após avaliarmos o desempenho do modelo inicial, geralmente voltamos e removemos atributos e linhas para ver se conseguimos um modelo ainda melhor.
Vamos consultar as estatísticas comuns de tarifas de táxi.
O resultado é parecido com este:
Você deve ter notado alguns valores atípicos no conjunto de dados (tarifas negativas ou acima de US$ 50.000). Aplique um pouco do que você sabe sobre o assunto para evitar que o modelo aprenda outliers atípicos.
Limite os dados a valores entre US$ 6 e US$ 200.
O resultado é parecido com este:
Ficou um pouco melhor. Aproveite que você já está aqui e limite a distância percorrida para se concentrar na cidade de Nova York.
O resultado é parecido com este:
Você ainda tem um grande conjunto de dados com mais de 800 milhões de corridas para treinar o novo modelo. Repita o treinamento com essas novas restrições e analise o desempenho.
Dê ao novo modelo o nome taxi.taxifare_model_2
e treine novamente o modelo de regressão linear para prever a tarifa total. Você também perceberá que foram adicionados alguns atributos calculados para a distância euclidiana (linha reta) entre os locais de partida e chegada.
Pode levar alguns minutos para treinar o modelo de novo. Já será possível avançar para a próxima etapa assim que receber esta mensagem no console:
Agora que otimizou o modelo de regressão linear, avalie o conjunto de dados que o usa e confira o desempenho.
O resultado é parecido com este:
A REMQ caiu para +- US$ 5,12, que é significativamente melhor do que o valor de cerca de US$ 9,47 do primeiro modelo.
Como a REQM define o desvio padrão dos erros de previsão, vemos que a regressão linear treinada novamente deixou nosso modelo muito mais preciso.
Responda às perguntas de múltipla escolha abaixo para reforçar sua compreensão dos conceitos abordados neste laboratório. Use tudo o que você aprendeu até aqui.
Se quiser saber mais sobre a criação de modelos em outros conjuntos de dados, como na previsão de tarifas para corridas de táxi, use o projeto bigquery-public-data.
Para abrir o conjunto de dados bigquery-public-data, clique em +Adicionar > Marcar um projeto com estrela por nome > Inserir o nome do projeto, depois insira bigquery-public-data
.
Clique em Marcar com estrela.
O projeto bigquery-public-data
será listado na seção Explorer.
Você criou um modelo de machine learning no BigQuery para prever o valor de uma corrida de táxi em Nova York.
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 7 de fevereiro de 2024
Laboratório testado em 24 de agosto de 2023
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
One lab at a time
Confirm to end all existing labs and start this one