Neste laboratório, você vai analisar observações históricas da NOAA sobre o tempo usando o BigQuery. Em seguida, você vai juntar os dados meteorológicos com as reclamações que são feitas ao telefone 311 (atendimento ao cidadão) de Nova York, parecido com o que Reto Meier escreveu em seu post (em inglês), demonstrando como as variáveis de dados podem se correlacionar.
Você vai testar vários aspectos do Google Cloud que são muito úteis para cientistas:
Computação sem servidor. Não é preciso fazer o download de dados para sua máquina. O conjunto de dados permanece na nuvem enquanto você trabalha com ele.
Facilidade de uso. Execute consultas SQL ad hoc no seu conjunto de dados sem precisar preparar os dados, como índices, de antemão.
Escalonamento. Realize a exploração de dados em conjuntos extremamente grandes de maneira interativa. Não é preciso usar uma amostra dos dados para agilizar o trabalho.
Possibilidade de compartilhamento. Execute consultas em dados de diferentes conjuntos sem complicações. Com o BigQuery, fica muito mais fácil compartilhar conjuntos de dados. É claro que seus dados podem permanecer particulares ou ser compartilhados somente com pessoas específicas. Nem todos os dados precisam ser públicos.
Como resultado, você vai descobrir quais tipos de queixas dos cidadãos estão relacionadas ao tempo. Por exemplo, você verá que as reclamações mais comuns no inverno são sobre aquecedores residenciais.
O que você vai aprender
Neste laboratório, você aprenderá a:
fazer consultas interativas no console do BigQuery;
combinar e executar análises em vários conjuntos de dados.
usar a função CORR para determinar se há correlação entre os conjuntos de dados e se ela é positiva ou negativa.
Pré-requisitos
Este é um laboratório de nível básico que exige alguma experiência com BigQuery e SQL. Se você nunca trabalhou com eles, o laboratório BigQuery: Qwik Start - Console dá uma força para você se inteirar sobre esses serviços do Google Cloud.
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Como iniciar seu laboratório e fazer login no console do Google Cloud
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento.
No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
O botão Abrir Console do Google Cloud
O tempo restante
As credenciais temporárias que você vai usar neste laboratório
Outras informações, se forem necessárias
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
Clique em Próxima.
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud.
Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
Acesse as próximas páginas:
Aceite os Termos e Condições.
Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.
Tarefa 1. Analise dados meteorológicos
Abrir o console do BigQuery
No Console do Google Cloud, selecione o menu de navegação > BigQuery:
Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e as notas de versão.
Clique em OK.
O console do BigQuery vai abrir.
No painel Explorer, clique em + ADICIONAR.
A janela "Adicionar dados" será exibida.
Clique em Marcar um projeto com estrela por nome em "Outras fontes".
Digite bigquery-public-data e clique em MARCAR COM ESTRELA.
No console do BigQuery, há dois projetos no painel "Explorer", um deles com o ID do projeto do laboratório e outro chamado bigquery-public-data.
No painel Explorer do console do BigQuery, expanda o conjunto de dados bigquery-public-data. No campo Digite para pesquisar, busque noaa_gsod e selecione a tabela gsod2014.
Na janela da tabela "gsod2014", clique na guia Visualizar.
Examine as colunas e alguns valores de dados.
Clique em Consulta > Em uma nova guia e cole esta consulta:
SELECT
-- Create a timestamp from the date components.
stn,
TIMESTAMP(CONCAT(year,"-",mo,"-",da)) AS timestamp,
-- Replace numerical null values with actual null
AVG(IF (temp=9999.9,
null,
temp)) AS temperature,
AVG(IF (wdsp="999.9",
null,
CAST(wdsp AS Float64))) AS wind_speed,
AVG(IF (prcp=99.99,
0,
prcp)) AS precipitation
FROM
`bigquery-public-data.noaa_gsod.gsod20*`
WHERE
CAST(YEAR AS INT64) > 2010
AND CAST(MO AS INT64) = 6
AND CAST(DA AS INT64) = 12
AND (stn="725030" OR -- La Guardia
stn="744860") -- JFK
GROUP BY
stn,
timestamp
ORDER BY
timestamp DESC,
stn ASC
Clique em EXECUTAR. Confira o resultado e tente identificar o que essa consulta faz.
Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.
Analise dados meteorológicos
Tarefa 2. Analise os dados das queixas dos cidadãos de Nova York
No painel "Explorer" do console do BigQuery, selecione o projeto recém-adicionado bigquery-public-data. No campo Digite para pesquisar, busque o conjunto de dados new_york_311 e selecione a tabela 311_service_requests.
Por último, clique na guia Visualizar. Seu console mostrará o seguinte:
Examine as colunas e alguns valores de dados.
Se o editor estiver fechado, clique no ícone + (Criar consulta SQL).
Cole o seguinte no EDITOR de consultas:
SELECT
EXTRACT(YEAR
FROM
created_date) AS year,
complaint_type,
COUNT(1) AS num_complaints
FROM
`bigquery-public-data.new_york.311_service_requests`
GROUP BY
year,
complaint_type
ORDER BY
num_complaints DESC
Clique em EXECUTAR.
Confira os resultados para identificar as reclamações mais comuns. Mais adiante neste laboratório, você tentará descobrir se essas reclamações têm relação com o clima.
Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.
Analise os dados das reclamações de cidadãos de Nova York
Tarefa 3. Salve a nova tabela de dados meteorológicos
No painel "Explorer" do console do BigQuery, clique nos três pontos ao lado do ID do projeto e selecione Criar conjunto de dados.
Na caixa de diálogo "Criar conjunto de dados", defina o ID do conjunto de dados como demos e deixe as outras opções com os valores padrão.
Clique em Criar conjunto de dados. Agora o projeto tem um conjunto de dados chamado demos.
Clique no ícone + (Criar consulta SQL) e execute a consulta a seguir:
SELECT
-- Create a timestamp from the date components.
timestamp(concat(year,"-",mo,"-",da)) as timestamp,
-- Replace numerical null values with actual nulls
AVG(IF (temp=9999.9, null, temp)) AS temperature,
AVG(IF (visib=999.9, null, visib)) AS visibility,
AVG(IF (wdsp="999.9", null, CAST(wdsp AS Float64))) AS wind_speed,
AVG(IF (gust=999.9, null, gust)) AS wind_gust,
AVG(IF (prcp=99.99, null, prcp)) AS precipitation,
AVG(IF (sndp=999.9, null, sndp)) AS snow_depth
FROM
`bigquery-public-data.noaa_gsod.gsod20*`
WHERE
CAST(YEAR AS INT64) > 2008
AND (stn="725030" OR -- La Guardia
stn="744860") -- JFK
GROUP BY timestamp
Na seção "Editor de consultas", clique em Mais > Configurações de consulta.
Na caixa de diálogo "Configurações de consulta", configure os campos abaixo. Não altere os outros campos.
Destination: selecione Definir uma tabela de destino para os resultados da consulta.
Dataset: digite demos e selecione o conjunto de dados.
Table Id: digite nyc_weather.
Results size: marque Permitir resultados extensos (sem limite de tamanho).
Clique em SALVAR.
Clique em EXECUTAR.
Os resultados são salvos no conjunto de dados que você criou ("demos").
Volte para Mais > Configurações de consulta. Na opção "Destino", selecione Salvar resultados da consulta em uma tabela temporária. Isso remove o conjunto de dados "demos" como um destino para futuras consultas.
Clique em SALVAR para sair das configurações de consulta.
Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.
Salve a nova tabela de dados meteorológicos
Tarefa 4: encontrar a correlação entre os conjuntos de dados
Uma correlação forte, medida pela função CORR, indica uma relação próxima e consistente entre duas variáveis. À medida que o valor de uma variável aumenta, o valor da outra também tende a aumentar (correlação positiva) ou diminuir (correlação negativa) de maneira previsível. Uma correlação forte geralmente é considerada um valor maior ou igual a 0,7 em termos absolutos. Isso significa que as mudanças em uma variável podem explicar pelo menos 49% das mudanças na outra.
Em seguida, você vai comparar o número de reclamações recebidas e a temperatura diária usando a função CORR.
Crie uma consulta SQL, clique em + e execute a consulta a seguir:
SELECT
descriptor,
sum(complaint_count) as total_complaint_count,
count(temperature) as data_count,
ROUND(corr(temperature, avg_count),3) AS corr_count,
ROUND(corr(temperature, avg_pct_count),3) AS corr_pct
From (
SELECT
avg(pct_count) as avg_pct_count,
avg(day_count) as avg_count,
sum(day_count) as complaint_count,
descriptor,
temperature
FROM (
SELECT
DATE(timestamp) AS date,
temperature
FROM
demos.nyc_weather) a
JOIN (
SELECT x.date, descriptor, day_count, day_count / all_calls_count as pct_count
FROM
(SELECT
DATE(created_date) AS date,
concat(complaint_type, ": ", descriptor) as descriptor,
COUNT(*) AS day_count
FROM
`bigquery-public-data.new_york.311_service_requests`
GROUP BY
date,
descriptor)x
JOIN (
SELECT
DATE(timestamp) AS date,
COUNT(*) AS all_calls_count
FROM `demos.nyc_weather`
GROUP BY date
)y
ON x.date=y.date
)b
ON
a.date = b.date
GROUP BY
descriptor,
temperature
)
GROUP BY descriptor
HAVING
total_complaint_count > 5000 AND
ABS(corr_pct) > 0.5 AND
data_count > 5
ORDER BY
ABS(corr_pct) DESC
Os resultados indicam que as reclamações referentes a sistemas de aquecimento estão negativamente correlacionadas com a temperatura, ou seja, há mais chamadas relacionadas a essa questão em dias frios. Já as chamadas sobre árvores mortas estão positivamente correlacionadas com a temperatura, ou seja, há mais chamadas em dias quentes.
A seguir, compare o número de reclamações e a velocidade do vento usando a função "CORR".
Clique no ícone + (Criar consulta SQL) e execute a consulta a seguir:
SELECT
descriptor,
sum(complaint_count) as total_complaint_count,
count(wind_speed) as data_count,
ROUND(corr(wind_speed, avg_count),3) AS corr_count,
ROUND(corr(wind_speed, avg_pct_count),3) AS corr_pct
From (
SELECT
avg(pct_count) as avg_pct_count,
avg(day_count) as avg_count,
sum(day_count) as complaint_count,
descriptor,
wind_speed
FROM (
SELECT
DATE(timestamp) AS date,
wind_speed
FROM
demos.nyc_weather) a
JOIN (
SELECT x.date, descriptor, day_count, day_count / all_calls_count as pct_count
FROM
(SELECT
DATE(created_date) AS date,
concat(complaint_type, ": ", descriptor) as descriptor,
COUNT(*) AS day_count
FROM
`bigquery-public-data.new_york.311_service_requests`
GROUP BY
date,
descriptor)x
JOIN (
SELECT
DATE(timestamp) AS date,
COUNT(*) AS all_calls_count
FROM `demos.nyc_weather`
GROUP BY date
)y
ON x.date=y.date
)b
ON
a.date = b.date
GROUP BY
descriptor,
wind_speed
)
GROUP BY descriptor
HAVING
total_complaint_count > 5000 AND
ABS(corr_pct) > 0.5 AND
data_count > 5
ORDER BY
ABS(corr_pct) DESC
Observe que as colunas "Corr" são negativas para reclamações relacionadas a barulho. Você formulou uma hipótese que explica por que essas reclamações diminuem em dias de vento? Os coeficientes são estatisticamente suficientes?
Clique em Verificar meu progresso para saber se você está no caminho certo neste laboratório.
Encontrar a correlação entre o tempo e as reclamações
Parabéns!
Neste laboratório, você consultou dados sem fazer uma configuração prévia (de clusters, índices etc.). Você também combinou dois conjuntos de dados e correlacionou os resultados, o que rendeu alguns insights interessantes.
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 20 de março de 2025
Laboratório testado em 20 de março de 2025
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
No canto superior esquerdo da tela, clique em Começar o laboratório
Usar a navegação anônima
Copie o nome de usuário e a senha fornecidos para o laboratório
Clique em Abrir console no modo anônimo
Fazer login no console
Faça login usando suas credenciais do laboratório. Usar outras credenciais pode causar erros ou gerar cobranças.
Aceite os termos e pule a página de recursos de recuperação
Não clique em Terminar o laboratório a menos que você tenha concluído ou queira recomeçar, porque isso vai apagar seu trabalho e remover o projeto
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
Um laboratório por vez
Confirme para encerrar todos os laboratórios atuais e iniciar este
Use a navegação anônima para executar o laboratório
Para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
Neste laboratório, você vai analisar observações históricas sobre o tempo usando o BigQuery com outros conjuntos de dados
Duração:
Configuração: 0 minutos
·
Tempo de acesso: 45 minutos
·
Tempo para conclusão: 35 minutos