
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create Cloud Composer environment.
/ 25
Create two Cloud Storage buckets.
/ 25
Create a dataset.
/ 25
Uploading the DAG and dependencies to Cloud Storage
/ 25
Imagine que você tem conjuntos de dados em diversos lugares do mundo e que seus dados estão em buckets do Google Cloud Storage ou em tabelas do BigQuery. Como eles podem ser organizados para que sejam consolidados e analisados, oferecendo insights sobre sua empresa?
O Cloud Composer permite criar fluxos de trabalho e mover seus dados entre regiões e sistemas de armazenamento usando uma interface gráfica intuitiva. Entre outros benefícios, o serviço conta com modelos confiáveis e fáceis de usar para transferir seus dados entre o BigQuery e o Cloud Storage.
Neste laboratório, você vai criar e executar um fluxo de trabalho do Apache Airflow no Cloud Composer que realiza as seguintes tarefas:
Neste laboratório, você vai aprender a:
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você vai encontrar o seguinte:
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
Você também encontra o Nome de usuário no painel Detalhes do laboratório.
Clique em Seguinte.
Copie a Senha abaixo e cole na caixa de diálogo de boas-vindas.
Você também encontra a Senha no painel Detalhes do laboratório.
Clique em Seguinte.
Acesse as próximas páginas:
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.
Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:
gcloud
é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.
Clique em Autorizar.
A saída será parecida com esta:
Saída:
Saída:
Exemplo de saída:
gcloud
, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.
Na barra de título do console do Google Cloud, digite Composer no campo de pesquisa e clique em Composer na seção "Produtos e Páginas" para criar um ambiente do Cloud Composer.
Depois, clique em Criar ambiente.
No menu suspenso, selecione Composer 3.
Defina estes parâmetros para o ambiente:
Nome: composer-advanced-lab
Local:
Versão de imagem: composer-3-airflow-n.n.n-build.n (selecione a imagem com o maior número disponível)
Em Recursos do ambiente, selecione Pequeno.
Clique no menu suspenso para Mostrar configuração avançada e selecione Zona do banco de dados do Airflow como
Não altere as outras configurações.
O processo de criação do ambiente será concluído quando uma marca de seleção verde for exibida à esquerda do nome dele na página "Ambientes" no console do Cloud.
"Criar buckets do Cloud Storage" e "Conjunto de dados de destino do BigQuery"
.Clique em Verificar meu progresso para conferir o objetivo.
Nesta tarefa, você vai criar dois buckets multirregionais do Cloud Storage. Esses buckets serão usados para copiar as tabelas exportadas entre os locais, neste caso EUA e UE.
Aplicar a prevenção do acesso público neste bucket
e clique em Confirmar no pop-up O acesso público será bloqueado
, se necessário.Repita as etapas para criar outro bucket na região da UE
. O nome exclusivo precisa incluir o local como um sufixo do bucket (por exemplo,
Clique em Verificar meu progresso para conferir o objetivo.
Crie o conjunto de dados de destino do BigQuery na UE com a nova interface da Web do BigQuery.
Acesse Menu de navegação > BigQuery.
Você verá a caixa de mensagem Olá! Este é o BigQuery no Console do Cloud. Ela tem um link para o guia de início rápido e lista as atualizações da interface.
Clique em Concluído.
Em seguida, clique nos três pontos ao lado do ID do projeto do Qwiklabs e selecione Criar conjunto de dados.
Clique em Verificar meu progresso para conferir o objetivo.
O Airflow (links em inglês) é uma plataforma para criar, programar e monitorar fluxos de trabalho programaticamente.
Use o Airflow para criar fluxos de trabalho, como gráficos acíclicos dirigidos (DAGs, na sigla em inglês) de tarefas. O programador do Airflow executa suas tarefas em uma matriz de workers enquanto segue as dependências especificadas.
DAG: um gráfico acíclico dirigido é um conjunto de tarefas organizadas para refletir as relações e dependências entre elas.
Operador: é a descrição de uma única tarefa. Em geral, os operadores são atômicos. Por exemplo, o operador BashOperator é usado para executar o comando "bash".
Tarefa: uma instância parametrizada de um operador. As tarefas são nós no DAG.
Instância de tarefa: a execução específica de uma tarefa. Composta de um DAG, uma tarefa e um ponto no tempo. Ela tem sempre um estado indicativo, por exemplo: running, success, failed, skipped etc.
Aprenda os conceitos do Airflow na Documentação sobre conceitos.
No Cloud Composer, os fluxos de trabalho são compostos de gráficos acíclicos dirigidos (DAGs). O código do fluxo de trabalho, também conhecido como DAG, está no arquivo bq_copy_across_locations.py. Abra o arquivo para ver a estrutura do código. Alguns dos principais componentes do arquivo serão detalhados a seguir.
Para orquestrar todas as tarefas do fluxo de trabalho, o DAG importa estes operadores:
DummyOperator
: cria tarefas fictícias de início e término para gerar uma representação visual melhor do DAG.BigQueryToCloudStorageOperator
: exporta tabelas do BigQuery para os buckets do Cloud Storage usando o formato Avro.GoogleCloudStorageToGoogleCloudStorageOperator
: copia arquivos para os buckets do Cloud Storage.GoogleCloudStorageToBigQueryOperator
: importa tabelas de arquivos Avro no bucket do Cloud Storage.read_table_list()
está definida para ler o arquivo de configuração e criar a lista das tabelas a serem copiadas.bq_copy_us_to_eu_01
. Como o DAG não é programado por padrão, requer acionamento manual.Cloud StoragePlugin(AirflowPlugin)
é definida mapeando o hook e o operador baixados da ramificação estável do Airflow 1.10.Volte ao Composer para verificar o status do ambiente.
Depois que seu ambiente for criado, clique no nome dele para ver os detalhes.
A página Detalhes do ambiente mostra o URL da IU da Web do Airflow, o ID do cluster do Google Kubernetes Engine e o nome do bucket do Cloud Storage conectado à pasta de DAGs.
As próximas etapas precisam ser concluídas no Cloud Shell.
Os ambientes virtuais Python são usados para isolar do sistema a instalação de pacotes.
virtualenv
: -composer-advanced-YOURDAGSBUCKET-bucket
.Essa variável vai ser usada algumas vezes durante o laboratório.
As variáveis do Airflow são um conceito específico dessa plataforma e diferem das variáveis de ambiente. Nesta seção, você vai definir as três variáveis do Airflow usadas pelo DAG que vamos implantar: table_list_file_path
, gcs_source_bucket
e gcs_dest_bucket
.
Chave | Valor | Detalhes |
---|---|---|
table_list_file_path |
/home/airflow/gcs/dags/bq_copy_eu_to_us_sample.csv | O arquivo CSV que lista as tabelas de origem e de destino, incluindo o conjunto de dados. |
gcs_source_bucket |
{UNIQUE ID}-us | O bucket do Cloud Storage que será usado para exportar da origem a tabela tabledest_bbucks do BigQuery |
gcs_dest_bucket |
{UNIQUE ID}-eu | O bucket do Cloud Storage que será usado para importar as tabelas do BigQuery para o destino |
O comando gcloud composer
executa o subcomando variables da CLI do Airflow. O subcomando transmite os argumentos para a ferramenta de linha de comando gcloud
.
Para definir as três variáveis, você executará composer command
uma vez para cada linha da tabela acima. Este é o formato do comando:
(ERROR: gcloud crashed (TypeError): 'NoneType' object is not callable)
. Esse é um problema conhecido relacionado ao uso do comando gcloud composer environments run
na versão 410.0.0 do gcloud. Suas variáveis ainda vão ser definidas, apesar da mensagem de erro.
ENVIRONMENT_NAME
é o nome do ambiente.LOCATION
é a região do Compute Engine onde o ambiente está. Para executar o comando gcloud composer, é necessário incluir a sinalização --location
ou a configuração do local padrão.KEY
e VALUE
especificam a variável e o valor correspondente que você precisa definir. À esquerda do comando gcloud
, adicione dois traços ( --
) e depois os argumentos relacionados ao gcloud. Inclua os argumentos referentes ao subcomando do Airflow do lado direito. Dê um espaço entre os argumentos KEY
e VALUE
usando o comando gcloud composer environments run
com o subcomando de variáveis.Execute os comandos no Cloud Shell, trocando gcs_source_bucket
e gcs_dest_bucket
pelos nomes dos buckets criados na Tarefa 2.
Para ver o valor de uma variável, execute as variáveis do subcomando da CLI do Airflow com o argumento get
ou use a IU do Airflow.
Por exemplo, execute o seguinte:
O Cloud Composer registra o DAG automaticamente no seu ambiente do Airflow. As alterações no DAG levam de 3 a 5 minutos para serem feitas. É possível conferir o status da tarefa na interface da Web do Airflow e confirmar se o DAG não está programado de acordo com as configurações.
Para acessar a interface da Web do Airflow pelo console do Cloud, siga estas etapas:
As variáveis já definidas são mantidas no seu ambiente.
Clique na guia DAGs e aguarde os links serem carregados.
Para acionar o DAG manualmente, clique no botão de reprodução para composer_sample_bq_copy_across_locations
:
Clique em Verificar meu progresso para conferir o objetivo.
O Cloud Composer analisa seu arquivo DAG durante o upload para a pasta de DAGs no Cloud Storage. Se nenhum erro for encontrado, o nome do fluxo de trabalho vai aparecer na lista de DAGs. Em seguida, o fluxo de trabalho vai entrar na fila para execução imediata se as condições de programação forem atendidas. Neste caso, nenhuma foi configurada.
Quando o botão de reprodução é pressionado, o status das Execuções fica verde:
Para executar o fluxo de trabalho outra vez na visualização Graph:
Enquanto o processo está em execução, atualize seu navegador e confira as informações mais recentes.
Agora verifique o status e os resultados do fluxo de trabalho nas seguintes páginas do Console do Cloud:
Você copiou de forma programática as tabelas localizadas nos EUA para a UE. Este laboratório é baseado na postagem do blog de David Sabater Dinter.
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 21 de junho de 2024
Laboratório testado em 21 de junho de 2024
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
One lab at a time
Confirm to end all existing labs and start this one