
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Perform Unit Tests for DoFns and PTransforms
/ 10
Test Stream Processing Logic with TestStream
/ 10
Neste laboratório, você irá:
DoFns
e PTransforms
usando ferramentas de teste no Apache Beam;TestStream
para testar o comportamento do janelamento de um pipeline de streaming.Testar o pipeline é uma etapa particularmente importante no desenvolvimento de uma solução eficaz de processamento de dados. A natureza indireta do modelo do Beam pode fazer com que as execuções de depuração com falhas sejam tarefas incomuns.
Neste laboratório, vamos ver como realizar testes de unidade localmente com ferramentas no pacote de testes (link em inglês) do SDK do Beam usando o DirectRunner
.
Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.
Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00
) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.
Antes de começar a trabalhar no Google Cloud, veja se o projeto tem as permissões corretas no Identity and Access Management (IAM).
No console do Google Cloud, em Menu de navegação (), selecione IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com
está na lista e recebeu o papel de editor
. O prefixo da conta é o número do projeto, que está no Menu de navegação > Visão geral do Cloud > Painel.
editor
, siga as etapas abaixo.729328892908
.{project-number}
pelo número do seu projeto.Neste laboratório, você vai usar principalmente a versão da Web do ambiente de desenvolvimento integrado Theia. Ele é hospedado no Google Compute Engine e contém o repositório do laboratório pré-clonado. Além disso, o Theia oferece suporte de servidor à linguagem Java e um terminal para acesso programático às APIs do Google Cloud com a ferramenta de linha de comando gcloud
, similar ao Cloud Shell.
Para acessar o ambiente de desenvolvimento integrado Theia, copie e cole o link exibido no Qwiklabs em uma nova guia.
O repositório do laboratório foi clonado para seu ambiente. Cada laboratório é dividido em uma pasta labs
com códigos que você vai concluir e uma pasta solution
com um exemplo totalmente funcional para consulta, caso você enfrente dificuldades. Clique no botão File explorer
para conferir:
Também é possível criar vários terminais nesse ambiente, como você faria com o Cloud Shell:
Outra opção de visualização é executar gcloud auth list
no terminal em que você fez login com uma conta de serviço fornecida. Ela tem as mesmas permissões que a sua conta de usuário do laboratório:
Se em algum momento o ambiente parar de funcionar, tente redefinir a VM que hospeda o ambiente de desenvolvimento integrado no Console do GCE, conforme este exemplo:
O código do laboratório é dividido entre duas pastas: 8a_Batch_Testing_Pipeline/lab e 8b_Stream_Testing_Pipeline/lab. Caso haja problemas em algum momento, a solução poderá ser encontrada nas pastas de solução correspondentes.
Nesta etapa do laboratório, vamos realizar testes de unidade em DoFns e PTransforms para um pipeline em lote calculando estatísticas de sensores climáticos. Para testar as transformações criadas, use o padrão e as transformações a seguir fornecidos pelo Beam:
TestPipeline
(link em inglês).Create
(link em inglês) para criar uma PCollection
com esses dados.PCollection
de entrada e salve a PCollection
resultante.PAssert
(link em inglês) e suas subclasses para verificar se a PCollection
de saída contém os elementos esperados.O elemento TestPipeline
é uma classe especial incluída no SDK do Beam especificamente para testar a lógica de pipeline e transformações.
TestPipeline
em vez de Pipeline
ao criar o objeto de pipeline:A transformação Create
usa uma coleção de objetos na memória (um iterável em Java) e cria uma PCollection
dessa coleção. A meta é ter um pequeno conjunto de dados de entrada de teste das PTransforms
, em que sabemos a PCollection
de saída esperada.
Por fim, queremos verificar se a PCollection de saída corresponde à saída esperada. Usamos a classe PAssert
para verificar isso. Por exemplo, podemos usar o método containsInAnyOrder
para verificar se a PCollection de saída tem os elementos corretos:
Esse diretório contém um arquivo pom.xml
para definir dependências e a pasta src
, que contém dois subdiretórios. A pasta src/main
contém o código do pacote de pipeline, e a pasta src/test
contém o código de teste.
Esse arquivo contém a definição da classe WeatherRecord
que será usada no pipeline. A classe WeatherRecord
tem um esquema associado, e é preciso que as etapas para defini-lo usando a anotação @DefaultSchema
já sejam conhecidas. No entanto, precisamos sobrepor o método equals
ao definir a classe.
Por quê? O elemento PAssert
vai usar o método equals
para verificar a associação na PCollection
de saída. No entanto, o método "equals" padrão para um objeto Java simples (POJO, na sigla em inglês) apenas compara os endereços dos objetos. Em vez disso, queremos ter certeza de que estamos comparando o conteúdo dos objetos. Conforme visto acima, isso é simples.
Esse é o código principal do pipeline. Os conceitos desse pipeline foram abordados principalmente em laboratórios anteriores, mas não se esqueça de analisar os itens a seguir com mais atenção:
DoFns
ConvertCsvToWeatherRecord
(a partir da linha 65) e ConvertTempUnits
(a partir da linha 81). Em breve, vamos realizar um teste de unidade nessas DoFns
.PTransform
ComputeStatistics
(a partir da linha 103). Esse é um exemplo de uma transformação composta que será possível testar da mesma maneira que uma DoFn
.PTransform
WeatherStatsTransform
(a partir da linha 123). Essa PTransform
contém a lógica de processamento de todo o pipeline, exceto as transformações de origem e de coletor, para podermos realizar um pequeno teste de integração de pipeline em dados sintéticos criados por uma transformação Create
.Se você encontrar um erro lógico no código de processamento, não o corrija ainda. Mais tarde, vamos abordar como limitar o erro realizando testes.
Precisamos adicionar algumas dependências para realizar testes. Qualquer código em Java do Beam para testes precisa estar vinculado ao JUnit
e ao Hamcrest
. No Maven, só precisamos atualizar o arquivo pom.xml
.
pom.xml
, indicado em um comentário:O escopo dessas dependências é "test". Esses pacotes serão necessários ao executar um teste com o mvn test
, mas não ao executar o pipeline principal.
Esse arquivo contém o código dos testes de unidade de DoFn
e PTransform
. Na maioria das vezes, o código será comentado, mas vamos remover a marca de comentário à medida que continuarmos.
Vamos começar explorando um teste de unidade de DoFn
para a DoFn de ConvertCsvToWeatherRecord
(a partir da linha 43).
TestPipeline
:Vamos usar o objeto TestPipeline
em todos os testes a seguir, embora não precisemos nos preocupar com os efeitos colaterais de reutilizar o mesmo objeto devido à palavra-chave transient
ao criá-lo.
Anotamos o método que vamos usar para testar o pipeline com a anotação @Test
. Criamos uma única entrada de teste (testInput
) que representa uma linha de um arquivo CSV (o formato de entrada esperado para nosso pipeline) e a colocamos em uma entrada de objeto da lista (List
object input
).
Faltam algumas partes no restante do código para realizar o teste.
Para concluir a tarefa, primeiro adicione a transformação Create
para converter input
em uma PCollection
.
Em segundo lugar, inclua uma instrução PAssert
usando o método containsInAnyOrder
para comparar os elementos input
e testOutput
.
Se você não souber o que fazer, consulte os testes comentados posteriormente ou as soluções.
Agora já podemos executar o teste.
Se você concluiu a tarefa anterior corretamente, a mensagem a seguir será exibida no terminal após a conclusão do teste (o tempo exato decorrido será diferente):
Esse teste garante que a DoFn
ConvertTempUnits()
esteja funcionando conforme o esperado.
Salve WeatherStatisticsPipelineTest.java
e volte ao terminal.
Mais uma vez, execute o comando a seguir para executar os testes:
Desta vez, o teste falhou. Se rolarmos pela saída, vamos encontrar as seguintes informações sobre essa falha:
À primeira vista, talvez essa não seja a mensagem de erro mais útil. No entanto, vemos que não houve correspondência para o WeatherRecord
esperado em testOutput
. Talvez haja algo de errado com a conversão de temperatura.
Volte para 8a_Batch_Testing_Pipeline > lab > src > main > java > com > mypackage > pipeline > WeatherStatisticsPipeline.java e role para baixo até a definição de ConvertTempUnits
(perto da linha 81).
Para concluir a tarefa, encontre o erro na lógica de processamento da DoFn
e execute novamente o comando mvn test
para confirmar se o teste foi concluído. Como lembrete, a fórmula para converter graus Celsius em Farenheit é fornecida abaixo:
Se você não souber o que fazer, consulte as soluções.
O primeiro teste em que removemos a marca de comentário foi o de testar a PTransform
composta ComputeStatistics
. Veja a seguir uma forma truncada do código para referência:
Observe que isso é muito semelhante aos testes de unidade de DoFn
anteriores. A única diferença real, além das entradas e saídas diferentes de testes, é que estamos aplicando PTransform
em vez de ParDo(new DoFn())
.
O teste final é para o pipeline completo. No código de pipeline (WeatherStatisticsPipeline.java), o pipeline completo, exceto a origem e o coletor, foi incluído em uma única PTransform
WeatherStatsTransform
.
PTransform
:Se você concluiu as tarefas anteriores, a mensagem a seguir será exibida no terminal após o término dos testes:
Clique em Verificar meu progresso para ver o objetivo.
Nesta etapa do laboratório, vamos realizar testes de unidade para um pipeline de streaming calculando contagens de janelas de corridas de táxi. Para testar as transformações criadas, use o padrão e as transformações a seguir fornecidos pelo Beam:
TestPipeline
(link em inglês).TestStream
(link em inglês) para gerar dados de streaming. Isso inclui gerar uma série de eventos, avançar a marca-d'água e melhorar o tempo de processamento.PAssert
(link em inglês) e as subclasses para verificar se a PCollection
de saída contém os elementos esperados em janelas específicas.Durante a execução de um pipeline que lê dados de um TestStream
, a leitura aguarda a conclusão de todas as consequências de cada evento antes de passar para o próximo, inclusive quando o tempo de processamento avança e os gatilhos apropriados são acionados. O elemento TestStream
permite que o efeito do acionamento e a lentidão permitida sejam observados e testados em um pipeline. Isso inclui a lógica sobre gatilhos atrasados e dados descartados devido a atrasos.
Esse diretório contém um arquivo pom.xml
para definir dependências e a pasta src
, que contém dois subdiretórios. A pasta src/main
contém o código do pacote de pipeline, e a pasta src/test
contém o código de teste.
Esse arquivo contém a definição da classe TaxiRide
que será usada no pipeline. A classe TaxiRide
tem um esquema associado, e é preciso que as etapas para defini-lo usando a anotação @DefaultSchema
já sejam conhecidas.
Esse é o código principal do pipeline. Os conceitos desse pipeline foram abordados principalmente em laboratórios anteriores, mas não se esqueça de analisar os itens a seguir com mais atenção:
DoFn
JsonToTaxiRide
(a partir da linha 94) usada para converter as mensagens recebidas do Pub/Sub em objetos da classe TaxiRide
.PTransform
TaxiCountTransform
(a partir da linha 113). Essa PTransform
contém a lógica principal de contagem e janelamento do pipeline. Os testes serão focados nessa PTransform
.A saída de TaxiCountTransform
precisa ser uma contagem de todas as corridas de táxi registradas por janela. No entanto, haverá vários eventos por viagem (embarques, desembarques etc.).
ride_status
para garantir a contagem de cada viagem apenas uma vez. Para isso, vamos manter apenas os elementos com ride_status
igual a "pickup":Analisando de modo mais detalhado, a lógica de janelamento usada no pipeline está incluída abaixo:
Vamos fazer o janelamento em janelas fixas com 60 segundos de duração. Não temos um gatilho antecipado, mas vamos gerar resultados após a marca d'água transmitir o fim da janela. Incluímos disparos atrasados em cada novo elemento recebido, mas isso só será feito com um atraso permitido de um minuto. Por fim, vamos acumular o estado nas janelas até que o atraso permitido tenha sido transmitido.
A primeira meta é entender o uso do TestStream
no código de teste. Vale lembrar que a classe TestStream
permite simular um fluxo de mensagens em tempo real enquanto controla a progressão do tempo de processamento e a marca d'água.
O código do primeiro teste (a partir da linha 66) está incluído abaixo:
Criamos um novo TestStream
usando o método create
e, ao mesmo tempo, especificamos o codificador. Vamos transmitir a mensagem JSON como uma string para que possamos usar o elemento StringUtf8Coder
. O que o TestStream
acima está fazendo?
O TestStream
está realizando estas tarefas:
startTime
(Instant(0)
);startTime
. Dois desses eventos vçao ser contados (ride_status = "pickup"
). O outro, não;startTime
;startTime
, o que vai acionar a primeira janela;startTime
;TestStream
está sendo usado em vez da transformação Create
:No código acima, definimos a PCollection
de saída (outputCount
) criando o TestStream
e aplicando a PTransform
TaxiCountTransform
. Usamos a classe InvervalWindow
para definir as janelas que queremos verificar e, em seguida, usamos PAssert
com o método inWindow
para verificar os resultados por janela.
A saída a seguir será exibida após a conclusão do teste (embora o tempo decorrido possa ser diferente):
Nesta tarefa, você criará um código para um TestStream
, o que vai permitir testar a lógica de processamento de dados atrasados.
Volte para 8b_Stream_Testing_Pipeline/lab/src/test/java/com/mypackage/pipeline/TaxiStreamingPipelineTest.java e role para baixo até onde o método testTaxiRideLateData
é comentado (perto da linha 104).
Remova a marca de comentário do código do teste em questão, já que vamos concluir o código desta tarefa:
O código do teste foi concluído fora do processo de criação do TestStream
.
TestStream
que execute estas ações:startTime
;TimestampedValue
s com o valor json.format(json, "pickup")
e com o carimbo de data/hora startTime
;startTime
;TimestamedValue
com o valor json.format(json, "pickup")
e com o carimbo de data/hora startTime
;startTime
;TimestamedValue
com o valor json.format(json, "pickup")
e com o carimbo de data/hora startTime
;Isso vai criar um TestStream
com quatro elementos que pertencem à primeira janela. Os dois primeiros elementos são pontuais, o segundo está atrasado (mas dentro do atraso permitido) e o elemento final está atrasado e ultrapassa o atraso permitido. Como estamos acumulando painéis disparados, o primeiro gatilho precisa contar dois eventos, e o gatilho final, três. O quarto evento não precisa ser incluído. Isso pode ser verificado com os métodos inOnTimePane
e inFinalPane
da classe PAssert
.
Se você não souber o que fazer, consulte as soluções.
Se você concluiu as tarefas anteriores, a mensagem a seguir será exibida no terminal após o término dos testes:
Clique em Verificar meu progresso para ver o objetivo.
Clique em Terminar o laboratório após a conclusão. O Google Cloud Ensina remove os recursos usados e limpa a conta por você.
Você vai poder avaliar sua experiência no laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Enviar.
O número de estrelas indica o seguinte:
Feche a caixa de diálogo se não quiser enviar feedback.
Para enviar seu feedback, fazer sugestões ou correções, use a guia Suporte.
Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
One lab at a time
Confirm to end all existing labs and start this one