Acesse mais de 700 laboratórios e cursos

Extraia, analise e traduza texto de imagens com as APIs do Cloud ML

Laboratório 1 hora universal_currency_alt 5 créditos show_chart Intermediário

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

GSP075
Informações gerais
Configuração e requisitos
Tarefa 1: crie uma chave de API
Tarefa 2: faça upload de uma imagem para um bucket do Cloud Storage
Tarefa 3: crie sua solicitação da API Cloud Vision
Tarefa 4: chame o método de detecção de texto
Tarefa 5: envie o texto da imagem para a API Translation
Tarefa 6: analise o texto da imagem com a API Natural Language
Parabéns!

Acesse mais de 700 laboratórios e cursos

GSP075

Informações gerais

Neste laboratório, você vai conhecer o poder do machine learning usando várias APIs de machine learning juntas. Vamos começar com o método de detecção de texto da API Cloud Vision usando o reconhecimento óptico de caracteres (OCR) para extrair texto de imagens. Depois, vamos aprender como traduzir esse texto com a API Translation e como analisá-lo com a API Natural Language.

Conteúdo

Como criar uma solicitação da API Vision e chamar a API com curl
Usar o método de detecção de texto (OCR) da API Vision
Usar a API Translation para traduzir o texto de uma imagem
Como usar a API Natural Language para analisar o texto

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

Acesso a um navegador de Internet padrão (recomendamos o Chrome).

Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.

Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.

Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.

Como iniciar seu laboratório e fazer login no console do Google Cloud

Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento. No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.

Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
Clique em Próxima.
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.
Clique nas seguintes janelas:
- Continue na janela de informações do Cloud Shell.
- Autorize o Cloud Shell a usar suas credenciais para fazer chamadas de APIs do Google Cloud.

Depois de se conectar, você verá que sua conta já está autenticada e que o projeto está configurado com seu Project_ID, . A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

A gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

(Opcional) É possível listar o nome da conta ativa usando este comando:

gcloud auth list

Clique em Autorizar.

Saída:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`

(Opcional) É possível listar o ID do projeto usando este comando:

gcloud config list project

Saída:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}}

Observação: consulte a documentação completa da gcloud no Google Cloud no guia de visão geral da gcloud CLI.

Tarefa 1: crie uma chave de API

Como você usa curl para enviar solicitações para a API Vision, gere uma chave de API para transmitir o URL da solicitação.

Para criar uma chave de API, acesse: Menu de navegação > APIs e serviços > Credenciais:

Clique em + Criar credenciais.
No menu suspenso, selecione Chave de API:

Depois, copie a chave gerada e clique em Fechar.
Em seguida, salve a chave de API em uma variável de ambiente para não precisar inserir o valor dela em cada solicitação.
Execute este comando no Cloud Shell, substituindo <your_api_key> pela chave que você copiou:

export API_KEY=<YOUR_API_KEY>

Clique em Verificar meu progresso para conferir a tarefa realizada.

Crie uma chave de API

Tarefa 2: faça upload de uma imagem para um bucket do Cloud Storage

Crie um bucket do Cloud Storage

Há duas maneiras de enviar uma imagem para a detecção de imagens da API Vision: enviar uma string de imagem codificada em base64 ou transmitir o URL de um arquivo armazenado no Cloud Storage. Para este laboratório, você criará um bucket do Cloud Storage para armazenar suas imagens.

Acesse o navegador Menu de navegação > Cloud Storage no console, depois clique em Criar bucket.
Dê um nome exclusivo ao bucket:-bucket.
Após dar o nome ao bucket, clique em Escolher como controlar o acesso aos objetos.
Desmarque a caixa de seleção Aplicar a prevenção do acesso público neste bucket.
Escolha Fine-grained em Acesso e Controle e clique em Criar.

Faça upload de uma imagem para o bucket

Clique com o botão direito na imagem a seguir de uma placa em francês. Depois, clique em Salvar imagem como… para salvá-la no seu computador como sign.jpg.

No navegador do Cloud Storage, acesse o bucket que você criou e clique em Fazer upload de arquivos, depois selecione sign.jpg.

Agora você vai permitir que o arquivo seja acessível publicamente, mantendo o acesso privado ao bucket.

Clique nos três pontos do arquivo de imagem:

Selecione Editar acesso.
Agora clique em Adicionar entrada e defina o seguinte:

Selecione Pública para a Entidade.
Garanta que allUsers seja o valor de Name.
Selecione Leitor no campo "Acesso".

Clique em Salvar.

Você verá que agora o arquivo tem acesso público.

Agora que o arquivo já está no bucket, você pode criar uma solicitação na API Vision transmitindo o URL dessa imagem.

Clique em Verificar meu progresso para conferir a tarefa realizada.

Fazer upload de imagem para um bucket

Tarefa 3: crie sua solicitação da API Cloud Vision

No seu ambiente do Cloud Shell, crie um arquivo ocr-request.json. Depois, adicione o código abaixo ao arquivo, substituindo my-bucket-name pelo nome do bucket que você criou. Crie o arquivo com o editor de linha de comando que preferir (nano, vim, emacs) ou clique no ícone de lápis para abrir o editor de código no Cloud Shell:

Adicione o seguinte ao seu arquivo ocr-request.json:

{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://my-bucket-name/sign.jpg" } }, "features": [ { "type": "TEXT_DETECTION", "maxResults": 10 } ] } ] }

Você usará o recurso TEXT_DETECTION da API Cloud Vision para executar o reconhecimento óptico de caracteres (OCR) na imagem e extrair o texto.

Tarefa 4: chame o método de detecção de texto

No Cloud Shell, chame a API Cloud Vision com curl:

curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr-request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

A primeira parte da sua resposta será semelhante a esta:

{ "responses": [ { "textAnnotations": [ { "locale": "fr", "description": "LE BIEN PUBLIC\nles dépêches\nPour Obama,\nla moutarde\nest\nde Dijon\n", "boundingPoly": { "vertices": [ { "x": 138, "y": 40 }, { "x": 622, "y": 40 }, { "x": 622, "y": 795 }, { "x": 138, "y": 795 } ] } }, { "description": "LE", "boundingPoly": { "vertices": [ { "x": 138, "y": 99 }, { "x": 274, "y": 82 }, { "x": 283, "y": 157 }, { "x": 147, "y": 173 } ] } }, { "description": "BIEN", "boundingPoly": { "vertices": [ { "x": 291, "y": 79 }, { "x": 413, "y": 64 }, { "x": 422, "y": 139 }, { "x": 300, "y": 154 } ] } ... ] }] }

O método de OCR extrai bastante texto da imagem.

O primeiro dado recebido de textAnnotations é todo o bloco de texto que a API encontrou na imagem. Isso inclui:

O código do idioma (neste caso, fr, ou seja, Francês).
Uma string de texto.
Uma caixa delimitadora que indica onde o texto foi encontrado na imagem.

Depois, há um objeto para cada palavra encontrada no texto com uma caixa delimitadora para aquela palavra específica.

Observação: em imagens com mais texto, a API Cloud Vision também tem um recurso DOCUMENT_TEXT_DETECTION. Essa resposta inclui informações adicionais e divide o texto em páginas, blocos, parágrafos e palavras.

A menos que você fale francês, provavelmente não entenderá o que está no texto. A próxima etapa é a tradução.

Execute o seguinte comando curl para salvar a resposta em um arquivo ocr-response.json para referência futura:

curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr-request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY} -o ocr-response.json

Tarefa 5: envie o texto da imagem para a API Translation

A API Translation pode traduzir textos em mais de cem idiomas. Ela também consegue detectar o idioma do texto de entrada. Para traduzir o texto do francês para o inglês, transmita o texto e o código do idioma de chegada (en-US) à API Translation.

Para começar, crie um arquivo translation-request.json e adicione o seguinte a ele:

{ "q": "your_text_here", "target": "en" }

q é onde você transmitirá a string que será traduzida.

Salve o arquivo.
Execute este comando Bash no Cloud Shell para extrair o texto da imagem da etapa anterior e criar uma cópia dele em um novo translation-request.json (tudo em um comando):

STR=$(jq .responses[0].textAnnotations[0].description ocr-response.json) && STR="${STR//\"}" && sed -i "s|your_text_here|$STR|g" translation-request.json

Agora você pode chamar a API Translation. Este comando também copiará a resposta em um arquivo translation-response.json:

curl -s -X POST -H "Content-Type: application/json" --data-binary @translation-request.json https://translation.googleapis.com/language/translate/v2?key=${API_KEY} -o translation-response.json

Execute este comando para inspecionar o arquivo com a resposta da API Translation:

cat translation-response.json

Agora você pode entender melhor o que dizia na placa!

{ "data": { "translations": [ { "translatedText": "TO THE PUBLIC GOOD the dispatches For Obama, the mustard is from Dijon", "detectedSourceLanguage": "fr" } ] } }

Na resposta:

translatedText contém a tradução resultante.
detectedSourceLanguage é fr, o código de idioma em ISO para francês.

A API Translation oferece suporte a mais de 100 idiomas, todos listados na referência de suporte a idiomas.

Além de traduzir o texto da imagem, pode ser que você queira fazer outras análises. É aí que entra a API Natural Language. Vamos à próxima etapa.

Tarefa 6: analise o texto da imagem com a API Natural Language

A API Natural Language ajuda a entender o texto extraindo entidades, analisando sentimento e sintaxe e classificando o texto em categorias. Use o método analyzeEntities para conferir quais entidades a API Natural Language detecta no texto da imagem.

Para configurar a solicitação de API, crie um arquivo nl-request.json com os seguintes dados:

{ "document":{ "type":"PLAIN_TEXT", "content":"your_text_here" }, "encodingType":"UTF8" }

Na solicitação, você dá informações à API Natural Language sobre o texto enviado:

type: os valores de tipo com suporte são PLAIN_TEXT ou HTML.
content: transmite o texto a ser enviado à API Natural Language para análise. A API Natural Language também aceita o envio de arquivos armazenados no Cloud Storage para processamento de texto. Para enviar um arquivo do Cloud Storage, substitua content por gcsContentUri e use o valor do URI do arquivo de texto no Cloud Storage.
encodingType: determina para a API o tipo de codificação de texto que deve ser usado no processamento. Com isso, a API calculará onde certas entidades aparecem no texto.

Execute este comando Bash no Cloud Shell para copiar o texto traduzido no bloco de conteúdo da solicitação da API Natural Language:

STR=$(jq .data.translations[0].translatedText translation-response.json) && STR="${STR//\"}" && sed -i "s|your_text_here|$STR|g" nl-request.json

Agora o arquivo nl-request.json contém a tradução em inglês do texto da imagem original. É hora de analisá-lo.

Chame o endpoint analyzeEntities da API Natural Language com esta solicitação curl:

curl "https://language.googleapis.com/v1/documents:analyzeEntities?key=${API_KEY}" \ -s -X POST -H "Content-Type: application/json" --data-binary @nl-request.json

Ao analisar a resposta, você encontrará as entidades que a API Natural Language encontrou:

{ "entities": [ { "name": "dispatches", "type": "OTHER", "metadata": {}, "salience": 0.3560996, "mentions": [ { "text": { "content": "dispatches", "beginOffset": 23 }, "type": "COMMON" } ] }, { "name": "mustard", "type": "OTHER", "metadata": {}, "salience": 0.2878307, "mentions": [ { "text": { "content": "mustard", "beginOffset": 38 }, "type": "COMMON" } ] }, { "name": "Obama", "type": "PERSON", "metadata": { "mid": "/m/02mjmr", "wikipedia_url": "https://en.wikipedia.org/wiki/Barack_Obama" }, "salience": 0.16260329, "mentions": [ { "text": { "content": "Obama", "beginOffset": 31 }, "type": "PROPER" } ] }, { "name": "Dijon", "type": "LOCATION", "metadata": { "mid": "/m/0pbhz", "wikipedia_url": "https://en.wikipedia.org/wiki/Dijon" }, "salience": 0.08129317, "mentions": [ { "text": { "content": "Dijon", "beginOffset": 54 }, "type": "PROPER" } ] } ], "language": "en" }

Para entidades que têm uma página da Wikipédia, a API fornece metadados, incluindo o URL da página com o mid da entidade. O mid é um ID que é associado a essa entidade no Mapa de informações do Google. Para obter mais informações sobre ele, você pode chamar a API Mapa de informações, passando este ID. Para todas as entidades, a API Natural Language nos informa os locais onde elas apareceram no texto (mentions), o type da entidade e a salience (intervalo [0,1] que indica a importância da entidade para o texto como um todo). Além de inglês, a API Natural Language também oferece suporte aos idiomas listados na referência de suporte de idiomas.

Ao analisar esta imagem, é relativamente fácil entender quais são as entidades importantes. No entanto, se tivéssemos uma biblioteca com centenas de imagens, isso seria muito mais difícil. O OCR, a tradução e o processamento de linguagem natural ajudam a entender o significado de grandes conjuntos de dados de imagens.

Clique em Verificar meu progresso para conferir a tarefa realizada.

Analise o texto da imagem com a API Natural Language

Parabéns!

Você aprendeu a combinar três APIs diferentes de machine learning: o método de OCR da API Vision extraiu texto de uma imagem, a API Translation traduziu o texto e a API Natural Language encontrou entidades no texto.

Conteúdo abordado

Casos de uso de combinação entre várias APIs de machine learning
Como criar uma solicitação de OCR da API Vision e chamar a API com curl
Como traduzir o texto com a API Translation
Como extrair entidades do texto com a API Natural Language

Termine a Quest

Este laboratório autoguiado faz parte das Quests Integrate with Machine Learning APIs e Intro to ML: Image Processing. Uma Quest é uma série de laboratórios relacionados que formam um programa de aprendizado. Ao concluir uma Quest, você ganha um selo como reconhecimento da sua conquista. É possível publicar os selos e incluir um link para eles no seu currículo on-line ou nas redes sociais. Inscreva-se em qualquer Quest que tenha este laboratório para receber os créditos de conclusão na mesma hora. Consulte o catálogo do Google Cloud Ensina para ver todas as Quests disponíveis.

Comece o próximo laboratório

Faça outro laboratórios sobre APIs de Machine Learning, como:

Próximas etapas / Saiba mais

Saiba mais sobre os tutoriais e documentos da Vision, Translation e Natural Language

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 6 de outubro de 2023

Laboratório testado em 6 de outubro de 2023

Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Extraia, analise e traduza texto de imagens com as APIs do Cloud ML

Extraia, analise e traduza texto de imagens com as APIs do Cloud ML

GSP075

Informações gerais

Conteúdo

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Como iniciar seu laboratório e fazer login no console do Google Cloud

Ativar o Cloud Shell

Tarefa 1: crie uma chave de API

Tarefa 2: faça upload de uma imagem para um bucket do Cloud Storage

Crie um bucket do Cloud Storage

Faça upload de uma imagem para o bucket

Tarefa 3: crie sua solicitação da API Cloud Vision

Tarefa 4: chame o método de detecção de texto

Tarefa 5: envie o texto da imagem para a API Translation

Tarefa 6: analise o texto da imagem com a API Natural Language

Parabéns!

Conteúdo abordado

Termine a Quest

Comece o próximo laboratório

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório