arrow_back

Extraia, analise e traduza texto de imagens com as APIs do Cloud ML

Acesse mais de 700 laboratórios e cursos

Extraia, analise e traduza texto de imagens com as APIs do Cloud ML

Laboratório 1 hora universal_currency_alt 5 créditos show_chart Intermediário
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Acesse mais de 700 laboratórios e cursos

GSP075

Informações gerais

Neste laboratório, você vai conhecer o poder do machine learning usando várias APIs de machine learning juntas. Vamos começar com o método de detecção de texto da API Cloud Vision usando o reconhecimento óptico de caracteres (OCR) para extrair texto de imagens. Depois, vamos aprender como traduzir esse texto com a API Translation e como analisá-lo com a API Natural Language.

Conteúdo

  • Como criar uma solicitação da API Vision e chamar a API com curl
  • Usar o método de detecção de texto (OCR) da API Vision
  • Usar a API Translation para traduzir o texto de uma imagem
  • Como usar a API Natural Language para analisar o texto

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento. No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:

    • O botão Abrir Console do Google Cloud
    • O tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

    O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.

    {{{user_0.username | "Username"}}}

    Você também encontra o nome de usuário no painel Detalhes do Laboratório.

  4. Clique em Próxima.

  5. Copie a Senha abaixo e cole na caixa de diálogo de Olá.

    {{{user_0.password | "Password"}}}

    Você também encontra a senha no painel Detalhes do Laboratório.

  6. Clique em Próxima.

    Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  7. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

  1. Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.

  2. Clique nas seguintes janelas:

    • Continue na janela de informações do Cloud Shell.
    • Autorize o Cloud Shell a usar suas credenciais para fazer chamadas de APIs do Google Cloud.

Depois de se conectar, você verá que sua conta já está autenticada e que o projeto está configurado com seu Project_ID, . A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

A gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

  1. (Opcional) É possível listar o nome da conta ativa usando este comando:
gcloud auth list
  1. Clique em Autorizar.

Saída:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcional) É possível listar o ID do projeto usando este comando:
gcloud config list project

Saída:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Observação: consulte a documentação completa da gcloud no Google Cloud no guia de visão geral da gcloud CLI.

Tarefa 1: crie uma chave de API

Como você usa curl para enviar solicitações para a API Vision, gere uma chave de API para transmitir o URL da solicitação.

  1. Para criar uma chave de API, acesse: Menu de navegação > APIs e serviços > Credenciais:

  1. Clique em + Criar credenciais.

  2. No menu suspenso, selecione Chave de API:

  1. Depois, copie a chave gerada e clique em Fechar.

  2. Em seguida, salve a chave de API em uma variável de ambiente para não precisar inserir o valor dela em cada solicitação.

  3. Execute este comando no Cloud Shell, substituindo <your_api_key> pela chave que você copiou:

export API_KEY=<YOUR_API_KEY>

Clique em Verificar meu progresso para conferir a tarefa realizada.

Crie uma chave de API

Tarefa 2: faça upload de uma imagem para um bucket do Cloud Storage

Crie um bucket do Cloud Storage

Há duas maneiras de enviar uma imagem para a detecção de imagens da API Vision: enviar uma string de imagem codificada em base64 ou transmitir o URL de um arquivo armazenado no Cloud Storage. Para este laboratório, você criará um bucket do Cloud Storage para armazenar suas imagens.

  1. Acesse o navegador Menu de navegação > Cloud Storage no console, depois clique em Criar bucket.

  2. Dê um nome exclusivo ao bucket:-bucket.

  3. Após dar o nome ao bucket, clique em Escolher como controlar o acesso aos objetos.

  4. Desmarque a caixa de seleção Aplicar a prevenção do acesso público neste bucket.

  5. Escolha Fine-grained em Acesso e Controle e clique em Criar.

Faça upload de uma imagem para o bucket

  1. Clique com o botão direito na imagem a seguir de uma placa em francês. Depois, clique em Salvar imagem como… para salvá-la no seu computador como sign.jpg.

  1. No navegador do Cloud Storage, acesse o bucket que você criou e clique em Fazer upload de arquivos, depois selecione sign.jpg.

Agora você vai permitir que o arquivo seja acessível publicamente, mantendo o acesso privado ao bucket.

  1. Clique nos três pontos do arquivo de imagem:

  1. Selecione Editar acesso.

  2. Agora clique em Adicionar entrada e defina o seguinte:

  • Selecione Pública para a Entidade.
  • Garanta que allUsers seja o valor de Name.
  • Selecione Leitor no campo "Acesso".

  1. Clique em Salvar.

Você verá que agora o arquivo tem acesso público.

Agora que o arquivo já está no bucket, você pode criar uma solicitação na API Vision transmitindo o URL dessa imagem.

Clique em Verificar meu progresso para conferir a tarefa realizada.

Fazer upload de imagem para um bucket

Tarefa 3: crie sua solicitação da API Cloud Vision

  1. No seu ambiente do Cloud Shell, crie um arquivo ocr-request.json. Depois, adicione o código abaixo ao arquivo, substituindo my-bucket-name pelo nome do bucket que você criou. Crie o arquivo com o editor de linha de comando que preferir (nano, vim, emacs) ou clique no ícone de lápis para abrir o editor de código no Cloud Shell:

  1. Adicione o seguinte ao seu arquivo ocr-request.json:
{ "requests": [ { "image": { "source": { "gcsImageUri": "gs://my-bucket-name/sign.jpg" } }, "features": [ { "type": "TEXT_DETECTION", "maxResults": 10 } ] } ] }

Você usará o recurso TEXT_DETECTION da API Cloud Vision para executar o reconhecimento óptico de caracteres (OCR) na imagem e extrair o texto.

Tarefa 4: chame o método de detecção de texto

  1. No Cloud Shell, chame a API Cloud Vision com curl:
curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr-request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY}

A primeira parte da sua resposta será semelhante a esta:

{ "responses": [ { "textAnnotations": [ { "locale": "fr", "description": "LE BIEN PUBLIC\nles dépêches\nPour Obama,\nla moutarde\nest\nde Dijon\n", "boundingPoly": { "vertices": [ { "x": 138, "y": 40 }, { "x": 622, "y": 40 }, { "x": 622, "y": 795 }, { "x": 138, "y": 795 } ] } }, { "description": "LE", "boundingPoly": { "vertices": [ { "x": 138, "y": 99 }, { "x": 274, "y": 82 }, { "x": 283, "y": 157 }, { "x": 147, "y": 173 } ] } }, { "description": "BIEN", "boundingPoly": { "vertices": [ { "x": 291, "y": 79 }, { "x": 413, "y": 64 }, { "x": 422, "y": 139 }, { "x": 300, "y": 154 } ] } ... ] }] }

O método de OCR extrai bastante texto da imagem.

O primeiro dado recebido de textAnnotations é todo o bloco de texto que a API encontrou na imagem. Isso inclui:

  • O código do idioma (neste caso, fr, ou seja, Francês).
  • Uma string de texto.
  • Uma caixa delimitadora que indica onde o texto foi encontrado na imagem.

Depois, há um objeto para cada palavra encontrada no texto com uma caixa delimitadora para aquela palavra específica.

Observação: em imagens com mais texto, a API Cloud Vision também tem um recurso DOCUMENT_TEXT_DETECTION. Essa resposta inclui informações adicionais e divide o texto em páginas, blocos, parágrafos e palavras.

A menos que você fale francês, provavelmente não entenderá o que está no texto. A próxima etapa é a tradução.

  1. Execute o seguinte comando curl para salvar a resposta em um arquivo ocr-response.json para referência futura:
curl -s -X POST -H "Content-Type: application/json" --data-binary @ocr-request.json https://vision.googleapis.com/v1/images:annotate?key=${API_KEY} -o ocr-response.json

Tarefa 5: envie o texto da imagem para a API Translation

A API Translation pode traduzir textos em mais de cem idiomas. Ela também consegue detectar o idioma do texto de entrada. Para traduzir o texto do francês para o inglês, transmita o texto e o código do idioma de chegada (en-US) à API Translation.

  1. Para começar, crie um arquivo translation-request.json e adicione o seguinte a ele:
{ "q": "your_text_here", "target": "en" }

q é onde você transmitirá a string que será traduzida.

  1. Salve o arquivo.

  2. Execute este comando Bash no Cloud Shell para extrair o texto da imagem da etapa anterior e criar uma cópia dele em um novo translation-request.json (tudo em um comando):

STR=$(jq .responses[0].textAnnotations[0].description ocr-response.json) && STR="${STR//\"}" && sed -i "s|your_text_here|$STR|g" translation-request.json
  1. Agora você pode chamar a API Translation. Este comando também copiará a resposta em um arquivo translation-response.json:
curl -s -X POST -H "Content-Type: application/json" --data-binary @translation-request.json https://translation.googleapis.com/language/translate/v2?key=${API_KEY} -o translation-response.json
  1. Execute este comando para inspecionar o arquivo com a resposta da API Translation:
cat translation-response.json

Agora você pode entender melhor o que dizia na placa!

{ "data": { "translations": [ { "translatedText": "TO THE PUBLIC GOOD the dispatches For Obama, the mustard is from Dijon", "detectedSourceLanguage": "fr" } ] } }

Na resposta:

  • translatedText contém a tradução resultante.
  • detectedSourceLanguage é fr, o código de idioma em ISO para francês.

A API Translation oferece suporte a mais de 100 idiomas, todos listados na referência de suporte a idiomas.

Além de traduzir o texto da imagem, pode ser que você queira fazer outras análises. É aí que entra a API Natural Language. Vamos à próxima etapa.

Tarefa 6: analise o texto da imagem com a API Natural Language

A API Natural Language ajuda a entender o texto extraindo entidades, analisando sentimento e sintaxe e classificando o texto em categorias. Use o método analyzeEntities para conferir quais entidades a API Natural Language detecta no texto da imagem.

  1. Para configurar a solicitação de API, crie um arquivo nl-request.json com os seguintes dados:
{ "document":{ "type":"PLAIN_TEXT", "content":"your_text_here" }, "encodingType":"UTF8" }

Na solicitação, você dá informações à API Natural Language sobre o texto enviado:

  • type: os valores de tipo com suporte são PLAIN_TEXT ou HTML.

  • content: transmite o texto a ser enviado à API Natural Language para análise. A API Natural Language também aceita o envio de arquivos armazenados no Cloud Storage para processamento de texto. Para enviar um arquivo do Cloud Storage, substitua content por gcsContentUri e use o valor do URI do arquivo de texto no Cloud Storage.

  • encodingType: determina para a API o tipo de codificação de texto que deve ser usado no processamento. Com isso, a API calculará onde certas entidades aparecem no texto.

  1. Execute este comando Bash no Cloud Shell para copiar o texto traduzido no bloco de conteúdo da solicitação da API Natural Language:
STR=$(jq .data.translations[0].translatedText translation-response.json) && STR="${STR//\"}" && sed -i "s|your_text_here|$STR|g" nl-request.json

Agora o arquivo nl-request.json contém a tradução em inglês do texto da imagem original. É hora de analisá-lo.

  1. Chame o endpoint analyzeEntities da API Natural Language com esta solicitação curl:
curl "https://language.googleapis.com/v1/documents:analyzeEntities?key=${API_KEY}" \ -s -X POST -H "Content-Type: application/json" --data-binary @nl-request.json

Ao analisar a resposta, você encontrará as entidades que a API Natural Language encontrou:

{ "entities": [ { "name": "dispatches", "type": "OTHER", "metadata": {}, "salience": 0.3560996, "mentions": [ { "text": { "content": "dispatches", "beginOffset": 23 }, "type": "COMMON" } ] }, { "name": "mustard", "type": "OTHER", "metadata": {}, "salience": 0.2878307, "mentions": [ { "text": { "content": "mustard", "beginOffset": 38 }, "type": "COMMON" } ] }, { "name": "Obama", "type": "PERSON", "metadata": { "mid": "/m/02mjmr", "wikipedia_url": "https://en.wikipedia.org/wiki/Barack_Obama" }, "salience": 0.16260329, "mentions": [ { "text": { "content": "Obama", "beginOffset": 31 }, "type": "PROPER" } ] }, { "name": "Dijon", "type": "LOCATION", "metadata": { "mid": "/m/0pbhz", "wikipedia_url": "https://en.wikipedia.org/wiki/Dijon" }, "salience": 0.08129317, "mentions": [ { "text": { "content": "Dijon", "beginOffset": 54 }, "type": "PROPER" } ] } ], "language": "en" }

Para entidades que têm uma página da Wikipédia, a API fornece metadados, incluindo o URL da página com o mid da entidade. O mid é um ID que é associado a essa entidade no Mapa de informações do Google. Para obter mais informações sobre ele, você pode chamar a API Mapa de informações, passando este ID. Para todas as entidades, a API Natural Language nos informa os locais onde elas apareceram no texto (mentions), o type da entidade e a salience (intervalo [0,1] que indica a importância da entidade para o texto como um todo). Além de inglês, a API Natural Language também oferece suporte aos idiomas listados na referência de suporte de idiomas.

Ao analisar esta imagem, é relativamente fácil entender quais são as entidades importantes. No entanto, se tivéssemos uma biblioteca com centenas de imagens, isso seria muito mais difícil. O OCR, a tradução e o processamento de linguagem natural ajudam a entender o significado de grandes conjuntos de dados de imagens.

Clique em Verificar meu progresso para conferir a tarefa realizada.

Analise o texto da imagem com a API Natural Language

Parabéns!

Você aprendeu a combinar três APIs diferentes de machine learning: o método de OCR da API Vision extraiu texto de uma imagem, a API Translation traduziu o texto e a API Natural Language encontrou entidades no texto.

Conteúdo abordado

  • Casos de uso de combinação entre várias APIs de machine learning
  • Como criar uma solicitação de OCR da API Vision e chamar a API com curl
  • Como traduzir o texto com a API Translation
  • Como extrair entidades do texto com a API Natural Language

Termine a Quest

Este laboratório autoguiado faz parte das Quests Integrate with Machine Learning APIs e Intro to ML: Image Processing. Uma Quest é uma série de laboratórios relacionados que formam um programa de aprendizado. Ao concluir uma Quest, você ganha um selo como reconhecimento da sua conquista. É possível publicar os selos e incluir um link para eles no seu currículo on-line ou nas redes sociais. Inscreva-se em qualquer Quest que tenha este laboratório para receber os créditos de conclusão na mesma hora. Consulte o catálogo do Google Cloud Ensina para ver todas as Quests disponíveis.

Comece o próximo laboratório

Faça outro laboratórios sobre APIs de Machine Learning, como:

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 6 de outubro de 2023

Laboratório testado em 6 de outubro de 2023

Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Antes de começar

  1. Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
  2. Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
  3. No canto superior esquerdo da tela, clique em Começar o laboratório

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível

Um laboratório por vez

Confirme para encerrar todos os laboratórios atuais e iniciar este

Use a navegação anônima para executar o laboratório

Para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.