
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create an API Key
/ 30
Upload image to a bucket
/ 30
Analyzing the image's text with the Natural Language API
/ 40
En este lab, explorarás el poder del aprendizaje automático. Para ello, usarás varias APIs de este tipo juntas. Empieza con el método de detección de texto de la API de Cloud Vision para hacer uso del reconocimiento óptico de caracteres (OCR) y extraer texto de imágenes. Luego, aprende a traducir ese texto con la API de Translation y a analizarlo con la API de Natural Language.
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
También puedes encontrar el nombre de usuario en el panel Detalles del lab.
Haz clic en Siguiente.
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
También puedes encontrar la contraseña en el panel Detalles del lab.
Haz clic en Siguiente.
Haga clic para avanzar por las páginas siguientes:
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.
Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:
gcloud
es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.
Haz clic en Autorizar.
Ahora, el resultado debería verse de la siguiente manera:
Resultado:
Resultado:
Resultado de ejemplo:
gcloud
, consulta la guía con la descripción general de gcloud CLI en Google Cloud.
Como usarás curl
para enviar una solicitud a la API de Vision, genera una clave de API con el objetivo de pasarla en la URL de la solicitud.
Haz clic en + Crea credenciales.
En el menú desplegable, selecciona Clave de API:
Luego, copia la clave que acabas de generar y haz clic en Cerrar.
Ahora, guarda la clave de API en una variable de entorno para no tener que insertar su valor en cada solicitud.
Ejecuta lo siguiente en Cloud Shell, y reemplaza <your_api_key>
por la clave que acabas de copiar:
Haz clic en Revisar mi progreso para verificar la tarea realizada.
Hay dos maneras de enviar una imagen a la API de Vision para su detección: enviar una cadena de imagen codificada en base64 a la API o pasarle la URL de un archivo almacenado en Cloud Storage. En este lab, crearás un bucket de Cloud Storage para almacenar tus imágenes.
Navega al menú de navegación > navegador de Cloud Storage en la consola y, luego, haz clic en Crear bucket.
Otorga al bucket un nombre único:
Luego de hacerlo, haz clic en Elige cómo controlar el acceso a los objetos.
Desmarca la casilla Aplicar la prevención de acceso público a este bucket.
Elige Preciso en Control de acceso y haz clic en Crear.
A continuación, debes permitir que el archivo se vea de forma pública, al mismo tiempo que mantienes privado el acceso al bucket.
Selecciona Editar acceso.
Luego, haz clic en Agregar entrada y configura lo siguiente:
Verás que el archivo es de acceso público.
Ahora que el archivo está en tu bucket, está todo listo para que crees una solicitud a la API de Vision y le pases la URL de esta foto.
Haz clic en Revisar mi progreso para verificar la tarea realizada.
ocr-request.json
y, luego, agrégale el código siguiente; recuerda reemplazar my-bucket-name por el nombre del bucket que creaste. Puedes crear el archivo con tu editor de línea de comandos preferido (nano
, vim
o emacs
) o hacer clic en el ícono de lápiz para abrir el editor de código en Cloud Shell:ocr-request.json
:Deberás usar el atributo TEXT_DETECTION de la API de Cloud Vision para ejecutar el reconocimiento óptico de caracteres (OCR) en la imagen y extraer el texto.
curl
:La primera parte de la respuesta debería verse de la manera siguiente:
El método de OCR puede extraer mucho texto de la imagen.
El primer dato que obtienes de textAnnotations
es el bloque de texto entero que la API encontró en la imagen. Esto incluye lo siguiente:
Luego, obtienes un objeto por cada palabra encontrada en el texto con un cuadro delimitador para esa palabra específica.
A menos que hables francés, es probable que no sepas lo que dice aquí. El paso siguiente es la traducción.
curl
para guardar la respuesta en un archivo ocr-response.json
, de manera que se pueda hacer referencia a ella más tarde:La API de Translation puede traducir texto a más de 100 idiomas. También puede detectar el idioma del texto de entrada. Para traducir el texto en francés al inglés, pasa el texto y el código del idioma meta (en-US) a la API de Translation
translation-request.json
y agrégale lo siguiente:q
indica por dónde pasarás la cadena que quieres traducir.
Guarda el archivo.
Ejecuta este comando Bash en Cloud Shell para extraer el texto de la imagen del paso anterior y copiarlo en un archivo translation-request.json
nuevo (todo en un solo comando):
translation-response.json
:Ahora puedes comprender un poco más el significado del letrero.
En la respuesta, figura lo siguiente:
translatedText
, que contiene la traducción resultante.detectedSourceLanguage
, que es fr
, el código de idioma ISO para el francés.La API de Translation admite más de 100 idiomas, los cuales figuran en la referencia de idiomas admitidos.
Además de traducir el texto de la imagen, es posible que quieras analizarlo en mayor profundidad. Aquí es donde resulta útil la API de Natural Language. Avancemos al siguiente paso.
La API de Natural Language nos ayuda a comprender textos. Para ello, extrae entidades, analiza las opiniones y la sintaxis, y clasifica el texto en categorías. Usa el método analyzeEntities
para ver qué entidades puede encontrar la API de Natural Language en el texto de tu imagen.
nl-request.json
con lo siguiente:En la solicitud, le informas a la API de Natural Language sobre el texto que estás enviando:
Los valores de tipo admitidos (type:) son PLAIN_TEXT
y HTML
.
Pasa el texto para enviarlo a la API de Natural Language y analizarlo (content:). La API de Natural Language también admite el envío de archivos almacenados en Cloud Storage para el procesamiento de texto. Si necesitas enviar un archivo desde Cloud Storage, debes reemplazar content
por gcsContentUri
y usar el valor del URI del archivo de texto en Cloud Storage.
El valor encodingType: le informa a la API qué tipo de codificación de texto se debe emplear cuando procesa el texto. La API utilizará esta información para calcular dónde aparecen entidades específicas en el texto.
El archivo nl-request.json
ahora contiene el texto traducido en inglés de la imagen original. Es hora de analizarlo.
analyzeEntities
de la API de Natural Language con esta solicitud curl
:Si te desplazas por la respuesta, verás las entidades que encontró la API de Natural Language:
En el caso de las entidades que tienen página de Wikipedia, la API proporciona metadatos, incluida la URL de esa página junto con el elemento mid
de la entidad. El elemento mid
es un ID que se asigna a esta entidad en el Gráfico de conocimiento de Google. Para obtener más información al respecto, llama a la API de Gráfico de conocimiento y pásale este ID. En todas las entidades, la API de Natural Language indica los lugares en los que apareció en el texto (mentions
), el type
(tipo) de entidad y el valor salience
(un rango [0,1] que indica qué tan importante es la entidad para el texto como unidad). Además del inglés, la API de Natural Language admite los idiomas que figuran en la referencia de idiomas admitidos.
Si observas esta imagen, es relativamente fácil identificar las entidades importantes, pero si tuvieras una biblioteca de miles de imágenes, sería mucho más difícil. La OCR, la traducción y el procesamiento de lenguaje natural pueden ayudar a extraer significado de grandes conjuntos de datos de imágenes.
Haz clic en Revisar mi progreso para verificar la tarea realizada.
Aprendiste a combinar 3 APIs de aprendizaje automático diferentes: el método de OCR de la API de Vision extrajo texto de una imagen; luego, la API de Translation tradujo ese texto al inglés y, por último, la API de Natural Language encontró entidades en ese texto.
Este lab de autoaprendizaje forma parte de las Quests Integrate with Machine Learning APIs y Intro to ML: Image Processing. Una Quest es una serie de labs relacionados que forman una ruta de aprendizaje. Si completas esta Quest, obtendrás una insignia como reconocimiento por tu logro. Puedes hacer públicas tus insignias y agregar vínculos a ellas en tu currículum en línea o en tus cuentas de redes sociales. Inscríbete en cualquier Quest que contenga este lab y obtén un crédito inmediato de finalización. Consulta el catálogo de Google Cloud Skills Boost para ver todas las Quests disponibles.
Prueba otro lab sobre APIs de aprendizaje automático, como los que figuran a continuación:
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Actualización más reciente del manual: 6 de octubre de 2023
Prueba más reciente del lab: 6 de octubre de 2023
Copyright 2025 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.
Este contenido no está disponible en este momento
Te enviaremos una notificación por correo electrónico cuando esté disponible
¡Genial!
Nos comunicaremos contigo por correo electrónico si está disponible
One lab at a time
Confirm to end all existing labs and start this one