Puntos de control
Create an API Key
/ 30
Upload image to a bucket
/ 30
Analyzing the image's text with the Natural Language API
/ 40
Extrae, analiza y traduce texto de imágenes con las APIs de AA de Cloud
- GSP075
- Descripción general
- Configuración y requisitos
- Tarea 1. Crea una clave de API
- Tarea 2. Sube una imagen a un bucket de Cloud Storage
- Tarea 3: Crea tu solicitud a la API de Cloud Vision
- Tarea 4. Llama al método de detección de texto
- Tarea 5. Envía texto desde la imagen hasta la API de Translation
- Tarea 6. Analiza el texto de la imagen con la API de Natural Language
- ¡Felicitaciones!
GSP075
Descripción general
En este lab, explorarás el poder del aprendizaje automático. Para ello, usarás varias APIs de este tipo juntas. Empieza con el método de detección de texto de la API de Cloud Vision para hacer uso del reconocimiento óptico de caracteres (OCR) y extraer texto de imágenes. Luego, aprende a traducir ese texto con la API de Translation y a analizarlo con la API de Natural Language.
Qué aprenderás
- Cómo crear una solicitud a la API de Vision y cómo llamar a la API con curl
- Cómo usar el método de detección de texto (OCR) de la API de Vision
- Cómo usar la API de Translation para traducir texto extraído de una imagen
- Cómo usar la API de Natural Language para analizar texto
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Activa Cloud Shell
Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.
- Haz clic en Activar Cloud Shell en la parte superior de la consola de Google Cloud.
Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:
gcloud
es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.
- Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
-
Haz clic en Autorizar.
-
Ahora, el resultado debería verse de la siguiente manera:
Resultado:
- Puedes solicitar el ID del proyecto con este comando (opcional):
Resultado:
Resultado de ejemplo:
gcloud
, consulta la guía con la descripción general de gcloud CLI en Google Cloud.
Tarea 1. Crea una clave de API
Como usarás curl
para enviar una solicitud a la API de Vision, genera una clave de API con el objetivo de pasarla en la URL de la solicitud.
- Para crear una clave de API, navega a: menú de navegación > APIs y servicios > Credenciales:
-
Haz clic en + Crea credenciales.
-
En el menú desplegable, selecciona Clave de API:
-
Luego, copia la clave que acabas de generar y haz clic en Cerrar.
-
Ahora, guarda la clave de API en una variable de entorno para no tener que insertar su valor en cada solicitud.
-
Ejecuta lo siguiente en Cloud Shell, y reemplaza
<your_api_key>
por la clave que acabas de copiar:
Haz clic en Revisar mi progreso para verificar la tarea realizada.
Tarea 2. Sube una imagen a un bucket de Cloud Storage
Crea un bucket de Cloud Storage
Hay dos maneras de enviar una imagen a la API de Vision para su detección: enviar una cadena de imagen codificada en base64 a la API o pasarle la URL de un archivo almacenado en Cloud Storage. En este lab, crearás un bucket de Cloud Storage para almacenar tus imágenes.
-
Navega al menú de navegación > navegador de Cloud Storage en la consola y, luego, haz clic en Crear bucket.
-
Otorga al bucket un nombre único:
-bucket. -
Luego de hacerlo, haz clic en Elige cómo controlar el acceso a los objetos.
-
Desmarca la casilla Aplicar la prevención de acceso público a este bucket.
-
Elige Preciso en Control de acceso y haz clic en Crear.
Sube una imagen al bucket
- Haz clic con el botón derecho en la imagen siguiente de un letrero francés, haz clic en Guardar imagen como y guárdala en tu computadora como sign.jpg.
- Navega al bucket que acabas de crear en el navegador de Cloud Storage y haz clic en Subir archivos; luego, elige sign.jpg.
A continuación, debes permitir que el archivo se vea de forma pública, al mismo tiempo que mantienes privado el acceso al bucket.
- Haz clic en los 3 puntos del archivo de imagen:
-
Selecciona Editar acceso.
-
Luego, haz clic en Agregar entrada y configura lo siguiente:
- En Entidad, selecciona Pública.
- Asegúrate de que el valor allUsers sea el valor para el campo Nombre.
- En Acceso, elige Lector.
- Haz clic en Guardar.
Verás que el archivo es de acceso público.
Ahora que el archivo está en tu bucket, está todo listo para que crees una solicitud a la API de Vision y le pases la URL de esta foto.
Haz clic en Revisar mi progreso para verificar la tarea realizada.
Tarea 3: Crea tu solicitud a la API de Cloud Vision
- En el entorno de Cloud Shell, crea un archivo
ocr-request.json
y, luego, agrégale el código siguiente; recuerda reemplazar my-bucket-name por el nombre del bucket que creaste. Puedes crear el archivo con tu editor de línea de comandos preferido (nano
,vim
oemacs
) o hacer clic en el ícono de lápiz para abrir el editor de código en Cloud Shell:
- Agrega lo siguiente al archivo
ocr-request.json
:
Deberás usar el atributo TEXT_DETECTION de la API de Cloud Vision para ejecutar el reconocimiento óptico de caracteres (OCR) en la imagen y extraer el texto.
Tarea 4. Llama al método de detección de texto
- En Cloud Shell, llama a la API de Cloud Vision con
curl
:
La primera parte de la respuesta debería verse de la manera siguiente:
El método de OCR puede extraer mucho texto de la imagen.
El primer dato que obtienes de textAnnotations
es el bloque de texto entero que la API encontró en la imagen. Esto incluye lo siguiente:
- el código de idioma (en este caso, fr para francés)
- una cadena del texto
- un cuadro delimitador que indica en qué parte de la imagen se encontró el texto
Luego, obtienes un objeto por cada palabra encontrada en el texto con un cuadro delimitador para esa palabra específica.
A menos que hables francés, es probable que no sepas lo que dice aquí. El paso siguiente es la traducción.
- Ejecuta el siguiente comando
curl
para guardar la respuesta en un archivoocr-response.json
, de manera que se pueda hacer referencia a ella más tarde:
Tarea 5. Envía texto desde la imagen hasta la API de Translation
La API de Translation puede traducir texto a más de 100 idiomas. También puede detectar el idioma del texto de entrada. Para traducir el texto en francés al inglés, pasa el texto y el código del idioma meta (en-US) a la API de Translation
- Primero, crea un archivo
translation-request.json
y agrégale lo siguiente:
q
indica por dónde pasarás la cadena que quieres traducir.
-
Guarda el archivo.
-
Ejecuta este comando Bash en Cloud Shell para extraer el texto de la imagen del paso anterior y copiarlo en un archivo
translation-request.json
nuevo (todo en un solo comando):
- Ahora ya puedes llamar a la API de Translation. Este comando también copiará la respuesta en un archivo
translation-response.json
:
- Ejecuta este comando para inspeccionar el archivo con la respuesta de la API de Translation:
Ahora puedes comprender un poco más el significado del letrero.
En la respuesta, figura lo siguiente:
-
translatedText
, que contiene la traducción resultante. -
detectedSourceLanguage
, que esfr
, el código de idioma ISO para el francés.
La API de Translation admite más de 100 idiomas, los cuales figuran en la referencia de idiomas admitidos.
Además de traducir el texto de la imagen, es posible que quieras analizarlo en mayor profundidad. Aquí es donde resulta útil la API de Natural Language. Avancemos al siguiente paso.
Tarea 6. Analiza el texto de la imagen con la API de Natural Language
La API de Natural Language nos ayuda a comprender textos. Para ello, extrae entidades, analiza las opiniones y la sintaxis, y clasifica el texto en categorías. Usa el método analyzeEntities
para ver qué entidades puede encontrar la API de Natural Language en el texto de tu imagen.
- Para configurar la solicitud a la API, crea un archivo
nl-request.json
con lo siguiente:
En la solicitud, le informas a la API de Natural Language sobre el texto que estás enviando:
-
Los valores de tipo admitidos (type:) son
PLAIN_TEXT
yHTML
. -
Pasa el texto para enviarlo a la API de Natural Language y analizarlo (content:). La API de Natural Language también admite el envío de archivos almacenados en Cloud Storage para el procesamiento de texto. Si necesitas enviar un archivo desde Cloud Storage, debes reemplazar
content
porgcsContentUri
y usar el valor del URI del archivo de texto en Cloud Storage. -
El valor encodingType: le informa a la API qué tipo de codificación de texto se debe emplear cuando procesa el texto. La API utilizará esta información para calcular dónde aparecen entidades específicas en el texto.
- Ejecuta este comando Bash en Cloud Shell para copiar el texto traducido en el bloque de contenido de la solicitud a la API de Natural Language:
El archivo nl-request.json
ahora contiene el texto traducido en inglés de la imagen original. Es hora de analizarlo.
- Llama al extremo
analyzeEntities
de la API de Natural Language con esta solicitudcurl
:
Si te desplazas por la respuesta, verás las entidades que encontró la API de Natural Language:
En el caso de las entidades que tienen página de Wikipedia, la API proporciona metadatos, incluida la URL de esa página junto con el elemento mid
de la entidad. El elemento mid
es un ID que se asigna a esta entidad en el Gráfico de conocimiento de Google. Para obtener más información al respecto, llama a la API de Gráfico de conocimiento y pásale este ID. En todas las entidades, la API de Natural Language indica los lugares en los que apareció en el texto (mentions
), el type
(tipo) de entidad y el valor salience
(un rango [0,1] que indica qué tan importante es la entidad para el texto como unidad). Además del inglés, la API de Natural Language admite los idiomas que figuran en la referencia de idiomas admitidos.
Si observas esta imagen, es relativamente fácil identificar las entidades importantes, pero si tuvieras una biblioteca de miles de imágenes, sería mucho más difícil. La OCR, la traducción y el procesamiento de lenguaje natural pueden ayudar a extraer significado de grandes conjuntos de datos de imágenes.
Haz clic en Revisar mi progreso para verificar la tarea realizada.
¡Felicitaciones!
Aprendiste a combinar 3 APIs de aprendizaje automático diferentes: el método de OCR de la API de Vision extrajo texto de una imagen; luego, la API de Translation tradujo ese texto al inglés y, por último, la API de Natural Language encontró entidades en ese texto.
Temas abordados
- Casos de uso para combinar varias APIs de aprendizaje automático
- Cómo crear una solicitud de OCR a la API de Vision y cómo llamar a la API con curl
- Cómo traducir texto con la API de Translation
- Cómo extraer entidades de texto con la API de Natural Language
Finaliza la Quest
Este lab de autoaprendizaje forma parte de las Quests Integrate with Machine Learning APIs y Intro to ML: Image Processing. Una Quest es una serie de labs relacionados que forman una ruta de aprendizaje. Si completas esta Quest, obtendrás una insignia como reconocimiento por tu logro. Puedes hacer públicas tus insignias y agregar vínculos a ellas en tu currículum en línea o en tus cuentas de redes sociales. Inscríbete en cualquier Quest que contenga este lab y obtén un crédito inmediato de finalización. Consulta el catálogo de Google Cloud Skills Boost para ver todas las Quests disponibles.
Completa el próximo lab
Prueba otro lab sobre APIs de aprendizaje automático, como los que figuran a continuación:
- Clasifica texto en categorías con la API de Natural LanguageI
- Awwvision: la API de Cloud Vision desde un clúster de Kubernetes.
Pasos siguientes y más información
- Obtén más información a través de los instructivos y documentos de Vision, Translation y Natural Language.
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Actualización más reciente del manual: 6 de octubre de 2023
Prueba más reciente del lab: 6 de octubre de 2023
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.