Puntos de control
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Descripción general
- Configuración y requisitos
- Tarea 1: Crea un bucket de Cloud Storage en tu proyecto
- Tarea 2: Inicializa Cloud Dataprep
- Tarea 3: Crea un flujo
- Tarea 4: Importa conjuntos de datos
- Tarea 5: Prepara el archivo de candidatos
- Tarea 6: Deriva el archivo Contributions y únelo al archivo Candidates
- Tarea 7: Resumen de datos
- Tarea 8: Cambia el nombre de las columnas
- ¡Felicitaciones!
Este lab se desarrolló junto con nuestro socio Trifacta. Es posible que tu información personal se comparta con Trifacta, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.
GSP105
Descripción general
Cloud Dataprep de Trifacta es un servicio de datos inteligente que permite explorar, limpiar y preparar los datos de manera visual para su análisis. Cloud Dataprep funciona sin servidores y a cualquier escala. No es necesario implementar ni administrar una infraestructura. Prepara los datos de manera sencilla con solo unos clics y sin código.
En este lab, usarás Dataprep para manipular un conjunto de datos. Importarás conjuntos de datos y corregirás datos no coincidentes, además de transformar y unir datos. Si todo esto es nuevo para ti, al final del lab sabrás de qué se trata.
Actividades
En este lab, aprenderás a usar Dataprep para completar las siguientes tareas:
- Importar datos
- Corregir los datos no coincidentes
- Transformar los datos
- Unir datos
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Activa Cloud Shell
Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.
- Haz clic en Activar Cloud Shell en la parte superior de la consola de Google Cloud.
Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:
gcloud
es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.
- Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
-
Haz clic en Autorizar.
-
Ahora, el resultado debería verse de la siguiente manera:
Resultado:
- Puedes solicitar el ID del proyecto con este comando (opcional):
Resultado:
Resultado de ejemplo:
gcloud
, consulta la guía con la descripción general de gcloud CLI en Google Cloud.
Tarea 1: Crea un bucket de Cloud Storage en tu proyecto
-
En la consola de Cloud, elige el menú de navegación() > Cloud Storage > Buckets.
-
Haz clic en Crear bucket.
-
En el diálogo Crear un bucket, agrega un nombre de bucket único en el campo Nombre. Deja el resto de los parámetros de configuración con sus valores predeterminados.
-
Desmarca la opción Aplicar la prevención de acceso público en este bucket en
Elige cómo controlar el acceso a los objetos
. -
Haz clic en Crear.
Creaste tu bucket. Recuerda su nombre para los pasos posteriores.
Prueba la tarea completada
Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste con éxito un bucket de Cloud Storage, verás una puntuación de evaluación.
Tarea 2: Inicializa Cloud Dataprep
- Abre Cloud Shell y ejecuta el siguiente comando:
Deberías ver un mensaje que indique que se creó la identidad del servicio.
-
Elige el menú de navegación > Dataprep.
-
Marca la casilla de verificación para aceptar las Condiciones del Servicio de Google Dataprep. Luego, haz clic en Accept.
-
Marca la casilla de verificación para autorizar que se comparta la información de tu cuenta con Trifacta. Luego, haz clic en Agree and Continue.
-
Haz clic en Allow para que Trifacta pueda acceder a los datos del proyecto.
-
Haz clic en tu nombre de usuario de estudiante para acceder a Cloud Dataprep de Trifacta. Tu nombre de usuario es el que figura en el panel izquierdo del lab.
-
Haz clic en Allow para que Cloud Dataprep pueda acceder a tu cuenta de lab de Google Cloud.
-
Marca la casilla de verificación para aceptar las Condiciones del Servicio de Trifacta. Luego, haz clic en Accept.
-
En la pantalla First time setup, haz clic en Continue para crear la ubicación de almacenamiento predeterminada.
Se abre Dataprep.
Prueba la tarea completada
Haz clic en Revisar mi progreso para verificar la tarea realizada. Si inicializaste con éxito Cloud Dataprep con una ubicación de almacenamiento predeterminada, verás una puntuación de evaluación.
Tarea 3: Crea un flujo
Cloud Dataprep usa un lugar de trabajo de flow
para acceder a los conjuntos de datos y manipularlos.
- Haz clic en el ícono Flows y en el botón Create. Luego selecciona Blank Flow:
- Haz clic en Untitled Flow y, luego, otorga un nombre y una descripción al flujo. Dado que en este lab se usan datos del 2016 de la Comisión de Elecciones Federales de los Estados Unidos, otorga el nombre “FEC-2016” al flujo y descríbelo como “Comisión de Elecciones Federales de los Estados Unidos de 2016”.
- Haz clic en OK.
Se abrirá la página del flujo FEC-2016.
Tarea 4: Importa conjuntos de datos
En esta sección, importarás y agregarás datos al flujo FEC-2016.
-
Haz clic en Add Datasets y, luego, selecciona el vínculo Import Datasets.
-
En el panel del menú de la izquierda, elige Cloud Storage para importar conjuntos de datos desde Cloud Storage; luego, haz clic en el lápiz si quieres modificar la ruta de acceso al archivo.
- Escribe
gs://spls/gsp105
en el cuadro de texto Choose a file or folder. Luego, haz clic en Go.
Es posible que debas ampliar la ventana del navegador para ver los botones Go y Cancel.
-
Haz clic en us-fec/.
-
Haz clic en el ícono + junto a
cn-2016.txt
para crear el conjunto de datos que se muestra en el panel de la derecha. Haz clic en el título del conjunto de datos en el panel de la derecha y cámbiale el nombre a “Candidate Master 2016”. -
Del mismo modo, agrega el conjunto de datos
itcont-2016.txt
y cámbiale el nombre a “Campaign Contributions 2016”. -
Una vez que ambos conjuntos de datos figuren en el panel de la derecha, haz clic en Import & Add to Flow.
Verás que ambos conjuntos de datos aparecen como un flujo.
Tarea 5: Prepara el archivo de candidatos
- De forma predeterminada, se seleccionará el conjunto de datos Candidate Master 2016. En el panel de la derecha, haz clic en Edit Recipe.
Se abrirá la página de Transformer “Candidate Master 2016” en la vista de cuadrícula.
En la página de Transformer, compilarás tu receta de transformación y verás los resultados aplicados en el ejemplo. Cuando estés conforme con el resultado, ejecuta el trabajo con tu conjunto de datos.
- Cada uno de los encabezados de columna tiene un nombre y un valor que especifican el tipo de datos. Para ver los tipos de datos, haz clic en el ícono de la columna:
-
Observa también que, si haces clic en el nombre de la columna, se abre el panel Details a la derecha.
-
En la esquina superior derecha del panel Details, haz clic en la X para cerrar el panel Details.
En los pasos siguientes, explorarás los datos en la vista de cuadrícula y aplicarás los pasos de transformación a tu receta.
- En Column5, se proporcionan datos desde 1990 hasta 2064. Amplíala (como lo harías en una hoja de cálculo) para separar cada año. Haz clic para seleccionar el depósito más alto, que representa el año 2016.
Así se crea un paso en el que se seleccionan estos valores.
- A la derecha, en la sección Keep rows del panel Suggestions, haz clic en Add para agregar este paso a tu receta.
El panel Recipe a la derecha ahora incluye el paso siguiente:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- En Column6 (State), coloca el cursor sobre la parte no coincidente del encabezado (de color rojo) y haz clic en ella para seleccionar las filas que no coinciden.
Desplázate hacia la parte inferior (resaltada en color rojo), busca los valores no coincidentes y observa que la mayoría de estos registros tienen el valor “P” en column7 y “US” en column6. La falta de coincidencia se debe a que column6 está marcada como “State” (que se indica con el ícono de la bandera), pero existen otros valores (como “US”).
- Para corregir esto, haz clic en la X en la parte superior del panel Suggestions con el objetivo de cancelar la transformación. Luego, haz clic en el ícono de marcado, en Column6, y cámbialo a una columna “String”.
Ya no hay valores que no coincidan y el marcador de columna ahora es de color verde.
- Filtra solo los candidatos presidenciales, que son aquellos registros que tienen el valor “P” en column7. En el histograma de column7, coloca el cursor sobre los dos depósitos para ver cuál es “H” y cuál es “P”. Haz clic en el depósito “P”.
- En el panel Suggestions de la derecha, haz clic en Add para aceptar el paso a la receta.
Tarea 6: Deriva el archivo Contributions y únelo al archivo Candidates
En la página Join, puedes agregar tu conjunto de datos actual a otro conjunto de datos o receta según la información que tienen en común.
Deberás limpiar el archivo Contributions antes de unirlo al archivo Candidates.
- Haz clic en FEC-2016 (el selector de conjunto de datos), en la parte superior de la página de vista de cuadrícula.
-
Haz clic para seleccionar Campaign Contributions 2016, que está inhabilitado.
-
En el panel de la derecha, haz clic en Add > Recipe y, a continuación, en Edit Recipe.
-
Haz clic en el ícono de receta, en la parte superior derecha de la página, y, a continuación, en Add New Step.
Quita los delimitadores adicionales del conjunto de datos.
- Inserta el comando siguiente en lenguaje Wrangle en el cuadro de búsqueda:
El compilador de transformaciones analiza el comando Wrangle y propaga los campos de transformación Find and Replace.
-
Haz clic en Add para agregar la transformación a la receta.
-
Agrega otro paso nuevo a la receta. Haz clic en New Step y, luego, escribe “Join” en el cuadro de búsqueda.
-
Haz clic en Join datasets para abrir la página Joins.
-
Haz clic en “Candidate Master 2016” para unirlo a Campaign Contributions 2016. Luego, haz clic en Accept en la parte inferior derecha.
- En el lado derecho, coloca el cursor sobre la sección Join keys y, luego, haz clic en el lápiz (ícono de edición).
Dataprep infiere claves comunes. Hay muchos valores comunes que Dataprep sugiere como claves de unión.
- En la sección Suggested join keys del panel Add key, haz clic en column2 = column11.
- Haz clic en Save and Continue.
Las columnas 2 y 11 se abren para revisarlas.
- Haz clic en Next. A continuación, marca la casilla de verificación a la izquierda de la etiqueta “Column” para agregar todas las columnas de ambos conjuntos de datos al conjunto de datos unido.
- Haz clic en Review y, luego, en Add to Recipe para volver a la vista de cuadrícula.
Tarea 7: Resumen de datos
Con el objetivo de generar un resumen útil, agrega, promedia y cuenta las contribuciones de la columna 16, y agrupa a los candidatos por ID, nombre y partido en las columnas 2, 24 y 8, respectivamente.
- En la parte superior del panel Recipe a la derecha, haz clic en New Step y allí ingresa la fórmula siguiente en el cuadro de búsqueda Transformation para obtener una vista previa de los datos agregados.
Puede verse un ejemplo inicial de los datos unidos y agregados, que representan una tabla de resumen de los candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.
- Haz clic en Add para abrir una tabla de resumen de los principales candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.
Tarea 8: Cambia el nombre de las columnas
Para facilitar la interpretación de los datos, cambia el nombre de las columnas.
- Agrega uno por uno los pasos de cambio de nombre y de redondeo a la receta con un clic en New Step. Luego, escribe lo siguiente:
-
A continuación, haz clic en Add.
-
Agrega este último New Step para redondear el monto promedio de la contribución:
- A continuación, haz clic en Add.
Los resultados deberían ser similares al siguiente:
¡Felicitaciones!
Usaste Dataprep con el objetivo de agregar un conjunto de datos y creaste recetas para derivar resultados significativos a partir de ellos.
Próximos pasos y más información
Este lab forma parte de una serie llamada Qwik Starts. Estos labs están diseñados para ofrecerte una visión general de las numerosas funciones disponibles en Google Cloud. Busca “Qwik Starts” en el catálogo de labs para elegir el próximo lab que desees completar.
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 6 de junio de 2024
Prueba más reciente del lab: 6 de junio de 2024
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.