arrow_back

Dataprep: Qwik Start

Acceder Unirse
Pon a prueba tus conocimientos y compártelos con nuestra comunidad
done
Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

Dataprep: Qwik Start

Lab 1 hora universal_currency_alt 1 crédito show_chart Introductorio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Pon a prueba tus conocimientos y compártelos con nuestra comunidad
done
Obtén acceso a más de 700 labs prácticos, insignias de habilidad y cursos

Este lab se desarrolló junto con nuestro socio Trifacta. Es posible que tu información personal se comparta con Trifacta, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.

GSP105

Labs de autoaprendizaje de Google Cloud

Descripción general

Cloud Dataprep de Trifacta es un servicio de datos inteligente que permite explorar, limpiar y preparar los datos de manera visual para su análisis. Cloud Dataprep funciona sin servidores y a cualquier escala. No es necesario implementar ni administrar una infraestructura. Prepara los datos de manera sencilla con solo unos clics y sin código.

En este lab, usarás Dataprep para manipular un conjunto de datos. Importarás conjuntos de datos y corregirás datos no coincidentes, además de transformar y unir datos. Si todo esto es nuevo para ti, al final del lab sabrás de qué se trata.

Actividades

En este lab, aprenderás a usar Dataprep para completar las siguientes tareas:

  • Importar datos
  • Corregir los datos no coincidentes
  • Transformar los datos
  • Unir datos

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • El botón Abrir la consola de Google Cloud
    • El tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

    El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
  3. De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.

    {{{user_0.username | "Username"}}}

    También puedes encontrar el nombre de usuario en el panel Detalles del lab.

  4. Haz clic en Siguiente.

  5. Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.

    {{{user_0.password | "Password"}}}

    También puedes encontrar la contraseña en el panel Detalles del lab.

  6. Haz clic en Siguiente.

    Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales.
  7. Haga clic para avanzar por las páginas siguientes:

    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para ver un menú con una lista de productos y servicios de Google Cloud, haz clic en el menú de navegación que se encuentra en la parte superior izquierda. Ícono del menú de navegación

Activa Cloud Shell

Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

  1. Haz clic en Activar Cloud Shell Ícono de Activar Cloud Shell en la parte superior de la consola de Google Cloud.

Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. El resultado contiene una línea que declara el PROJECT_ID para esta sesión:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

  1. Puedes solicitar el nombre de la cuenta activa con este comando (opcional):
gcloud auth list
  1. Haz clic en Autorizar.

  2. Ahora, el resultado debería verse de la siguiente manera:

Resultado:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. Puedes solicitar el ID del proyecto con este comando (opcional):
gcloud config list project

Resultado:

[core] project = <project_ID>

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: Para obtener toda la documentación de gcloud, consulta la guía con la descripción general de gcloud CLI en Google Cloud.

Tarea 1: Crea un bucket de Cloud Storage en tu proyecto

  1. En la consola de Cloud, elige el menú de navegación(Ícono del menú de navegación) > Cloud Storage > Buckets.

  2. Haz clic en Crear bucket.

  3. En el diálogo Crear un bucket, agrega un nombre de bucket único en el campo Nombre. Deja el resto de los parámetros de configuración con sus valores predeterminados.

Nota: Obtén más información para otorgar nombres a buckets en los lineamientos de Nombres de buckets.
  1. Desmarca la opción Aplicar la prevención de acceso público en este bucket en Elige cómo controlar el acceso a los objetos.

  2. Haz clic en Crear.

Creaste tu bucket. Recuerda su nombre para los pasos posteriores.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste con éxito un bucket de Cloud Storage, verás una puntuación de evaluación.

Crear un bucket de Cloud Storage

Tarea 2: Inicializa Cloud Dataprep

  1. Abre Cloud Shell y ejecuta el siguiente comando:
gcloud beta services identity create --service=dataprep.googleapis.com

Deberías ver un mensaje que indique que se creó la identidad del servicio.

  1. Elige el menú de navegación > Dataprep.

  2. Marca la casilla de verificación para aceptar las Condiciones del Servicio de Google Dataprep. Luego, haz clic en Accept.

  3. Marca la casilla de verificación para autorizar que se comparta la información de tu cuenta con Trifacta. Luego, haz clic en Agree and Continue.

  4. Haz clic en Allow para que Trifacta pueda acceder a los datos del proyecto.

  5. Haz clic en tu nombre de usuario de estudiante para acceder a Cloud Dataprep de Trifacta. Tu nombre de usuario es el que figura en el panel izquierdo del lab.

  6. Haz clic en Allow para que Cloud Dataprep pueda acceder a tu cuenta de lab de Google Cloud.

  7. Marca la casilla de verificación para aceptar las Condiciones del Servicio de Trifacta. Luego, haz clic en Accept.

  8. En la pantalla First time setup, haz clic en Continue para crear la ubicación de almacenamiento predeterminada.

Se abre Dataprep.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si inicializaste con éxito Cloud Dataprep con una ubicación de almacenamiento predeterminada, verás una puntuación de evaluación.

Inicializar Cloud Dataprep

Tarea 3: Crea un flujo

Cloud Dataprep usa un lugar de trabajo de flow para acceder a los conjuntos de datos y manipularlos.

  1. Haz clic en el ícono Flows y en el botón Create. Luego selecciona Blank Flow:

Ícono Flows, botón Create, opción Blank Flow

  1. Haz clic en Untitled Flow y, luego, otorga un nombre y una descripción al flujo. Dado que en este lab se usan datos del 2016 de la Comisión de Elecciones Federales de los Estados Unidos, otorga el nombre “FEC-2016” al flujo y descríbelo como “Comisión de Elecciones Federales de los Estados Unidos de 2016”.
  2. Haz clic en OK.

Se abrirá la página del flujo FEC-2016.

Tarea 4: Importa conjuntos de datos

En esta sección, importarás y agregarás datos al flujo FEC-2016.

  1. Haz clic en Add Datasets y, luego, selecciona el vínculo Import Datasets.

  2. En el panel del menú de la izquierda, elige Cloud Storage para importar conjuntos de datos desde Cloud Storage; luego, haz clic en el lápiz si quieres modificar la ruta de acceso al archivo.

Página de Cloud Storage

  1. Escribe gs://spls/gsp105 en el cuadro de texto Choose a file or folder. Luego, haz clic en Go.

Es posible que debas ampliar la ventana del navegador para ver los botones Go y Cancel.

  1. Haz clic en us-fec/.

  2. Haz clic en el ícono + junto a cn-2016.txt para crear el conjunto de datos que se muestra en el panel de la derecha. Haz clic en el título del conjunto de datos en el panel de la derecha y cámbiale el nombre a “Candidate Master 2016”.

  3. Del mismo modo, agrega el conjunto de datos itcont-2016.txt y cámbiale el nombre a “Campaign Contributions 2016”.

  4. Una vez que ambos conjuntos de datos figuren en el panel de la derecha, haz clic en Import & Add to Flow.

Dos conjuntos de datos en el panel de la derecha

Verás que ambos conjuntos de datos aparecen como un flujo.

Tarea 5: Prepara el archivo de candidatos

  1. De forma predeterminada, se seleccionará el conjunto de datos Candidate Master 2016. En el panel de la derecha, haz clic en Edit Recipe.

Página de conjuntos de datos “Candidate Master 2016”

Se abrirá la página de Transformer “Candidate Master 2016” en la vista de cuadrícula.

Página de Transformer “Candidate Master 2016” en la vista de cuadrícula

En la página de Transformer, compilarás tu receta de transformación y verás los resultados aplicados en el ejemplo. Cuando estés conforme con el resultado, ejecuta el trabajo con tu conjunto de datos.

  1. Cada uno de los encabezados de columna tiene un nombre y un valor que especifican el tipo de datos. Para ver los tipos de datos, haz clic en el ícono de la columna:

column6

  1. Observa también que, si haces clic en el nombre de la columna, se abre el panel Details a la derecha.

  2. En la esquina superior derecha del panel Details, haz clic en la X para cerrar el panel Details.

En los pasos siguientes, explorarás los datos en la vista de cuadrícula y aplicarás los pasos de transformación a tu receta.

  1. En Column5, se proporcionan datos desde 1990 hasta 2064. Amplíala (como lo harías en una hoja de cálculo) para separar cada año. Haz clic para seleccionar el depósito más alto, que representa el año 2016.

column5

Así se crea un paso en el que se seleccionan estos valores.

  1. A la derecha, en la sección Keep rows del panel Suggestions, haz clic en Add para agregar este paso a tu receta.

 Panel Suggestions

El panel Recipe a la derecha ahora incluye el paso siguiente:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. En Column6 (State), coloca el cursor sobre la parte no coincidente del encabezado (de color rojo) y haz clic en ella para seleccionar las filas que no coinciden.

column6

Desplázate hacia la parte inferior (resaltada en color rojo), busca los valores no coincidentes y observa que la mayoría de estos registros tienen el valor “P” en column7 y “US” en column6. La falta de coincidencia se debe a que column6 está marcada como “State” (que se indica con el ícono de la bandera), pero existen otros valores (como “US”).

  1. Para corregir esto, haz clic en la X en la parte superior del panel Suggestions con el objetivo de cancelar la transformación. Luego, haz clic en el ícono de marcado, en Column6, y cámbialo a una columna “String”.

column6

Ya no hay valores que no coincidan y el marcador de columna ahora es de color verde.

  1. Filtra solo los candidatos presidenciales, que son aquellos registros que tienen el valor “P” en column7. En el histograma de column7, coloca el cursor sobre los dos depósitos para ver cuál es “H” y cuál es “P”. Haz clic en el depósito “P”.

column7

  1. En el panel Suggestions de la derecha, haz clic en Add para aceptar el paso a la receta.

Cuadro Keep rows

Tarea 6: Deriva el archivo Contributions y únelo al archivo Candidates

En la página Join, puedes agregar tu conjunto de datos actual a otro conjunto de datos o receta según la información que tienen en común.

Deberás limpiar el archivo Contributions antes de unirlo al archivo Candidates.

  1. Haz clic en FEC-2016 (el selector de conjunto de datos), en la parte superior de la página de vista de cuadrícula.

FEC-2016 en la parte superior de la página de vista de cuadrícula

  1. Haz clic para seleccionar Campaign Contributions 2016, que está inhabilitado.

  2. En el panel de la derecha, haz clic en Add > Recipe y, a continuación, en Edit Recipe.

  3. Haz clic en el ícono de receta, en la parte superior derecha de la página, y, a continuación, en Add New Step.

Ícono de receta y botón Add New Step

Quita los delimitadores adicionales del conjunto de datos.

  1. Inserta el comando siguiente en lenguaje Wrangle en el cuadro de búsqueda:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

El compilador de transformaciones analiza el comando Wrangle y propaga los campos de transformación Find and Replace.

Compilador de transformaciones

  1. Haz clic en Add para agregar la transformación a la receta.

  2. Agrega otro paso nuevo a la receta. Haz clic en New Step y, luego, escribe “Join” en el cuadro de búsqueda.

Cuadro Search transformations

  1. Haz clic en Join datasets para abrir la página Joins.

  2. Haz clic en “Candidate Master 2016” para unirlo a Campaign Contributions 2016. Luego, haz clic en Accept en la parte inferior derecha.

Fila “Candidate Master 2016”

  1. En el lado derecho, coloca el cursor sobre la sección Join keys y, luego, haz clic en el lápiz (ícono de edición).

Cuadro Join conditions

Dataprep infiere claves comunes. Hay muchos valores comunes que Dataprep sugiere como claves de unión.

  1. En la sección Suggested join keys del panel Add key, haz clic en column2 = column11.

Panel Add Key

  1. Haz clic en Save and Continue.

Las columnas 2 y 11 se abren para revisarlas.

  1. Haz clic en Next. A continuación, marca la casilla de verificación a la izquierda de la etiqueta “Column” para agregar todas las columnas de ambos conjuntos de datos al conjunto de datos unido.

Lista de etiquetas “Column”

  1. Haz clic en Review y, luego, en Add to Recipe para volver a la vista de cuadrícula.

Tarea 7: Resumen de datos

Con el objetivo de generar un resumen útil, agrega, promedia y cuenta las contribuciones de la columna 16, y agrupa a los candidatos por ID, nombre y partido en las columnas 2, 24 y 8, respectivamente.

  1. En la parte superior del panel Recipe a la derecha, haz clic en New Step y allí ingresa la fórmula siguiente en el cuadro de búsqueda Transformation para obtener una vista previa de los datos agregados.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Puede verse un ejemplo inicial de los datos unidos y agregados, que representan una tabla de resumen de los candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.

Página de contribución de campaña

  1. Haz clic en Add para abrir una tabla de resumen de los principales candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.

Tarea 8: Cambia el nombre de las columnas

Para facilitar la interpretación de los datos, cambia el nombre de las columnas.

  1. Agrega uno por uno los pasos de cambio de nombre y de redondeo a la receta con un clic en New Step. Luego, escribe lo siguiente:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. A continuación, haz clic en Add.

  2. Agrega este último New Step para redondear el monto promedio de la contribución:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. A continuación, haz clic en Add.

Los resultados deberían ser similares al siguiente:

Tabla de resultados con columnas para Candidate_Id, Candidate_Name, Part_Affiliation y Total_Contribution_Sum

¡Felicitaciones!

Usaste Dataprep con el objetivo de agregar un conjunto de datos y creaste recetas para derivar resultados significativos a partir de ellos.

Próximos pasos y más información

Este lab forma parte de una serie llamada Qwik Starts. Estos labs están diseñados para ofrecerte una visión general de las numerosas funciones disponibles en Google Cloud. Busca “Qwik Starts” en el catálogo de labs para elegir el próximo lab que desees completar.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 6 de junio de 2024

Prueba más reciente del lab: 6 de junio de 2024

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible