Puntos de control
Run Cloud Dataprep jobs to BigQuery
/ 100
Crea una canalización de transformación de datos con Cloud Dataprep
- GSP430
- Descripción general
- Configuración y requisitos
- Tarea 1: Abre Dataprep en la consola de Google Cloud
- Tarea 2. Crea un conjunto de datos de BigQuery
- Tarea 3. Conecta datos de BigQuery a Cloud Dataprep
- Tarea 4. Explora los campos de datos de ecommerce con la IU
- Tarea 5. Limpia los datos
- Tarea 6. Enriquece los datos
- Tarea 7. Ejecuta trabajos de Cloud Dataprep para BigQuery
- ¡Felicitaciones!
Este lab se desarrolló junto con nuestro socio Alteryx. Es posible que tu información personal se comparta con Alteryx, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.
GSP430
Descripción general
Dataprep de Trifacta es un servicio de datos inteligente que permite explorar, limpiar y preparar visualmente los datos estructurados y no estructurados para su análisis. En este lab, explorarás la interfaz de usuario (IU) de Dataprep para crear una canalización de transformación de datos que exporte los resultados a BigQuery.
El conjunto de datos que se usa en este lab es un conjunto de datos de comercio electrónico que tiene millones de registros de sesiones de Google Analytics sobre Google Merchandise Store cargados en BigQuery. En el lab, explorarás los campos y las filas disponibles y prepararás los datos para el análisis.
Actividades
En este lab, aprenderás a realizar las siguientes tareas:
- Conectar conjuntos de datos de BigQuery con Dataprep
- Explorar la calidad de los conjuntos de datos con Dataprep
- Crear una canalización de transformación de datos con Dataprep
- Ejecutar trabajos de transformación y enviar los resultados a BigQuery
Configuración y requisitos
Se recomienda que realices el lab Cómo trabajar con Google Cloud Dataprep antes de comenzar este.
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- El botón Abrir la consola de Google Cloud
- El tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
-
Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).
El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.
Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta. -
De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.
{{{user_0.username | "Username"}}} También puedes encontrar el nombre de usuario en el panel Detalles del lab.
-
Haz clic en Siguiente.
-
Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.
{{{user_0.password | "Password"}}} También puedes encontrar la contraseña en el panel Detalles del lab.
-
Haz clic en Siguiente.
Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia Cuenta de Google podría generar cargos adicionales. -
Haga clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para obtener pruebas gratuitas.
Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.
Tarea 1: Abre Dataprep en la consola de Google Cloud
- Abre Cloud Shell y ejecuta el siguiente comando:
Deberías ver un mensaje que indique que se creó la identidad del servicio.
-
Ve al menú de navegación de la consola de Cloud y, en Análisis, selecciona Dataprep.
-
Para acceder a Dataprep, confirma que aceptas las Condiciones del Servicio de Google Dataprep y, luego, haz clic en Aceptar.
-
Haz clic en la casilla de verificación y, luego, en Aceptar y continuar cuando se te solicite compartir información de la cuenta con Alteryx.
-
Haz clic en Permitir para que Alteryx pueda acceder a tu proyecto.
-
Selecciona tus credenciales de Qwiklabs para acceder y haz clic en Permitir.
-
Marca la casilla de verificación y haz clic en Aceptar para aceptar las Condiciones del Servicio de Alteryx.
-
Asimismo, si se te solicita que utilices la ubicación predeterminada para el bucket de almacenamiento, haz clic en Continuar.
Tarea 2. Crea un conjunto de datos de BigQuery
Aunque este lab se enfoca en gran medida en Cloud Dataprep, necesitarás BigQuery como extremo para la transferencia de un conjunto de datos a la canalización y como destino para el resultado cuando la canalización se complete.
-
En la consola de Cloud, selecciona el menú de navegación > BigQuery:
-
Se abrirá el cuadro de mensaje Te damos la bienvenida a BigQuery en la consola de Cloud, que contiene un vínculo a la guía de inicio rápido y las actualizaciones de la IU.
-
Haz clic en Listo.
-
En el panel Explorador, selecciona el nombre de tu proyecto:
- En el panel de la izquierda, en la sección Explorador, haz clic en el ícono Ver acciones () a la derecha del ID del proyecto y, luego, haz clic en Crear conjunto de datos.
- En ID del conjunto de datos, escribe
ecommerce
. - Deja los demás valores en la configuración predeterminada.
-
Haz clic en CREAR CONJUNTO DE DATOS. Verás el conjunto de datos debajo de tu proyecto en el panel de la izquierda.
-
Copia la siguiente consulta en SQL y pégala en el editor de consultas:
-
Haz clic en RUN. Esta consulta copia un subconjunto del conjunto público de datos sin procesar de comercio electrónico (equivalente a la cantidad de datos de una sesión de un día, o aproximadamente 56,000 registros) en una tabla nueva llamada
all_sessions_raw_dataprep
, que se agregó a tu conjunto de datos de comercio electrónico para que explores y borres datos en Cloud Dataprep. -
Confirma que la tabla nueva existe en tu conjunto de datos
ecommerce
:
Tarea 3. Conecta datos de BigQuery a Cloud Dataprep
En esta tarea, conectarás Cloud Dataprep a tu fuente de datos de BigQuery. En la página de Cloud Dataprep, haz lo siguiente:
-
Haz clic en Create a flow en la esquina derecha.
-
Cambia el nombre del Untitled Flow y especifica estos detalles:
- En Flow Name, escribe
Ecommerce Analytics Pipeline
. - En Flow Description, escribe
Revenue reporting table
.
-
Haz clic en OK.
-
Si aparece una ventana emergente con el mensaje
What's a flow?
, selecciona Don't show me any helpers. -
Haz clic en el ícono de Add en la casilla Dataset.
-
En el cuadro de diálogo Add Datasets to Flow, selecciona Import Datasets.
-
En el panel izquierdo, haz clic en BigQuery.
-
Cuando se cargue tu conjunto de datos ecommerce, haz clic en él.
-
Haz clic en el ícono de Create dataset (signo +) a la izquierda de la tabla
all_sessions_raw_dataprep
. -
Haz clic en Import & Add to Flow en la esquina inferior derecha.
La fuente de datos se actualiza automáticamente. Ahora puedes pasar a la siguiente tarea.
Tarea 4. Explora los campos de datos de ecommerce con la IU
En esta tarea, cargarás y explorarás una muestra del conjunto de datos en Cloud Dataprep.
- Haz clic en el ícono de Recipe y, luego, selecciona Edit Recipe.
Cloud Dataprep carga una muestra de tu conjunto de datos en la vista Transformer. Este proceso puede tardar unos segundos. Ahora está todo listo para comenzar a explorar los datos.
Responde las siguientes preguntas:
- ¿Cuántas columnas hay en el conjunto de datos?
Respuesta: 32 columnas
- ¿Cuántas filas contiene la muestra?
Respuesta: Aproximadamente 12,000 filas
- ¿Cuál es el valor más común en la columna
channelGrouping
?
channelGrouping
.
Respuesta: Referencia. Un sitio de referencia normalmente es cualquier otro sitio web con un vínculo a tu contenido. Un buen ejemplo es un sitio web diferente que incluyó una opinión sobre un producto en nuestro sitio web de comercio electrónico y lo vinculó a él. Esto se considera un canal de adquisición diferente al que tiene lugar si el visitante provino de un motor de búsqueda.
- ¿Cuáles son los tres países principales desde donde se originan las sesiones?
Respuesta: Estados Unidos, India y Reino Unido
- ¿Qué representa la barra gris que se encuentra debajo de totalTransactionRevenue?
Respuesta: Valores faltantes para el campo totalTransactionRevenue
. Esto significa que muchas sesiones en esta muestra no generaron ingresos. Más adelante, filtraremos los valores de manera que la tabla final solo tenga transacciones de clientes y sus ingresos relacionados.
- ¿Cuál es el valor máximo de
timeOnSite
en segundos, el valor máximo depageviews
y el valor máximo desessionQualityDim
para la muestra de datos? (Pista: Para abrir el menú de la derecha de la columnatimeOnSite
, haz clic en el menú Column Details ).
Para cerrar la ventana de detalles, haz clic en el botón Close Column Details (X) en la esquina superior derecha. Luego, repite el proceso para ver los detalles de las columnas pageviews
y sessionQualityDim
.
Respuestas:
- Tiempo máximo en el sitio: 5,561 segundos (o 92 minutos)
- Máxima cantidad de vistas de página: 155 páginas
- Máxima dimensión de calidad de sesión: 97
timeOnSite
solo se cuenten una vez por sesión. Exploraremos la unicidad del visitante y de los datos de sesión en un lab posterior.
- Si observas el histograma de
sessionQualityDim
, ¿los valores de datos están distribuidos de manera uniforme?
Respuesta: No, están sesgados a valores menores (baja calidad de las sesiones), lo cual es esperado.
- ¿Cuál es el período para el conjunto de datos? Pista: Mira el campo date.
Respuesta: 8/1/2017 (un día de datos)
- Puede que veas una barra roja debajo de la columna
productSKU
. De ser así, ¿qué podría significar?
Respuesta: Una barra roja indica valores no coincidentes. Mientras realizas el muestreo de datos, Cloud Dataprep intenta identificar automáticamente el tipo de cada columna. Si no ves una barra roja para la columna productSKU
, significa que Cloud Dataprep identificó correctamente el tipo para esa columna (es decir, el tipo cadena). Si efectivamente ves una barra roja, significa que, mientras realizaba el muestreo, Cloud Dataprep encontró una cantidad suficiente de valores para determinar (de manera incorrecta) que el tipo debería ser un número entero. Cloud Dataprep también detectó algunos valores que no son números enteros y, por lo tanto, los marcó como no coincidentes. De hecho, productSKU
no siempre es un número entero (por ejemplo, el valor correcto podría ser “GGOEGOCD078399”). Entonces, en este caso, Cloud Dataprep identificó el tipo de columna incorrectamente: debería ser una cadena y no un número entero. Corregirás esto más adelante en el lab.
- Si observas la columna
v2ProductName
, ¿cuáles son los productos más populares?
Respuesta: Productos de Nest
- Si observas la columna
v2ProductCategory
, ¿cuáles son algunas de las categorías de producto más populares?
Respuestas:
Las categorías de producto más populares son las siguientes:
-
Nest
-
Equipaje
-
(not set) (lo que significa que algunas sesiones no están asociadas con una categoría)
-
¿Verdadero o falso? La categoría
productVariant
más común esCOLOR
.
Respuesta: Falso. Es (not set) porque la mayoría de los productos no tiene variantes (más del 80%).
- ¿Cuáles son los dos valores en la columna tipo?
Respuesta: EVENT
y PAGE
Un usuario puede tener diferentes tipos de interacciones cuando navega en tu sitio web. Los tipos incluyen registrar datos de sesión cuando se visualiza una PÁGINA o un EVENTO especial (como "hacer clic en un producto") y otros tipos. Se pueden activar múltiples tipos de hits exactamente al mismo tiempo, de modo que, con frecuencia, deberás filtrar por tipo para evitar que se cuente dos veces. Exploraremos en mayor profundidad esto en un lab de estadísticas posterior.
- ¿Cuál es el valor máximo de
productQuantity
?
Respuesta: 100 (tu respuesta puede variar)
productQuantity
indica cuántas unidades de ese producto se agregaron al carrito. El número 100 significa que se agregaron 100 unidades de un único producto.
- ¿Cuál es el valor de
currencyCode
dominante en las transacciones?
Respuesta: USD (dólar estadounidense)
- ¿Hay valores válidos para
itemQuantity
oitemRevenue
?
Respuesta: No, son valores NULL
(o faltantes).
- ¿Qué porcentajes de los valores de
transactionId
son válidos? ¿Qué representa esto para nuestro conjunto de datosecommerce
?
- Respuesta: Alrededor del 4.6% de los IDs de transacción tienen un valor válido, que representa el promedio del porcentaje de conversiones del sitio web (4.6% de las transacciones de los visitantes).
- ¿Cuántos valores de
eCommerceAction_type
hay y cuál es el valor más común?
Respuesta: Se encontraron siete valores en nuestra muestra. El valor más común es cero 0
, lo que indica que el tipo es desconocido. Esto tiene sentido, ya que la mayoría de las sesiones web de nuestro sitio web no llevarán a cabo ninguna acción de comercio electrónico, dado que solo están navegando.
- Si utilizas el esquema, ¿qué representa
eCommerceAction_type = 6
?
eCommerceAction
y lee la descripción para la asignación.
Respuesta: 6 se asigna a “Completed purchase”. Más adelante en este lab, transferiremos la asignación como parte de nuestra canalización de datos.
Tarea 5. Limpia los datos
En esta tarea, borrarás las columnas sin uso, eliminarás duplicados, crearás campos calculados y filtrarás las filas no deseadas para limpiar los datos.
Convierte el tipo de datos de la columna productSKU
- Para asegurarte de que el tipo de columna productSKU es un tipo de datos de cadena, haz clic en para abrir el menú a la derecha de productSKU. Luego, haz clic en Change type > String.
- Haz clic en el ícono de Receta para verificar que se creó el primer paso en tu canalización de transformación de datos:
Borra las columnas sin utilizar
Como mencionamos antes, borraremos las columnas itemQuantity y itemRevenue, ya que solo contienen valores NULL que no son útiles para el propósito de este lab.
- Abre el menú de la columna itemQuantity y, luego, haz clic en Delete.
- Repite el proceso para borrar la columna itemRevenue.
Anula la duplicación de filas
Tu equipo informó que puede haber valores de sesión duplicados en el conjunto de datos de origen. Quitémoslos con un nuevo paso de anulación de duplicación.
- Haz clic en el ícono de Filter rows en la barra de herramientas y, luego, haz clic en Remove duplicate rows.
-
En el panel derecho, haz clic en Add.
-
Revisa la receta que creaste hasta ahora. Debería parecerse a lo siguiente:
Filtra sesiones sin ingresos
Tu equipo te pidió crear una tabla con todas las sesiones de usuario que compraron al menos un artículo del sitio web. Filtra las sesiones de usuario con ingresos que contengan el valor NULL.
- Debajo de la columna totalTransactionRevenue, haz clic en la barra gris de valores faltantes. Todas las filas con valores faltantes para totalTransactionRevenue ahora están destacadas en rojo.
- En el panel Suggestions, en Delete rows, haz clic en Add.
Este paso filtra tu conjunto de datos para que solo incluya transacciones con ingresos (donde totalTransactionRevenue no es NULL).
Filtra sesiones para vistas de página
El conjunto de datos contiene sesiones de diferentes tipos, por ejemplo PAGE (para vistas de página) o EVENTS (para eventos activados como “categorías de producto vistas” o “agregados al carrito”). Para evitar que se cuenten dos veces las sesiones de vistas de página, agrega un filtro para incluir solo hits relacionados con vistas de página.
-
En el histograma que se encuentra debajo de la columna type, haz clic en la barra para PAGE. Todas las filas con el tipo PAGE ahora están destacadas en verde.
-
En el panel Suggestions, en Keep rows, haz clic en Add.
Tarea 6. Enriquece los datos
Busca tu documentación de esquemas para visitId y lee la descripción para determinar si es único en todas las sesiones de usuario o solo es el usuario.
-
visitId
: Es un identificador para esta sesión. Es parte del valor que habitualmente se almacena como la cookieutmb
. Esto es solo único para el usuario. Para un ID completamente único, debes utilizar una combinación de fullVisitorId y visitId.
Como podemos ver, visitId
no es único para todos los usuarios. Necesitaremos crear un identificador único.
Crea una columna nueva para un ID de sesión único
Como descubriste, el conjunto de datos no tiene ninguna columna única para una sesión de visitante único. Crea un ID único para cada sesión. Para ello, concatena los campos fullVisitorId y visitId.
- Haz clic en el ícono de Merge columns en la barra de herramientas.
-
En Columns, selecciona
fullVisitorId
yvisitId
. -
En Separator, escribe un solo carácter:
-
. -
En New column name, escribe
unique_session_id
.
- Haz clic en Add.
unique_session_id
ahora es una combinación de fullVisitorId
y visitId
. En un lab posterior, exploraremos si cada fila en este conjunto de datos está al nivel de sesión único (una fila por sesión de usuario) o si es algo todavía más detallado.
Crea una sentencia de caso para el tipo de acción de comercio electrónico
Como viste anteriormente, los valores de la columna eCommerceAction_type
son números enteros asignados a acciones reales de comercio electrónico llevadas a cabo en esa sesión. Por ejemplo, 3 = “Add to Cart” o 5 = “Check out”. Esta asignación no será visible inmediatamente para nuestros usuarios finales, así que creemos un campo calculado que incorpore el nombre del valor.
- Haz clic en Conditions en la barra de herramientas y, luego, en Case on single column.
-
En Column to evaluate, especifica
eCommerceAction_type
. -
Junto a Cases (1), haz clic en Add 8 veces para un total de 9 casos.
- Para cada Caso, especifica los siguientes valores de asignación (incluidos los caracteres de comillas simples):
Comparación |
Valor nuevo |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
En New column name, escribe
eCommerceAction_label
. Deja los otros campos con los valores predeterminados. -
Haz clic en Add.
Ajusta valores en la columna totalTransactionRevenue
Como se menciona en el esquema, la columna totalTransactionRevenue contiene valores que se pasaron a Analytics multiplicados por 10^6 (p. ej., 2.40 daría como resultado 2,400,000). Ahora, dividirás el contenido de esa columna por 10^6 para obtener los valores originales.
- Abre el menú a la derecha de la columna totalTransactionRevenue. Para ello, haz clic en y, luego, selecciona Calculate > Custom formula.
- En Formula, escribe:
DIVIDE(totalTransactionRevenue,1000000)
y en New column name, escribe:totalTransactionRevenue1
. Observa la vista previa de la transformación.
- Haz clic en Agregar.
totalTransactionRevenue1
. Para abrir el menú al costado derecho de la columna totalTransactionRevenue1
, haz clic en y, luego, en Change type > Decimal.- Consulta la lista completa de pasos en tu receta:
- Ahora puedes hacer clic en Run.
Tarea 7. Ejecuta trabajos de Cloud Dataprep para BigQuery
-
En la página Run Job, en Running Environment, selecciona Dataflow + BigQuery.
-
En Publishing Actions, haz clic en Edit a la derecha de Create-CSV.
-
En la siguiente página, selecciona BigQuery en el menú de la izquierda.
-
Selecciona tu conjunto de datos ecommerce.
-
En el panel de la derecha, haz clic en Create a New Table.
-
Asígnale el nombre revenue_reporting a la tabla.
-
Selecciona Drop the Table every run.
-
Haz clic en Update.
-
Haz clic en RUN.
Una vez que se complete tu trabajo de Cloud Dataprep, actualiza tu página de BigQuery y confirma que la tabla de resultados revenue_reporting exista.
Haz clic en Revisar mi progreso para verificar el objetivo.
¡Felicitaciones!
Exploraste correctamente tu conjunto de datos de comercio electrónico y creaste una canalización de transformación de datos con Cloud Dataprep.
Próximos pasos y más información
- Revisa Alteryx en Google Cloud Marketplace.
- ¿Tienes una cuenta de Google Analytics y deseas consultar tus propios conjuntos de datos en BigQuery? Sigue esta guía de exportación.
- Consulta los siguientes labs:
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 11 de febrero de 2024
Prueba más reciente del lab: 20 de septiembre de 2023
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.