Cloud Dataprep de Trifacta es un servicio de datos inteligente que permite explorar, limpiar y preparar visualmente los datos estructurados y no estructurados para su análisis. En este lab, exploraremos la IU de Cloud Dataprep para crear una canalización de transformación de comercio electrónico que se ejecute en un intervalo programado y exporte los resultados a BigQuery.
Utilizaremos un conjunto de datos de comercio electrónico cargado en BigQuery con millones de registros de Google Analytics sobre Google Merchandise Store. Creamos una copia de este conjunto de datos para el lab y exploraremos los campos y las filas disponibles para obtener observaciones.
Objetivos
En este lab, aprenderás a realizar estas tareas:
Conectar conjuntos de datos de BigQuery a Cloud Dataprep
Explorar la calidad del conjunto de datos con Cloud Dataprep
Crear una canalización de transformación de datos con Cloud Dataprep
Programar resultados de los trabajos de transformación en BigQuery
Qué necesitarás
Un proyecto de Google Cloud
El navegador Google Chrome. Cloud Dataprep solo admite el navegador Chrome.
Configuración y requisitos
En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.
Accede a Qwiklabs desde una ventana de incógnito.
Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.
Cuando esté listo, haga clic en Comenzar lab.
Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.
Haga clic en Abrir Google Console.
Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
Si usa otras credenciales, se generarán errores o incurrirá en cargos.
Acepta las condiciones y omite la página de recursos de recuperación.
Verifica los permisos del proyecto
Antes de comenzar a trabajar en Google Cloud, asegúrate de que tu proyecto tenga los permisos correctos en Identity and Access Management (IAM).
En la consola de Google Cloud, en el Menú de navegación (), selecciona IAM y administración > IAM.
Confirma que aparezca la cuenta de servicio predeterminada de Compute {número-del-proyecto}-compute@developer.gserviceaccount.com, y que tenga asignado el rol Editor. El prefijo de la cuenta es el número del proyecto, que puedes encontrar en el Menú de navegación > Descripción general de Cloud > Panel.
Nota: Si la cuenta no aparece en IAM o no tiene asignado el rol Editor, sigue los pasos que se indican a continuación para asignar el rol necesario.
En la consola de Google Cloud, en el Menú de navegación, haz clic en Descripción general de Cloud > Panel.
Copia el número del proyecto (p. ej., 729328892908).
En el Menú de navegación, selecciona IAM y administración > IAM.
En la parte superior de la tabla de funciones, debajo de Ver por principales, haz clic en Otorgar acceso.
Reemplaza {número-del-proyecto} por el número de tu proyecto.
En Rol, selecciona Proyecto (o Básico) > Editor.
Haz clic en Guardar.
Abra BigQuery en Console
En Google Cloud Console, seleccione el menú de navegación > BigQuery.
Se abrirá el cuadro de mensaje Te damos la bienvenida a BigQuery en Cloud Console, que contiene un vínculo a la guía de inicio rápido y enumera las actualizaciones de la IU.
Haga clic en Listo.
Aunque este lab se enfoca en gran medida en Cloud Dataprep, necesitarás BigQuery como extremo para la transferencia de un conjunto de datos a la canalización y como destino para el resultado cuando la canalización se complete.
Tarea 1: Crea un conjunto de datos vacío de BigQuery
En esta tarea, crearás un conjunto de datos nuevo de BigQuery para recibir la tabla de resultados de la nueva canalización.
En el panel izquierdo haz clic en Ver acciones () junto al ID del proyecto y, luego, selecciona Crear conjunto de datos.
En el diálogo Crear conjunto de datos, realiza lo siguiente:
En ID de conjunto de datos, escribe ecommerce.
Deja los demás valores en su configuración predeterminada.
Haz clic en Crear conjunto de datos.
Copia y pega esta consulta en SQL en el campo de texto del Editor de consultas:
#standardSQL
CREATE OR REPLACE TABLE ecommerce.all_sessions_raw_dataprep
OPTIONS(
description="Raw data from analyst team to ingest into Cloud Dataprep"
) AS
SELECT * FROM `data-to-insights.ecommerce.all_sessions_raw`
WHERE date = '20170801'; # limiting to one day of data 56k rows for this lab
Haz clic en Ejecutar.
Esta consulta copia un subconjunto del conjunto de datos público sin procesar de comercio electrónico en tu propio conjunto de datos para que explores y borres datos en Cloud Dataprep.
Confirma que la tabla nueva de datos sin procesar exista en tu proyecto.
Tarea 2: Abre Cloud Dataprep
En esta tarea, debes aceptar las Condiciones del Servicio de Google y Trifacta. Luego, permitirás que esta última empresa acceda a los datos de tu proyecto.
Ejecuta el siguiente comando en Cloud Shell para crear una cuenta de servicio obligatoria que te permitirá acceder correctamente a Dataprep.
En el menú de navegación (), haz clic en Dataprep debajo de la agrupación de Analytics.
Selecciona las Condiciones del Servicio de Google y Trifacta y, luego, haz clic en Aceptar.
En el diálogo para compartir información de la cuenta con Trifacta, selecciona la casilla de verificación y, luego, haz clic en Aceptar y continuar.
Para permitir que Trifacta tenga acceso a la información de tu proyecto, haz clic en Permitir. El proceso de autorización puede tardar unos minutos.
En la ventana Acceder con Google que aparece, selecciona tu cuenta de Qwiklabs y, luego, haz clic en Permitir. Haz clic en Aceptar si se te solicita después de marcar la casilla de verificación.
Para utilizar la ubicación predeterminada del bucket de almacenamiento, haz clic en Continuar.
Se abrirá la página principal de Cloud Dataprep. Si es necesario, haz clic en Página principal.
Tarea 3. Conecta los datos de BigQuery a Cloud Dataprep
En esta tarea, conectarás Cloud Dataprep a tu fuente de datos de BigQuery.
En la página de Cloud Dataprep, haz lo siguiente:
Haz clic en Create a new flow.
Selecciona Untitled Flow en la parte superior de la página.
En el diálogo Rename, especifica los siguientes detalles:
En Flow Name, escribe Canalización de analítica de comercio electrónico (Ecommerce Analytics Pipeline).
En Flow Description, escribe Tabla de informe de ingresos de Indumentaria (Revenue reporting table for Apparel)
Haz clic en OK.
Haz clic en el ícono (+) para agregar un conjunto de datos.
En el diálogo Add datasets to flow, haz clic en el botón Import datasets de la esquina inferior izquierda.
En el panel izquierdo, haz clic en BigQuery.
Cuando se cargue tu conjunto de datos ecommerce, haz clic en él.
Para crear un conjunto de datos, haz clic en Create dataset ().
Haz clic en Import & Add to Flow.
La fuente de datos se actualiza automáticamente.
Tarea 4: Explora los campos de datos de comercio electrónico con una IU
En esta tarea, cargarás y explorarás una muestra del conjunto de datos en Cloud Dataprep.
Haz clic en Edit Recipe, en el panel derecho.
Si es necesario, haz clic en Don't show me any helpers en el diálogo The Transformer.
Cloud Dataprep carga una muestra de tu conjunto de datos en la vista Transformer. Este proceso puede tardar unos minutos.
Responde estas preguntas:
Cloud Dataprep cargará una muestra del conjunto de datos de origen para agilizar la exploración.
Nota: Cuando se ejecute tu canalización, operará en todo el conjunto de datos de origen. ¿Cuántas filas contiene la muestra?
Respuesta: Aproximadamente 12,000 filas
¿Cuál es el valor más común en la columna channelGrouping?
Respuesta: Referral
¿Cuáles son los tres países principales desde donde se originan las sesiones?
Respuesta: EE.UU., India y Reino Unido
¿Qué representa la barra gris que se encuentra debajo de totalTransactionRevenue?
Respuesta: Valores faltantes
¿Cuáles son los valores promedio de timeOnSite (en segundos), pageviews y sessionQualityDim en los datos de muestra? (Sugerencia: Usa Column Details).
Respuestas:tiempo promedio en el sitio web: 942 segundos (o 15.7 minutos)
Promedio de vistas de página: 20.44 páginas
Dimensión de calidad de sesión promedio: 38.36
Nota: Tus respuestas pueden variar un poco según los datos de muestra que use Cloud Dataprep.
Si observas el histograma de sessionQualityDim, ¿los valores de datos están distribuidos de manera uniforme?
Respuesta: No, están sesgados a valores menores (baja calidad de las sesiones), lo cual es esperado.
¿Cuál es el período para el conjunto de datos de muestra?
Respuesta: 8/1/2017 (un día de datos)
¿Por qué hay una barra roja debajo de la columna productSKU?
Respuesta: La barra roja indica valores no coincidentes. Cloud Dataprep identificó automáticamente el tipo de la columna productSKU como un número entero. Cloud Dataprep también detectó algunos valores que no son números enteros y, por lo tanto, los marcó como no coincidentes. De hecho, el productSKU no siempre es un número entero (por ejemplo, el valor correcto podría ser “GGOEGOCD078399”). Así que, en este caso, Cloud Dataprep no identificó bien el tipo de columna, ya que debería ser una cadena, no un número entero. Debes corregir esto en el próximo paso.
Nota: Si la columna productSKU ya tiene el tipo String, no verás la barra roja.
Para convertir el tipo de la columna productSKU al tipo de datos de cadena, haz clic en para abrir el menú que está a la derecha de la columna productSKU y, luego, selecciona Change type > String.
Si observas la columna v2ProductName, ¿cuáles son los productos más populares?
Respuesta: Productos de Nest
Si observas la columna v2ProductCategory, ¿cuáles son algunos de los productos más populares? ¿Cuántas categorías se muestrearon?
Respuesta: Nest (not set) y Apparel son las más populares entre alrededor de 25 categorías.
Verdadero o falso: La categoría productVariant más común es COLOR.
Respuesta: Falso. Es (not set) porque la mayoría de los productos no tiene variantes (más del 80%).
¿Cuáles son las dos categorías de tipo?
Respuesta: EVENT y PAGE
¿Cuál es el valor promedio de productQuantity?
Respuesta: 3.45 (tu respuesta puede variar)
¿Cuántos SKU distintos hay en el conjunto de datos?
Respuesta: Más de 600
¿Cuáles son algunos de los nombres de productos más populares según la cantidad de filas? ¿Las categorías más populares?
Respuesta:
Cam Outdoor Security Camera - USA
Cam Indoor Security Camera - USA
Learning Thermostat 3rd Gen-USA - Stainless Steel
¿Cuál es código de moneda dominante en las transacciones?
Respuesta: USD (dólares estadounidenses)
¿Hay valores válidos para itemQuantity o itemRevenue?
Respuesta: No, son valores NULL.
¿Qué porcentaje de ID de transacciones tienen un valor válido? ¿Qué representa esto para nuestro conjunto de datos de comercio electrónico?
Respuesta: Alrededor del 4.6% de los IDs de transacción tiene un valor válido, que representa el porcentaje de conversiones promedio del sitio web (4.6% de las transacciones de los visitantes).
¿Cuántos valores de eCommerceAction_type hay y cuál es el valor más popular de eCommerceAction_step?
Respuestas:
Hay seis tipos con datos en nuestra muestra.
0 o NULL es el valor más popular.
Tarea 5. Limpia los datos
En esta tarea, borrarás las columnas sin uso, eliminarás duplicados, crearás campos calculados y filtrarás las filas. Se suelen borrar columnas cuando los campos pierden su valor en el esquema o tienen valores NULL.
Borra columnas no usadas
Selecciona la columna que deseas borrar y, luego, haz clic en Delete. Haz esto con las columnas que tengan valores NULL:
itemRevenue
itemQuantity
Anula filas duplicadas
Tu equipo informó que puede haber valores de sesión duplicados incluidos en el conjunto de datos de origen. Quitémoslos con un nuevo paso de anulación de duplicación.
Haz clic en Recipe (), en la parte superior derecha y selecciona New Step.
En el cuadro de búsqueda Transformation, escribe deduplicate y selecciona Remove duplicate rows.
Haz clic en Add.
Revisa la receta que creaste:
Filtra sesiones sin ingresos
Tu equipo te pidió crear una tabla con todas las sesiones de usuario que compraron al menos un artículo del sitio web. Filtra las sesiones de usuario con ingresos que contengan el valor NULL.
Debajo de la columna totalTransactionRevenue, haz clic en la barra de valores faltantes.
En el panel Suggestions haz clic en Delete rows para borrar filas con valores faltantes y, luego, selecciona Add (como se muestra a continuación).
Este paso filtra tu conjunto de datos para que solo incluya transacciones con ingresos (donde totalTransactionRevenue es NULL).
Filtra las sesiones para mostrar solo las del tipo “PAGE”
El conjunto de datos contiene las vistas de las páginas de los sitios web y los eventos activados como “viewed product categories” o “added to cart”. Con el fin de evitar registrar dos veces las vistas de páginas de una sesión, agrega un filtro para que solo se incluyan eventos relacionados con las vistas de páginas.
En la columna type, haz clic en la barra PAGE.
En el panel Suggestions, haz clic en Keep rows para el tipo PAGE y, luego, haz clic en Add.
Filtra para ver productos de indumentaria
Tu equipo te pidió aplicar un filtro más específico para incluir solo transacciones de la categoría Apparel (correspondiente al vestuario, que contiene artículos como camisetas y otras prendas de vestir)
Haz clic en el ícono de menú desplegable junto a la columna v2ProductCategory.
Selecciona Filter rows > On column values.
Selecciona Contains.
En Pattern to match, escribe “Apparel” (distingue mayúsculas de minúsculas) y, luego, haz clic en Add.
Nota: Los productos del catálogo pueden pertenecer a más de una categoría (“Apparel” y “Home/Apparel/”). Por ello, debemos generar coincidencias con todas las filas que contengan la palabra Apparel en el nombre de su categoría.
Tarea 6: Enriquece los datos
Para obtener información sobre el esquema que se usó en este lab, consulta [UA] Esquema de BigQuery Export. Busca visitId en el artículo y lee la descripción para determinar si es único en todas las sesiones de usuario o solo para el usuario.
visitId: Es un identificador para esta sesión. Es parte del valor que habitualmente se almacena como la cookie _utmb. Es solo único para el usuario. Para un ID completamente único, deberías utilizar una combinación de fullVisitorId y visitId.
visitId no es único para todos los usuarios.
En esta tarea, agregarás una nueva columna concatenada para crear un campo de ID de sesión único. Después, enriquecerás los datos de la etiqueta de comercio electrónico con una sentencia de Case.
Crea una columna nueva para un ID de sesión único
Como descubriste, el conjunto de datos no tiene ninguna columna única para una sesión de visitante único. Crea un ID único para cada sesión. Para ello, concatena los campos fullVisitorID y visitId.
Haz clic en New Step.
En Search transformation, escribe concat y, luego, selecciona Merge columns.
En Columns, selecciona fullVisitorId y visitId.
En New column name, escribe unique_session_id, deja las demás entradas con sus valores predeterminados y haz clic en Add.
Crea una sentencia de Case para el tipo de acción de comercio electrónico
El campo eCommerceAction_type es un número entero que se asigna a las acciones de comercio electrónico realizadas en esa sesión, como 3 = “Add to Cart” o 5 = “Checkout. Crea una columna calculada que se asigne al valor de número entero.
Haz clic en New Step.
En el panel Transformation, escribe case y, luego, selecciona Conditional column.
Selecciona Case on single column del menú desplegable.
En Column to evaluate, especifica eCommerceAction_type.
Junto a Cases (X), haz clic en Add 8 veces para un total de 9 casos.
Para cada caso, especifica los siguientes valores de asignación (incluidas las comillas):
Valor para comparar
Valor nuevo
1
'Click through of product lists'
2
'Product detail views'
3
'Add product(s) to cart'
4
'Remove product(s) from cart'
5
'Check out'
6
'Completed purchase'
7
'Refund of purchase'
8
'Checkout options'
0
'Unknown'
Deja los otros campos con sus valores predeterminados.
En New column name, escribe eCommerceAction_label y, luego, haz clic en Add.
Revisa la receta y compárala con este ejemplo:
Tarea 7: Ejecuta el trabajo de Cloud Dataprep para cargar BigQuery
Cuando estés conforme con el resultado, será momento de ejecutar la receta de transformación en el conjunto de datos de origen. Para ello, debes ejecutar y supervisar un trabajo de Cloud Dataprep (que, a su vez, inicia y ejecuta un trabajo de Cloud Dataflow).
En la página de Transformer, en la parte superior derecha, haz clic en Run.
En la sección Publishing Actions, coloca el cursor sobre Create-CSV y, luego, haz clic en Edit.
Selecciona BigQuery en el panel izquierdo, ve al conjunto de datos de ecommerce y, luego, haz clic en Create a new table.
Ingresa el nombre apparel_revenue para la tabla de salida y selecciona Drop the table every run en el panel derecho.
Haz clic en Update.
Haz clic en Run.
Haz clic en Job history en el panel izquierdo para supervisar el trabajo de Cloud Dataprep.
Espera entre 1 y 2 minutos a que se ejecute el trabajo.
Cuando finalice el trabajo de Cloud Dataprep, actualiza la página de BigQuery y confirma que exista la tabla de salida apparel_revenue.
Selecciona apparel_revenue > Preview y asegúrate de contar con datos de ingresos transaccionales de productos de la categoría Apparel.
Felicitaciones.
Exploraste correctamente el conjunto de datos de comercio electrónico y creaste una canalización de transformación de datos recurrente con Cloud Dataprep.
¿Ya tienes una cuenta de Google Analytics y deseas consultar tus propios conjuntos de datos en BigQuery? Sigue esta guía para configurar BigQuery Export.
Finalice su lab
Cuando haya completado el lab, haga clic en Finalizar lab. Google Cloud Skills Boost quitará los recursos que usó y limpiará la cuenta.
Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.
La cantidad de estrellas indica lo siguiente:
1 estrella = Muy insatisfecho
2 estrellas = Insatisfecho
3 estrellas = Neutral
4 estrellas = Satisfecho
5 estrellas = Muy satisfecho
Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.
Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.
Copyright 2020 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.
Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
.
Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar
Usa la navegación privada
Copia el nombre de usuario y la contraseña proporcionados para el lab
Haz clic en Abrir la consola en modo privado
Accede a la consola
Accede con tus credenciales del lab. Si usas otras credenciales, se generarán errores o se incurrirá en cargos.
Acepta las condiciones y omite la página de recursos de recuperación
No hagas clic en Finalizar lab, a menos que lo hayas terminado o quieras reiniciarlo, ya que se borrará tu trabajo y se quitará el proyecto
Este contenido no está disponible en este momento
Te enviaremos una notificación por correo electrónico cuando esté disponible
¡Genial!
Nos comunicaremos contigo por correo electrónico si está disponible
Un lab a la vez
Confirma para finalizar todos los labs existentes y comenzar este
Usa la navegación privada para ejecutar el lab
Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así
evitarás cualquier conflicto entre tu cuenta personal y la cuenta
de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
En este lab, exploraremos la IU de Cloud Dataprep para crear una canalización de transformación de comercio electrónico que se ejecute en un intervalo programado y exporte los resultados a BigQuery.
Duración:
0 min de configuración
·
Acceso por 90 min
·
90 min para completar