Puntos de control
Use partitions to reduce the amount of data examined
/ 100
Administra una tabla particionada en BigQuery
Asegúrate de completar este lab práctico únicamente en una computadora de escritorio o laptop.
Se permiten solo 5 intentos por lab.
A modo de recordatorio, es habitual no responder de forma correcta a todas las preguntas en el primer intento o incluso tener que volver a realizar una tarea; esto forma parte del proceso de aprendizaje.
Una vez comenzado el lab, no se puede detener el cronómetro. Después de 1 hora y 30 minutos, el lab terminará y tendrás que volver a empezar.
Para obtener más información, consulta la lectura Sugerencias técnicas para el lab.
Descripción general de la actividad
Las tablas particionadas son una herramienta potente que pueden usar los analistas de datos en la nube para mejorar el rendimiento de las consultas y reducir los costos.
Las tablas particionadas se dividen en segmentos, denominados particiones, que hacen más fácil administrar y consultar los datos. Dividir una tabla grande en particiones más pequeñas puede mejorar el rendimiento de las consultas y brindarte ayuda para controlar tus costos, ya que se reduce la cantidad de bytes que lee una consulta.
En este lab, especificarás una columna de partición, que se usa para segmentar la tabla, para particionar las tablas, administrarás las tablas con parámetros de configuración predeterminados y personalizados, agregarás y exportarás los datos y consultarás tablas.
Situación
Marta, la jefa de Distribución de Productos del comercio electrónico TheLook, quiere comprender mejor el comportamiento de los clientes de las tiendas físicas de la empresa. Marta es responsable de supervisar la selección de productos de la empresa, pero le preocupa no comprender por completo cómo los clientes están usando las tiendas y los productos que quieren comprar.
Por ello, Marta le pide ayuda a Juan, un científico de datos que trabaja con el equipo de Distribución de Productos. Juan se encarga de estudiar la cantidad de personas que se bajan de un taxi cerca de las tiendas físicas porque considera que estos datos pueden proporcionar estadísticas valiosas sobre los patrones de compra de los clientes. Esta información puede ayudar al equipo de Distribución de Productos a tomar decisiones más fundamentadas sobre el stock de cada tienda.
Para visualizar los datos del equipo de Distribución de Productos, Juan creó un panel que muestra las distintas tiendas y la cantidad de personas que llegan cerca, pero parece que no funciona según lo esperado. Cuando revisó el correo electrónico, encontró numerosos reclamos de los usuarios porque el panel es demasiado lento. Juan también se da cuenta de que los costos operativos del panel son demasiado altos.
Como analista de datos en la nube del comercio electrónico TheLook, te pidieron que ayudes a hacer que el panel sea más eficiente y rentable para que el equipo de Distribución de Productos cuente con los datos que necesita.
Por ello, le pides ayuda a Arturo, el arquitecto de datos, quien señala que el problema podría relacionarse con cómo se particionan los datos. Cuantos más datos deba analizar cada consulta, más recursos consume. Arturo te sugiere que pruebes si las particiones se pueden usar para analizar menos datos en las consultas. De esta manera, se reducirá tanto el tiempo como los costos.
Sospechas que el problema podría relacionarse con cómo se particionan los datos, así que decides probar si las particiones se pueden usar para analizar menos datos en las consultas.
Sigue estos pasos para completar esta tarea: primero, haz un análisis de las tablas particionadas. Luego, verifica la cantidad de datos analizados. A continuación, ejecuta varias consultas y borra la caché después de cada una. Por último, usa particiones como filtros.
Configuración
Antes de hacer clic en Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
En este lab práctico, puedes realizar las actividades por tu cuenta en un entorno de nube real, en lugar de una simulación o un entorno de demostración. Para ello, se te proporcionan credenciales temporales nuevas que usarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Cómo iniciar tu lab y acceder a la consola de Google Cloud
-
Haz clic en el botón Comenzar lab. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:
- Tiempo restante
- El botón Abrir la consola de Google
- Las credenciales temporales que debes usar para el lab
- Otra información para completar el lab, si es necesaria
Nota: Si debes pagar por el lab, se abrirá una ventana emergente para que selecciones tu forma de pago. -
Haz clic en Abrir la consola de Google (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito) si ejecutas el navegador Chrome. La página Acceder se abre en una pestaña del navegador nueva.
Sugerencia: Puedes organizar las pestañas de manera independiente (una ventana al lado de la otra) para alternar fácilmente entre ellas.
Nota: Si aparece el diálogo Elige una cuenta, haz clic en Usar otra cuenta. -
Si es necesario, copia el nombre de usuario de Google Cloud a continuación, y pégalo en el diálogo Ingresar. Haz clic en Siguiente.
También puedes encontrar el nombre de usuario de Google Cloud en el panel Detalles del lab.
- Copia la contraseña de Google Cloud a continuación y pégala en el diálogo te damos la bienvenida. Haz clic en Siguiente.
También puedes encontrar la contraseña de Google Cloud en el panel Detalles del lab.
- Haz clic para avanzar por las páginas siguientes:
- Acepta los Términos y Condiciones.
- No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No te registres para las pruebas gratuitas.
Después de un momento, se abrirá la consola de Cloud en esta pestaña.
Tarea 1: Analiza una tabla particionada
En esta tarea, analizarás una tabla particionada para identificar problemas de rendimiento y costos que podrían estar provocando que el panel de Juan sea lento y costoso.
- En el menú de navegación () de la consola de Cloud, selecciona BigQuery > BigQuery Studio.
- Para expandir la lista de conjuntos de datos, haz clic en la flecha desplegable junto al ID del proyecto.
- Expande el conjunto de datos thelook_gcda.
- Selecciona la tabla taxi_trips.
Observa el ícono que indica que la tabla taxi_trips está particionada.
Tarea 2: Usa particiones para reducir la cantidad de datos examinados
En esta tarea, descubrirás cómo la partición limita la cantidad de datos que se deben examinar cada vez que se ejecuta una consulta. Las particiones aumentan el rendimiento de las consultas y ayudan a reducir los costos.
- En BigQuery Studio, haz clic en + Redactar consulta nueva. Se abrirá una nueva pestaña Sin título.
- Copia y pega la siguiente consulta en la pestaña Sin título:
-
Haz clic en Ejecutar.
-
En la barra de acciones del editor de consultas en SQL, haz clic en Más > Configuración de consulta. Se abrirá el cuadro de diálogo Configuración de consulta.
Ahora, inhabilita la preferencia de caché de la consulta. En la sección Administración de las sesiones, asegúrate de que la casilla de verificación de Usar el modo de sesión esté desmarcada.
-
Haz clic en Guardar.
-
Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:
Observa la cantidad de MB que procesará esta consulta cuando se ejecute. Si la ventana del navegador es pequeña, coloca el cursor sobre la marca de verificación verde para ver la cantidad de MB que procesará esta consulta cuando se ejecute.
- Haz clic en Ejecutar.
- Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:
Observa la cantidad de MB que procesará esta consulta cuando se ejecute. Si la ventana del navegador es pequeña, coloca el cursor sobre la marca de verificación verde para ver la cantidad de MB que procesará esta consulta cuando se ejecute.
- Haz clic en Ejecutar.
- Reemplaza la consulta anterior en la pestaña Sin título por la siguiente consulta en SQL:
- Haz clic en Ejecutar.
WHERE
se remonta a la década de 1900, por lo que todas las filas de la tabla cumplirán ese criterio, ya que la fecha pickup_datetime
más antigua de esta tabla es diciembre de 2008, como se muestra en la columna pickup_datetime.
Haz clic en Revisar mi progreso para verificar que completaste esta tarea correctamente.
Conclusión
¡Muy bien! Completaste con éxito un análisis de tablas particionadas en BigQuery y ayudaste a Juan a hacer que su panel sea más eficiente y rentable.
Con la evaluación de la cantidad de datos analizados y la ejecución de consultas, exploraste distintas maneras de abordar el rendimiento lento informado sobre el panel.
Además, con el uso de particiones como filtros, pusiste a prueba la eficacia de la reducción de los datos analizados en las consultas; esto posiblemente aportó información para optimizar la eficiencia de las consultas y reducir los costos del panel.
Estás en buen camino para comprender cómo usar las fuentes de datos en BigQuery.
Finaliza el lab
Antes de que finalices el lab, asegúrate de estar conforme con la forma en que completaste todas las tareas. Cuando estés conforme, haz clic en Finalizar Lab y luego haz clic en Enviar.
Finalizar el lab te quitará el acceso al entorno del lab y no podrás volver a acceder al trabajo que completaste.
Copyright 2024 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.