Puntos de control
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Engineer Data for Predictive Modeling with BigQuery ML: Lab de desafío
GSP327
Descripción general
En un lab de desafío, se le proporcionarán una situación y un conjunto de tareas. En lugar de seguir instrucciones paso a paso, deberás utilizar las habilidades aprendidas en los labs del curso para decidir cómo completar las tareas por tu cuenta. Un sistema automatizado de puntuación (en esta página) mostrará comentarios y determinará si completaste tus tareas correctamente.
En un lab de desafío, no se explican conceptos nuevos de Google Cloud, sino que se espera que amplíes las habilidades que adquiriste, como cambiar los valores predeterminados y leer o investigar los mensajes de error para corregir sus propios errores.
Debe completar correctamente todas las tareas dentro del período establecido para obtener una puntuación del 100%.
Se recomienda este lab a los estudiantes inscritos en la insignia de habilidad Engineer Data for Predictive Modeling with BigQuery ML. ¿Aceptas el desafío?
Configuración
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
- Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Situación del desafío
Comenzaste una nueva función como ingeniero de datos en TaxiCab Inc. Se espera que importes algunos datos históricos a un conjunto de datos de trabajo de BigQuery y que crees un modelo básico que prediga tarifas según la información que esté disponible al inicio de un nuevo viaje. Los directivos desean crear una aplicación y estimar el costo de un viaje para los usuarios. Los datos de origen se proporcionarán en tu proyecto.
Se espera que tengas las habilidades y el conocimiento para realizar estas tareas, por lo que no se te proporcionarán guías paso a paso.
Tu desafío
En cuanto te sientas en tu escritorio y abres tu laptop nueva, recibes tu primera tarea: debes crear un modelo básico de predicción de tarifas en BQML para los directivos. Realiza las siguientes tareas para importar y limpiar los datos. Luego, crea el modelo y haz predicciones por lotes con datos nuevos para que los directivos puedan revisar el rendimiento del modelo y tomar la decisión de proceder o no proceder con la implementación de la funcionalidad de la aplicación.
Tarea 1: Limpia tus datos de entrenamiento
Ya completaste el primer paso. Creaste un conjunto de datos llamado taxirides
e importaste los datos históricos a la tabla historical_taxi_rides_raw
. Estos datos corresponden a viajes que se hicieron antes de 2015.
Para completar esta tarea, deberás hacer lo siguiente:
- Limpia los datos en
historical_taxi_rides_raw
y haz una copia deen el mismo conjunto de datos. Puedes usar BigQuery, Dataprep, Dataflow, etc., para crear la tabla y limpiar los datos. Asegúrate de que la columna de destino se llame .
Considera estas sugerencias útiles:
- Puedes ver el conjunto de datos de origen en la IU de BQ. Familiarízate primero con el esquema de origen.
- Respecto de los datos disponibles en el momento de la predicción, te sugerimos familiarizarte con la tabla
taxirides.report_prediction_data
, en la que se muestra el formato que tendrán en ese momento.
Tareas de limpieza de datos:
- Asegúrese de que el valor de
trip_distance
sea mayor que. - Quita las filas en las que el valor de
fare_amount
sea muy bajo (por ejemplo, inferior a$
. - Asegúrese de que las latitudes y longitudes sean razonables para el caso de uso.
- Asegúrate de que el valor de
passenger_count
sea mayor que. - Asegúrate de agregar los códigos
tolls_amount
yfare_amount
acomo variables de destino, ya que total_amount incluye las propinas. - Debido a que el conjunto de datos de origen es grande (más de 1,000 millones de filas), toma una muestra que tenga menos de 1 millón de filas.
- Solo copia campos que se usarán en tu modelo (
report_prediction_data
es un buen ejemplo).
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 2: Crea un modelo de BigQuery ML
-
En función de los datos que tienes en
, crea un modelo de BigQuery ML que prediga . -
Asígnale el nombre
al modelo.
Considera estas sugerencias útiles:
- Puedes encapsular cualquier transformación de datos adicionales en una cláusula TRANSFORM().
- Ten en cuenta que solo se pasarán al modelo los atributos de la cláusula
TRANSFORM()
. Puedes usar* EXCEPT(atributo_para_excluir)
para pasar algunos o todos los atributos sin llamarlos explícitamente. - Las funciones de GIS
ST_distance()
yST_GeogPoint()
en BigQuery se pueden usar para calcular fácilmente la distancia euclidiana (es decir, qué distancia recorrió el taxi desde el punto de partida hasta el de destino):
Haz clic en Revisar mi progreso para verificar el objetivo.
Tarea 3: Realiza una predicción por lotes sobre los datos nuevos
Los directivos quieren ver el rendimiento de tu modelo cuando se usan datos nuevos; en este caso, todos los datos que recopilaron en 2015. Estos datos se encuentran en taxirides.report_prediction_data
. La tabla solo incluye los valores conocidos en el momento de la predicción.
- Usa
ML.PREDICT
y tu modelo para predecir el valor de. Luego, almacena los resultados en una tabla llamada 2015_fare_amount_predictions
.
Haz clic en Revisar mi progreso para verificar el objetivo. 2015_fare_amount_predictions
¡Felicitaciones!
Obtén tu próxima insignia de habilidad
Este lab de autoaprendizaje forma parte de la insignia de habilidad Engineer Data for Predictive Modeling with BigQuery ML. Si completas esta insignia de habilidad, obtendrás la insignia que se muestra arriba como reconocimiento de tu logro. Comparte la insignia en tu currículum y tus plataformas sociales, y anuncia tu logro con el hashtag #GoogleCloudBadge.
Esta insignia de habilidad es parte de la ruta de aprendizaje Data Engineer de Google Cloud. Si ya conseguiste las otras insignias de habilidad de esta ruta de aprendizaje, revisa el catálogo y encuentra otras insignias de habilidad que puedes obtener.
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 25 de marzo de 2024
Prueba más reciente del lab: 11 de septiembre de 2023
Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.