Points de contrôle
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Ingénierie des données pour la modélisation prédictive avec BigQuery ML : atelier challenge
GSP327
Présentation
Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers du cours correspondant pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).
Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.
Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.
Cet atelier est recommandé aux participants inscrits pour le badge de compétence Engineer Data for Predictive Modeling with BigQuery ML. Êtes-vous prêt pour le challenge ?
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Scénario du challenge
Vous venez de décrocher un poste d'ingénieur de données chez TaxiCab Inc. Vous devez importer des données de l'historique dans un ensemble de données de travail BigQuery, et créer un modèle de base qui prédit le prix de la course sur la base des informations disponibles lorsqu'une nouvelle course commence. La direction souhaiterait créer une application permettant à ses utilisateurs d'estimer le prix de la course. Les données sources seront fournies dans votre projet.
Vous êtes censé disposer des compétences et connaissances requises pour ces tâches. Ne vous attendez donc pas à recevoir des instructions détaillées.
Votre challenge
À peine assis à votre bureau et votre nouvel ordinateur portable ouvert, vous recevez votre première mission : créer pour la direction un modèle BigQuery ML de base capable de prédire le prix d'une course. Effectuez les tâches suivantes afin d'importer et de nettoyer les données. Créez ensuite le modèle et faites des prédictions par lots avec les nouvelles données afin que la direction puisse évaluer les performances du modèle, et décider de l'adopter ou non lors du déploiement de l'application.
Tâche 1 : Nettoyer vos données d'entraînement
Vous avez déjà terminé la première étape en créant l'ensemble de données taxirides
et en important les données historiques dans la table historical_taxi_rides_raw
. Ces données correspondent aux courses datant d'avant 2015.
Pour réaliser cette tâche :
- Nettoyez les données dans
historical_taxi_rides_raw
et copiez-les dans, qui fait partie du même ensemble de données. Vous pouvez créer cette table et nettoyer les données à l'aide de BigQuery, Dataprep ou Dataflow, par exemple. Assurez-vous que la colonne cible porte le nom .
Astuces :
- Commencez par consulter l'ensemble de données source qui s'affiche dans l'UI BigQuery pour vous familiariser avec le schéma source.
- Pour vous faire une idée des données disponibles au moment de la prédiction, consultez la table
taxirides.report_prediction_data
, qui indique le format dans lequel seront les données lors de la prédiction.
Tâches de nettoyage de données :
- Assurez-vous que la valeur de
trip_distance
est supérieure à. - Supprimez les lignes où la valeur de
fare_amount
est très faible (moins de
, par exemple).$ - Assurez-vous que les latitudes et longitudes conviennent pour ce cas d'utilisation.
- Assurez-vous que la valeur de
passenger_count
est supérieure à. - Assurez-vous d'ajouter
tolls_amount
etfare_amount
àen tant que variable cible puisque "total_amount" comprend les pourboires. - L'ensemble de données source étant volumineux (plus d'un milliard de lignes), échantillonnez-le afin de réduire son nombre de lignes à moins d'un million.
- Ne copiez que les champs qui seront utilisés dans votre modèle (vous pouvez vous baser sur
report_prediction_data
).
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 2 : Créer un modèle BigQuery ML
-
En vous basant sur les données de
, créez un modèle BigQuery ML prédisant la valeur de . -
Appelez le modèle
.
Astuces :
- Vous pouvez encapsuler toutes les transformations de données supplémentaires dans la clause TRANSFORM().
- Gardez à l'esprit que seules les caractéristiques de la clause
TRANSFORM()
seront transmises au modèle. Vous pouvez utiliser la requête*EXCEPT(feature_to_leave_out)
pour transmettre la totalité, ou une partie des fonctionnalités sans avoir à les appeler explicitement. - Les fonctions SIG
ST_distance()
etST_GeogPoint()
de BigQuery vous permettent de calculer facilement les distances euclidiennes (c'est-à-dire la distance parcourue par le taxi de la montée à la descente du véhicule) :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 3 : Effectuer une prédiction par lot sur les nouvelles données
La direction souhaite connaître les performances de votre modèle par rapport à ces nouvelles données, à savoir ici toutes les données collectées en 2015. Ces données se trouvent dans taxirides.report_prediction_data
. Seules les valeurs connues au moment de la prédiction sont incluses dans cette table.
- Utilisez
ML.PREDICT
ainsi que votre modèle afin de prédire la valeur de, puis stockez les résultats dans une table intitulée 2015_fare_amount_predictions
.
Cliquez sur Vérifier ma progression pour valider l'objectif. 2015_fare_amount_predictions
Félicitations !
Gagnez un badge de compétence
Cet atelier d'auto-formation contribue à l'obtention du badge de compétence Engineer Data for Predictive Modeling with BigQuery ML. Si vous terminez cette formation, vous obtiendrez le badge de compétence ci-dessus attestant de votre réussite. Ajoutez votre badge à votre CV et partagez-le sur les réseaux sociaux en utilisant le hashtag #GoogleCloudBadge.
Ce badge de compétence est associé au parcours de formation Data Engineer de Google Cloud. Si vous avez déjà obtenu les autres badges de compétence de ce parcours de formation, explorez le catalogue pour vous inscrire à des cours proposant d'autres badges.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 25 mars 2024
Dernier test de l'atelier : 11 septembre 2023
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.