Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers du cours correspondant pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).
Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.
Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Scénario du challenge
Vous venez de décrocher un poste d'ingénieur de données chez TaxiCab Inc. Vous devez importer des données historiques dans un ensemble de données de travail BigQuery, et créer un modèle de base qui prédit le prix de la course sur la base des informations disponibles lorsqu'une nouvelle course commence. La direction souhaiterait créer une application permettant à ses utilisateurs d'estimer le prix de la course. Les données sources seront fournies dans votre projet.
Vous êtes censé disposer des compétences et connaissances requises pour ces tâches. Ne vous attendez donc pas à recevoir des instructions détaillées.
Votre challenge
À peine assis à votre bureau et votre nouvel ordinateur portable ouvert, vous recevez votre première mission : créer pour la direction un modèle BigQuery ML de base capable de prédire le prix d'une course. Effectuez les tâches suivantes afin d'importer et de nettoyer les données. Créez ensuite le modèle et faites des prédictions par lots avec les nouvelles données afin que la direction puisse évaluer les performances du modèle, et décider s'il convient ou non de déployer la fonctionnalité de l'application.
Tâche 1 : Nettoyer vos données d'entraînement
Vous avez déjà terminé la première étape en créant l'ensemble de données taxirides et en important les données historiques dans la table historical_taxi_rides_raw. Ces données correspondent aux courses datant d'avant 2015.
Remarque : Vous devrez peut-être patienter une à trois minutes pour que toutes les données soient insérées dans votre projet.
Pour réaliser cette tâche :
Nettoyez les données dans historical_taxi_rides_raw et copiez-les dans , qui fait partie du même ensemble de données. Vous pouvez créer cette table et nettoyer les données à l'aide de BigQuery, Dataprep ou Dataflow, par exemple. Assurez-vous que la colonne cible porte le nom .
Astuces :
Commencez par consulter l'ensemble de données source qui s'affiche dans l'UI BigQuery pour vous familiariser avec le schéma source.
Pour vous faire une idée des données disponibles au moment de la prédiction, consultez la table taxirides.report_prediction_data, qui indique le format dans lequel seront les données lors de la prédiction.
Tâches de nettoyage de données :
Assurez-vous que la valeur de trip_distance est supérieure à .
Supprimez les lignes où la valeur de fare_amount est très faible (moins de $, par exemple).
Assurez-vous que les latitudes et longitudes conviennent pour ce cas d'utilisation.
Assurez-vous que la valeur de passenger_count est supérieure à .
Assurez-vous d'ajouter tolls_amount et fare_amount à en tant que variable cible puisque "total_amount" comprend les pourboires.
L'ensemble de données source étant volumineux (plus d'un milliard de lignes), échantillonnez-le afin de réduire son nombre de lignes à moins d'un million.
Ne copiez que les champs qui seront utilisés dans votre modèle (vous pouvez vous baser sur report_prediction_data).
Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une copie nettoyée des données dans
Tâche 2 : Créer un modèle BigQuery ML
En vous basant sur les données de , créez un modèle BigQuery ML prédisant la valeur de .
Appelez le modèle .
Remarque : Pour cette tâche, votre modèle doit avoir une RMSE inférieure ou égale à 10.
Astuces :
Vous pouvez encapsuler toutes les transformations de données supplémentaires dans la clause TRANSFORM().
Gardez à l'esprit que seules les caractéristiques de la clause TRANSFORM() seront transmises au modèle. Vous pouvez utiliser la requête *EXCEPT(feature_to_leave_out) pour transmettre la totalité, ou une partie des caractéristiques sans avoir à les appeler explicitement.
Les fonctions SIG ST_distance() et ST_GeogPoint() de BigQuery vous permettent de calculer facilement les distances euclidiennes (c'est-à-dire la distance parcourue par le taxi de la montée à la descente du véhicule) :
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean
Cliquez sur Vérifier ma progression pour valider l'objectif. Créer un modèle BigQuery ML intitulé avec une RMSE inférieure ou égale à 10
Tâche 3 : Effectuer une prédiction par lot sur de nouvelles données
La direction souhaite connaître les performances de votre modèle sur de nouvelles données, en l'occurrence toutes les données collectées en 2015. Ces données se trouvent dans taxirides.report_prediction_data. Seules les valeurs connues au moment de la prédiction sont incluses dans cette table.
Utilisez ML.PREDICT ainsi que votre modèle afin de prédire la valeur de , puis stockez les résultats dans une table intitulée 2015_fare_amount_predictions.
Cliquez sur Vérifier ma progression pour valider l'objectif. Effectuer des prédictions par lots et stocker les résultats dans une nouvelle table 2015_fare_amount_predictions
Félicitations !
Gagnez un badge de compétence
Cet atelier d'auto-formation contribue à l'obtention du badge de compétence Ingénierie des données pour la modélisation prédictive avec BigQuery ML. Si vous terminez cette formation, vous obtiendrez le badge de compétence ci-dessus attestant de votre réussite. Ajoutez votre badge à votre CV et partagez-le sur les réseaux sociaux en utilisant le hashtag #GoogleCloudBadge.
Ce badge de compétence est associé au parcours de formation Ingénieur de données de Google Cloud. Si vous avez déjà obtenu tous les badges de compétence de ce parcours de formation, explorez le cataloguepour vous inscrire à de nouveaux cours et obtenir d'autres badges.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 25 mars 2024
Dernier test de l'atelier : 11 septembre 2023
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.
Utilisez la navigation privée
Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
Cliquez sur Ouvrir la console en navigation privée
Connectez-vous à la console
Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
Un atelier à la fois
Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci
Utilisez la navigation privée pour effectuer l'atelier
Ouvrez une fenêtre de navigateur en mode navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
Cet atelier challenge teste les compétences et les connaissances que vous avez acquises dans les ateliers du cours "Ingénierie des données pour la modélisation prédictive avec BigQuery ML". Vous devez être familiarisé avec le contenu de ces ateliers avant de vous lancer.
Durée :
0 min de configuration
·
Accessible pendant 60 min
·
Terminé après 60 min