Points de contrôle
Create a Cloud SQL instance
/ 5
Whitelist the Cloud Shell instance to access your SQL instance
/ 5
Create a bts database and flights table using the create_table.sql file
/ 5
Charger des données de taxis dans Google Cloud SQL 2.5
Présentation
Dans cet atelier, vous allez apprendre à importer des données dans Cloud SQL à partir de fichiers texte CSV, puis à effectuer certaines analyses de données de base à l'aide de requêtes simples.
L'ensemble de données utilisé dans cet atelier provient de la NYC Taxi and Limousine Commission (Commission des taxis et limousines de la ville de New York). Ces données contiennent les enregistrements de toutes les courses des taxis jaunes et verts de la ville de New York depuis 2009, et de tous les trajets des véhicules de transport avec chauffeur depuis 2015. Ces enregistrements comprennent des champs permettant de saisir les dates/heures et lieux de prise en charge et de dépose des clients, les distances des trajets, les tarifs détaillés, les types de tarifs, les types de paiements et le nombre de passagers déclarés par le chauffeur.
Plusieurs ateliers du programme Data Engineering utilisent cet ensemble de données, qui permet d'illustrer un large éventail de concepts et de techniques de la science des données.
Objectifs
- Créer une instance Cloud SQL
- Créer une base de données Cloud SQL
- Importer des données textuelles dans Cloud SQL
- Vérifier l'intégrité des données
Préparation
Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.
-
Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
-
Vérifiez le temps imparti pour l'atelier (par exemple :
01:15:00
) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début. -
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
-
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
-
Cliquez sur Ouvrir la console Google.
-
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués. -
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Activer Google Cloud Shell
Google Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud.
Google Cloud Shell vous permet d'accéder à vos ressources Google Cloud grâce à une ligne de commande.
-
Dans la barre d'outils située en haut à droite dans la console Cloud, cliquez sur le bouton "Ouvrir Cloud Shell".
-
Cliquez sur Continuer.
Le provisionnement et la connexion à l'environnement prennent quelques instants. Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Par exemple :
gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
Résultat :
Exemple de résultat :
- Vous pouvez lister les ID de projet à l'aide de cette commande :
Résultat :
Exemple de résultat :
Tâche 1 : Préparer l'environnement
- Pour la suite de l'atelier, créez les variables d'environnement correspondant à l'ID du projet et au bucket de stockage qui contiendra vos données :
Tâche 2 : Créer une instance Cloud SQL
- Saisissez les commandes suivantes pour créer une instance Cloud SQL :
Cette opération prend quelques minutes.
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.
- Définissez un mot de passe racine pour l'instance Cloud SQL :
-
Lorsque vous êtes invité à saisir le mot de passe, indiquez
Passw0rd
et appuyez sur "Entrée" pour mettre à jour le mot de passe racine. -
Ensuite, créez une variable d'environnement avec l'adresse IP de Cloud Shell :
- Ajoutez l'instance Cloud Shell à la liste blanche pour l'autoriser à gérer votre instance SQL :
- Lorsque vous y êtes invité, appuyez sur Y pour accepter la modification.
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.
- Pour obtenir l'adresse IP de votre instance Cloud SQL, exécutez la commande suivante :
- Vérifiez la variable MYSQLIP :
Vous devriez obtenir une adresse IP en tant que sortie.
- Connectez-vous à l'interface de ligne de commande
mysql
pour créer la table des courses en taxi :
-
Lorsque vous êtes invité à entrer un mot de passe, saisissez
Passw0rd
. -
Collez le contenu suivant dans la ligne de commande pour créer le schéma de la table
trips
:
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.
- Dans l'interface de ligne de commande
mysql
, vérifiez l'importation en saisissant les commandes suivantes :
- Interrogez la table
trips
:
La requête renvoie un ensemble vide puisque la base de données ne contient aucune donnée pour l'instant.
- Quittez la console interactive
mysql
:
Tâche 3 : Ajouter des données à l'instance Cloud SQL
Copiez maintenant sur votre machine locale les fichiers CSV des courses des taxis de la ville de New York stockés dans Cloud Storage. Pour limiter l'utilisation des ressources, vous travaillerez uniquement avec un sous-ensemble de données (environ 20 000 lignes).
- Exécutez la commande suivante dans la ligne de commande :
- Connectez-vous à la console interactive
mysql
pour charger les données des fichiers INFILE locaux :
-
Lorsque vous êtes invité à entrer un mot de passe, saisissez
Passw0rd
. -
Dans la console interactive
mysql
, sélectionnez la base de données :
- Chargez les données du fichier CSV local en utilisant
local-infile
:
Tâche 4 : Vérifier l'intégrité des données
Il est toujours important de vérifier l'intégrité des données chaque fois que vous en importez à partir d'une source. Il s'agit grosso modo de s'assurer que les données répondent à vos attentes.
- Interrogez la table
trips
pour connaître les zones où se trouvent les lieux de prise en charge :
Cette commande doit renvoyer 159 identifiants uniques.
- Commençons par examiner la colonne
trip_distance
. Saisissez la requête suivante dans la console :
On peut raisonnablement supposer que la distance d'un trajet est comprise entre 0 et 1 000 miles. Une distance maximale de trajet de 85 miles semble raisonnable, tandis qu'une distance minimale de trajet de 0 mile semble absurde.
- Combien de trajets d'une distance de 0 mile y a-t-il dans l'ensemble de données ?
Il y en a 155. Ces trajets nécessitent qu'on les examine de plus près. Vous constaterez que ces courses sont associées à des paiements de montants non nuls. S'agit-il de transactions frauduleuses ?
- Recherchons d'autres données qui ne nous semblent pas logiques. La colonne
fare_amount
indiquant le tarif devrait logiquement être positive. Saisissez la requête suivante et vérifiez si c'est le cas pour cette base de données :
Le résultat doit afficher 14 courses. Ces courses nécessitent également qu'on les examine de plus près. Il peut y avoir une explication logique au fait que le tarif de ces courses soit négatif. L'ingénieur de données doit s'assurer que ce résultat n'est pas dû à un bug dans le pipeline de données.
- Enfin, analysons la colonne
payment_type
.
Les résultats de cette requête indiquent quatre types de paiements :
- Type de paiement = 1 dans 13 863 lignes
- Type de paiement = 2 dans 6 016 lignes
- Type de paiement = 3 dans 113 lignes
- Type de paiement = 4 dans 32 lignes
Des recherches dans la documentation révèlent que le type de paiement 1 correspond à la carte de crédit, le type de paiement 2 correspond aux espèces et le type de paiement 4 correspond à une contestation. Les chiffres sont cohérents.
- Quittez la console interactive "mysql" :
Terminer l'atelier
Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.
Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.
Le nombre d'étoiles correspond à votre degré de satisfaction :
- 1 étoile = très insatisfait(e)
- 2 étoiles = insatisfait(e)
- 3 étoiles = ni insatisfait(e), ni satisfait(e)
- 4 étoiles = satisfait(e)
- 5 étoiles = très satisfait(e)
Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.
Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.
Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.