Points de contrôle
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep : Qwik Start
- GSP105
- Présentation
- Préparation
- Tâche 1 : Créer un bucket Cloud Storage dans votre projet
- Tâche 2 : Initialiser Cloud Dataprep
- Tâche 3 : Créer un flux
- Tâche 4 : Importer des ensembles de données
- Tâche 5 : Préparer le fichier des candidats
- Tâche 6 : Transformer le fichier des contributions avec Wrangle et le joindre au fichier des candidats
- Tâche 7 : Résumé des données
- Tâche 8 : Renommer les colonnes
- Félicitations !
Nous avons développé cet atelier avec notre partenaire Trifacta. Si vous avez accepté de recevoir les actualités sur les produits, les annonces et les offres sur la page de profil de votre compte, il est possible que vos informations personnelles soient partagées avec Trifacta, le collaborateur d'atelier.
GSP105
Présentation
Cloud Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement des données, de les nettoyer et de les préparer à des fins d'analyse. Cette solution sans serveur fonctionne à n'importe quelle échelle. Vous n'avez aucune infrastructure à déployer ni à gérer. La préparation des données s'effectue facilement : pas de code à écrire, quelques clics suffisent !
Dans cet atelier, vous allez utiliser Dataprep pour manipuler un ensemble de données. Vous allez importer des ensembles, corriger les données non concordantes, et transformer et joindre des données. Si ces notions ne vous sont pas familières, ne craignez rien. Elles n'auront plus de secret pour vous d'ici la fin de cet atelier.
Objectifs de l'atelier
Dans cet atelier, vous allez apprendre à utiliser Dataprep pour effectuer les tâches suivantes :
- Importer des données
- Corriger les données non concordantes
- Transformer des données
- Joindre des données
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}} Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}} Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
- Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
-
Cliquez sur Autoriser.
-
Vous devez à présent obtenir le résultat suivant :
Résultat :
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
Résultat :
Exemple de résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Tâche 1 : Créer un bucket Cloud Storage dans votre projet
-
Dans la console Cloud, accédez au menu de navigation () > Cloud Storage > Buckets.
-
Cliquez sur Créer un bucket.
-
Dans la boîte de dialogue Créer un bucket, saisissez un nom unique pour le bucket dans Nom. Conservez la valeur par défaut des autres paramètres.
-
Décochez la case Appliquer la protection contre l'accès public sur ce bucket dans la section
Choisissez comment contrôler l'accès aux objets
. -
Cliquez sur Créer.
Vous avez créé votre bucket. Notez bien le nom du bucket, car vous l'utiliserez plus tard dans l'atelier.
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à créer le bucket Cloud Storage, vous verrez une note d'évaluation s'afficher.
Tâche 2 : Initialiser Cloud Dataprep
- Ouvrez Cloud Shell et exécutez la commande suivante :
Un message indiquant que l'identité du service a été créée doit s'afficher.
-
Cliquez sur le menu de navigation > Dataprep.
-
Cochez la case pour accepter les conditions d'utilisation de Google Dataprep, puis cliquez sur Accept (Accepter).
-
Cochez la case pour autoriser le partage des informations de votre compte avec Trifacta, puis cliquez sur Agree and Continue (Accepter et continuer).
-
Cliquez sur Allow (Autoriser) pour autoriser Trifacta à accéder aux données du projet.
-
Cliquez sur votre nom d'utilisateur pour vous connecter à Cloud Dataprep by Trifacta. Votre nom d'utilisateur figure dans le champ Nom d'utilisateur dans le panneau de gauche de l'atelier.
-
Cliquez sur Allow (Autoriser) pour autoriser Cloud Dataprep à accéder au compte qui vous a été attribué pour cet atelier Google Cloud.
-
Cochez la case pour valider les conditions d'utilisation de Trifacta, puis cliquez sur Accept (Accepter).
-
Sur l'écran First time setup (Configuration initiale), cliquez sur Continue (Continuer) pour créer l'emplacement de stockage par défaut.
Dataprep s'ouvre.
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à initialiser Cloud Dataprep avec l'emplacement de stockage par défaut, vous recevez une note d'évaluation.
Tâche 3 : Créer un flux
Cloud Dataprep utilise un espace de travail flow
pour accéder aux ensembles de données et les gérer.
- Cliquez sur l'icône des flux, puis sur le bouton Create (Créer). Sélectionnez ensuite Blank Flow (Flux vide).
- Cliquez sur Untitled Flow (Flux sans titre), puis nommez et décrivez le flux. Comme nous utilisons des données de la Federal Election Commission des États-Unis datant de 2016 pour cet atelier, nommez le flux "FEC-2016" et indiquez "Federal Elections Commission États-Unis 2016" pour sa description.
- Cliquez sur OK.
La page de flux FEC-2016 s'ouvre.
Tâche 4 : Importer des ensembles de données
Dans cette section, vous allez importer et ajouter des données dans le flux FEC-2016.
-
Cliquez sur Add Datasets (Ajouter des ensembles de données), puis sélectionnez le lien Import Datasets (Importer des ensembles de données).
-
Dans le volet de gauche, sélectionnez Cloud Storage pour importer des ensembles de données à partir de Cloud Storage, puis cliquez sur le crayon pour modifier le chemin du fichier.
- Dans la zone de texte Choose a file or folder (Sélectionner un fichier ou un dossier), saisissez
gs://spls/gsp105
, puis cliquez sur Go (OK).
Vous devrez peut-être agrandir la fenêtre du navigateur pour afficher les boutons Go (OK) et Cancel (Annuler).
-
Cliquez sur us-fec/.
-
Cliquez sur l'icône + à côté de
cn-2016.txt
pour créer un ensemble de données. Il s'affichera dans le volet de droite. Cliquez sur le titre de l'ensemble de données dans le volet de droite et renommez-le "Candidate Master 2016". -
De même, ajoutez l'ensemble de données
itcont-2016-orig.txt
et renommez-le "Campaign Contributions 2016". -
Lorsque les deux ensembles de données figurent dans le volet de droite, cliquez sur Import & Add to Flow (Importer et ajouter au flux).
Les deux ensembles de données apparaissent en tant que flux.
Tâche 5 : Préparer le fichier des candidats
- L'ensemble de données "Candidate Master 2016" est sélectionné par défaut. Dans le volet de droite, cliquez sur Edit Recipe (Modifier la recette).
La page "Candidate Master 2016 Transformer" s'ouvre en mode Grille.
La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet échantillon. Lorsque vous êtes satisfait du résultat affiché, exécutez le job associé à votre ensemble de données.
- Chacun des en-têtes de colonne comporte un nom et une valeur indiquant le type de données. Pour afficher les types de données, cliquez sur l'icône de colonne :
-
Notez également que lorsque vous cliquez sur le nom de la colonne, un panneau Details (Détails) s'ouvre à droite.
-
Pour fermer le panneau Details (Détails), cliquez sur X en haut à droite.
Lors des étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.
- La colonne "column5" comporte des données des années 1990 à 2064. Élargissez cette colonne (de la même manière que dans une feuille de calcul) pour séparer chaque année. Cliquez sur le plus haut segment, représentant l'année 2016, pour le sélectionner.
Une étape de sélection de ces valeurs est alors créée.
- Dans le panneau Suggestions à droite, accédez à la section Keep rows (Conserver les lignes), puis cliquez sur Add (Ajouter) pour ajouter cette étape à votre recette.
Le panneau "Recipe" (Recette) à droite contient maintenant l'étape suivante :
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- Passez la souris sur la partie rouge (non concordante) de l'en-tête de la colonne "column6 (State)" pour sélectionner les lignes non concordantes.
Faites défiler la page vers le bas (mis en surbrillance en rouge) pour trouver les valeurs non concordantes. Vous remarquez que pour la plupart de ces enregistrements, la valeur "P" est indiquée dans la colonne "column7" et "US" dans la colonne "column6". Une non-concordance est identifiée parce que column6 est marquée comme une colonne "State" (colonne "État", indiquée par l'icône représentant un drapeau), mais elle comporte des valeurs qui ne font pas référence à des États (comme "US").
- Pour corriger la non-concordance, cliquez sur X en haut du panneau "Suggestions" pour annuler la transformation, puis cliquez sur l'icône représentant un drapeau dans "column6" et transformez-la en colonne "String" (Chaîne).
La non-concordance n'existe plus et le marqueur de colonne est devenu vert.
- Filtrez les données pour n'afficher que les candidats à la présidentielle, correspondant aux enregistrements pour lesquels la valeur "P" figure dans la colonne "column7". Dans l'histogramme de column7, passez la souris sur les deux segments pour repérer celui qui est "H" et celui qui est "P". Cliquez sur le segment "P".
- Dans le panneau "Suggestions" à droite, cliquez sur Add (Ajouter) pour ajouter l'étape à la recette.
Tâche 6 : Transformer le fichier des contributions avec Wrangle et le joindre au fichier des candidats
Sur la page "Join" (Joindre), vous pouvez ajouter votre ensemble de données actuel à un autre ensemble de données ou à une autre recette en fonction des informations communes aux deux ensembles de données.
Avant de joindre le fichier "Contributions" au fichier "Candidates", nettoyez le fichier "Contributions".
- Cliquez sur FEC-2016 (le sélectionneur d'ensembles de données) en haut de la page en mode Grille.
-
Cliquez sur l'ensemble de données grisé Campaign Contributions 2016 pour le sélectionner.
-
Dans le volet de droite, cliquez sur Add > Recipe > Edit Recipe (Ajouter > Recette > Modifier la recette).
-
Cliquez sur l'icône de recette en haut à droite sur la page, puis sur Add New Step (Ajouter une étape).
Supprimez les délimiteurs superflus de l'ensemble de données.
- Insérez dans le champ de recherche la commande en langage Wrangle ci-dessous :
L'outil de création de transformations analyse la commande Wrangle et renseigne les champs de transformation "Find" (Rechercher) et "Replace" (Remplacer).
-
Cliquez sur Add (Ajouter) pour ajouter la transformation à la recette.
-
Ajoutez une autre étape à la recette. Cliquez sur New Step (Nouvelle étape), puis saisissez "Join" dans le champ de recherche.
-
Cliquez sur Join datasets (Joindre des ensembles de données) pour ouvrir la page "Joins" (Jointures).
-
Cliquez sur "Candidate Master 2016" pour l'associer à "Campaign Contributions 2016", puis cliquez sur Accept (Accepter) en bas à droite.
- À droite, pointez sur la section "Join Keys" (Clés de jointure), puis cliquez sur le crayon (icône de modification).
Dataprep déduit des clés communes. Dataprep vous suggère un grand nombre de valeurs communes en tant que clés de jointure.
- Dans le panneau "Add Key" (Ajouter une clé), accédez à la section "Suggested join keys" (Clés de jointure suggérées) et cliquez sur column2 = column11.
- Cliquez sur Save and Continue (Enregistrer et continuer).
Vous pouvez examiner les colonnes 2 et 11 qui s'affichent.
- Cliquez sur Next (Suivant), puis cochez la case à gauche de l'étiquette "Column" (Colonne) pour ajouter toutes les colonnes des deux ensembles de données au nouvel ensemble de données joint.
- Cliquez sur Review (Examiner), puis sur Add to Recipe (Ajouter à la recette) pour revenir au mode Grille.
Tâche 7 : Résumé des données
Vous allez générer un résumé de ces données. Pour cela, vous allez agréger les contributions de la colonne 16, en faire la moyenne, puis les compter. Ensuite, vous allez regrouper les candidats en fonction de leur ID, leur nom et leur parti dans les colonnes 2, 24 et 8 respectivement.
- En haut du panneau "Receipe" (Recette), cliquez sur New Step (Nouvelle étape) à droite et saisissez la formule suivante dans le champ de recherche Transformation pour prévisualiser les données agrégées.
Un échantillon initial des données jointes et agrégées s'affiche, représentant un tableau récapitulatif des candidats à la présidentielle américaine, ainsi que les métriques des contributions à leur campagne 2016.
- Cliquez sur Add (Ajouter) pour ouvrir un tableau récapitulatif des principaux candidats à l'élection présidentielle américaine, ainsi que les métriques des contributions à leur campagne 2016.
Tâche 8 : Renommer les colonnes
Vous pouvez faciliter l'interprétation des données en renommant les colonnes.
- Ajoutez à la recette chacune des étapes de changement de nom et d'arrondi individuellement. Pour ce faire, cliquez sur New Step (Nouvelle étape), puis saisissez les lignes suivantes :
-
Ensuite, cliquez sur Add (Ajouter).
-
Ajoutez une dernière étape en cliquant sur New Step (Nouvelle étape) pour arrondir le montant "Average Contribution" (Contribution moyenne) :
- Ensuite, cliquez sur Add (Ajouter).
Les résultats ressemblent en principe à ce qui suit :
Félicitations !
Vous avez ajouté un ensemble de données à l'aide de Dataprep, et vous avez créé des recettes pour manipuler les données afin de générer des résultats significatifs.
Étapes suivantes et informations supplémentaires
Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous donner un aperçu des nombreuses fonctionnalités proposées par Google Cloud. Pour suivre un autre atelier, recherchez "Qwik Starts" dans le catalogue.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 6 juin 2024
Dernier test de l'atelier : 6 juin 2024
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.