
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Nous avons développé cet atelier avec notre partenaire Trifacta. Si vous avez accepté de recevoir les actualités sur les produits, les annonces et les offres sur la page de profil de votre compte, il est possible que vos informations personnelles soient partagées avec Trifacta, le collaborateur d'atelier.
Cloud Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement des données, de les nettoyer et de les préparer à des fins d'analyse. Cette solution sans serveur fonctionne à n'importe quelle échelle. Vous n'avez aucune infrastructure à déployer ni à gérer. La préparation des données s'effectue facilement : pas de code à écrire, quelques clics suffisent !
Dans cet atelier, vous allez utiliser Dataprep pour manipuler un ensemble de données. Vous allez importer des ensembles, corriger les données non concordantes, et transformer et joindre des données. Si ces notions ne vous sont pas familières, ne craignez rien. Elles n'auront plus de secret pour vous d'ici la fin de cet atelier.
Dans cet atelier, vous allez apprendre à utiliser Dataprep pour effectuer les tâches suivantes :
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Accédez aux pages suivantes :
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.
Passez les fenêtres suivantes :
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
Résultat :
Résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Dans la console Cloud, accédez au menu de navigation () > Cloud Storage > Buckets.
Cliquez sur Créer un bucket.
Dans la boîte de dialogue Créer un bucket, saisissez un nom unique pour le bucket dans Nom. Conservez la valeur par défaut des autres paramètres.
Décochez la case Appliquer la protection contre l'accès public sur ce bucket dans la section Choisissez comment contrôler l'accès aux objets
.
Cliquez sur Créer.
Vous avez créé votre bucket. Notez bien le nom du bucket, car vous l'utiliserez plus tard dans l'atelier.
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à créer le bucket Cloud Storage, vous verrez une note d'évaluation s'afficher.
Un message indiquant que l'identité du service a été créée doit s'afficher.
Cliquez sur le menu de navigation > Dataprep.
Cochez la case pour accepter les conditions d'utilisation de Google Dataprep, puis cliquez sur Accept (Accepter).
Cochez la case pour autoriser le partage des informations de votre compte avec Trifacta, puis cliquez sur Agree and Continue (Accepter et continuer).
Cliquez sur Allow (Autoriser) pour autoriser Trifacta à accéder aux données du projet.
Cliquez sur votre nom d'utilisateur pour vous connecter à Cloud Dataprep by Trifacta. Votre nom d'utilisateur figure dans le champ Nom d'utilisateur dans le panneau de gauche de l'atelier.
Cliquez sur Allow (Autoriser) pour autoriser Cloud Dataprep à accéder au compte qui vous a été attribué pour cet atelier Google Cloud.
Cochez la case pour valider les conditions d'utilisation de Trifacta, puis cliquez sur Accept (Accepter).
Sur l'écran First time setup (Configuration initiale), cliquez sur Continue (Continuer) pour créer l'emplacement de stockage par défaut.
Dataprep s'ouvre.
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si vous avez réussi à initialiser Cloud Dataprep avec l'emplacement de stockage par défaut, vous recevez une note d'évaluation.
Cloud Dataprep utilise un espace de travail flow
pour accéder aux ensembles de données et les gérer.
La page de flux FEC-2016 s'ouvre.
Dans cette section, vous allez importer et ajouter des données dans le flux FEC-2016.
Cliquez sur Add Datasets (Ajouter des ensembles de données), puis sélectionnez le lien Import Datasets (Importer des ensembles de données).
Dans le volet de gauche, sélectionnez Cloud Storage pour importer des ensembles de données à partir de Cloud Storage, puis cliquez sur le crayon pour modifier le chemin du fichier.
gs://spls/gsp105
, puis cliquez sur Go (OK).Vous devrez peut-être agrandir la fenêtre du navigateur pour afficher les boutons Go (OK) et Cancel (Annuler).
Cliquez sur us-fec/.
Cliquez sur l'icône + à côté de cn-2016.txt
pour créer un ensemble de données. Il s'affichera dans le volet de droite. Cliquez sur le titre de l'ensemble de données dans le volet de droite et renommez-le "Candidate Master 2016".
De même, ajoutez l'ensemble de données itcont-2016-orig.txt
et renommez-le "Campaign Contributions 2016".
Lorsque les deux ensembles de données figurent dans le volet de droite, cliquez sur Import & Add to Flow (Importer et ajouter au flux).
Les deux ensembles de données apparaissent en tant que flux.
La page "Candidate Master 2016 Transformer" s'ouvre en mode Grille.
La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet échantillon. Lorsque vous êtes satisfait du résultat affiché, exécutez le job associé à votre ensemble de données.
Notez également que lorsque vous cliquez sur le nom de la colonne, un panneau Details (Détails) s'ouvre à droite.
Pour fermer le panneau Details (Détails), cliquez sur X en haut à droite.
Lors des étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.
Une étape de sélection de ces valeurs est alors créée.
Le panneau "Recipe" (Recette) à droite contient maintenant l'étape suivante :
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
Faites défiler la page vers le bas (mis en surbrillance en rouge) pour trouver les valeurs non concordantes. Vous remarquez que pour la plupart de ces enregistrements, la valeur "P" est indiquée dans la colonne "column7" et "US" dans la colonne "column6". Une non-concordance est identifiée parce que column6 est marquée comme une colonne "State" (colonne "État", indiquée par l'icône représentant un drapeau), mais elle comporte des valeurs qui ne font pas référence à des États (comme "US").
La non-concordance n'existe plus et le marqueur de colonne est devenu vert.
Sur la page "Join" (Joindre), vous pouvez ajouter votre ensemble de données actuel à un autre ensemble de données ou à une autre recette en fonction des informations communes aux deux ensembles de données.
Avant de joindre le fichier "Contributions" au fichier "Candidates", nettoyez le fichier "Contributions".
Cliquez sur l'ensemble de données grisé Campaign Contributions 2016 pour le sélectionner.
Dans le volet de droite, cliquez sur Add > Recipe > Edit Recipe (Ajouter > Recette > Modifier la recette).
Cliquez sur l'icône de recette en haut à droite sur la page, puis sur Add New Step (Ajouter une étape).
Supprimez les délimiteurs superflus de l'ensemble de données.
L'outil de création de transformations analyse la commande Wrangle et renseigne les champs de transformation "Find" (Rechercher) et "Replace" (Remplacer).
Cliquez sur Add (Ajouter) pour ajouter la transformation à la recette.
Ajoutez une autre étape à la recette. Cliquez sur New Step (Nouvelle étape), puis saisissez "Join" dans le champ de recherche.
Cliquez sur Join datasets (Joindre des ensembles de données) pour ouvrir la page "Joins" (Jointures).
Cliquez sur "Candidate Master 2016" pour l'associer à "Campaign Contributions 2016", puis cliquez sur Accept (Accepter) en bas à droite.
Dataprep déduit des clés communes. Dataprep vous suggère un grand nombre de valeurs communes en tant que clés de jointure.
Vous pouvez examiner les colonnes 2 et 11 qui s'affichent.
Vous allez générer un résumé de ces données. Pour cela, vous allez agréger les contributions de la colonne 16, en faire la moyenne, puis les compter. Ensuite, vous allez regrouper les candidats en fonction de leur ID, leur nom et leur parti dans les colonnes 2, 24 et 8 respectivement.
Un échantillon initial des données jointes et agrégées s'affiche, représentant un tableau récapitulatif des candidats à la présidentielle américaine, ainsi que les métriques des contributions à leur campagne 2016.
Vous pouvez faciliter l'interprétation des données en renommant les colonnes.
Ensuite, cliquez sur Add (Ajouter).
Ajoutez une dernière étape en cliquant sur New Step (Nouvelle étape) pour arrondir le montant "Average Contribution" (Contribution moyenne) :
Les résultats ressemblent en principe à ce qui suit :
Vous avez ajouté un ensemble de données à l'aide de Dataprep, et vous avez créé des recettes pour manipuler les données afin de générer des résultats significatifs.
Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous donner un aperçu des nombreuses fonctionnalités proposées par Google Cloud. Pour suivre un autre atelier, recherchez "Qwik Starts" dans le catalogue.
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 6 juin 2024
Dernier test de l'atelier : 6 juin 2024
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
One lab at a time
Confirm to end all existing labs and start this one