Points de contrôle
Retrieve dataset files
/ 50
Publish the results to BigQuery
/ 50
Utiliser Cloud Dataprep sur Google Cloud
- GSP050
- Présentation
- Préparation
- Tâche 1 : Ouvrir Google Cloud Dataprep
- Tâche 2 : Récupérer les fichiers de l'ensemble de données
- Tâche 3 : Créer un flux
- Tâche 4 : Nettoyer les données des clients
- Tâche 5 : Unifier plusieurs ensembles de données relatives aux transactions
- Tâche 6 : Modifier les étapes de la recette
- Tâche 7 : Joindre les données des transactions aux données des clients
- Tâche 8 : Créer des colonnes et en renommer
- Tâche 9 : Publier les résultats sur BigQuery
- Félicitations !
Nous avons développé cet atelier avec notre partenaire Alteryx. Si vous avez accepté de recevoir les actualités sur les produits, les annonces et les offres sur la page de profil de votre compte, il est possible que vos informations personnelles soient partagées avec Alteryx, le collaborateur d'atelier.
GSP050
Présentation
Cloud Dataprep est l'outil de préparation de données en libre-service de Google, conçu en collaboration avec Alteryx. Dans cet atelier, vous allez apprendre à nettoyer et à enrichir plusieurs ensembles de données à l'aide de Cloud Dataprep. Les exercices de cet atelier se basent sur un scénario fictif.
Scénario :
Vous travaillez pour une entreprise fournissant des services techniques qui propose trois types d'abonnements mensuels :
- Offre découverte (prix : 9,99 € par mois)
- Offre classique (prix : 14,99 € par mois)
- Offre premium (prix : 29,99 € par mois)
De temps en temps, l'entreprise propose des remises promotionnelles. Ainsi, les prix des produits peuvent s'avérer légèrement inférieurs aux tarifs indiqués ci-dessus. Dans cet atelier, votre objectif est de fournir une analyse de l'activité de vente en fonction du code postal sur une période de trois ans.
Pour ce faire, vous devrez associer la source de données contenant les coordonnées de vos clients (où vous trouverez le code postal) aux données de ventes à partir d'une source de données d'achats. Une fois ces données associées, vous regrouperez les résultats.
Points abordés
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
- Nettoyer des données et établir leur profil avec Cloud Dataprep
- Associer plusieurs ensembles de données avec Cloud Dataprep
- Analyser les résultats de formules dans Cloud Dataprep
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}} Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}} Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
- Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
-
Cliquez sur Autoriser.
-
Vous devez à présent obtenir le résultat suivant :
Résultat :
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
Résultat :
Exemple de résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Tâche 1 : Ouvrir Google Cloud Dataprep
-
Dans la console Cloud, accédez au menu de navigation, puis sous ANALYSE, sélectionnez Dataprep.
-
Avant d'accéder à Cloud Dataprep, prenez connaissance des conditions d'utilisation de Google Cloud Dataprep, puis cliquez sur Accepter.
-
Cochez la case et cliquez sur Accepter et continuer lorsque vous êtes invité à partager les informations de votre compte avec Alteryx.
-
Cliquez sur Autoriser pour autoriser Alteryx à accéder à votre projet.
-
Sélectionnez vos identifiants associés à l'atelier pour vous connecter, puis cliquez sur Autoriser.
-
Cochez la case et cliquez sur Accepter pour accepter les conditions d'utilisation d'Alteryx.
-
Si vous êtes invité à utiliser l'emplacement par défaut pour le bucket de stockage, cliquez sur Continuer.
-
Si vous êtes un nouvel utilisateur, vous serez invité à sélectionner des ensembles de données lors du lancement du tutoriel. Quittez la fenêtre en cliquant sur Annuler ou en la fermant.
-
Cliquez sur l'icône Dataprep en haut à droite pour accéder à l'écran d'accueil.
Tâche 2 : Récupérer les fichiers de l'ensemble de données
Dans cette section, vous allez ajouter les fichiers d'activité de vente à un bucket de stockage que Dataprep a créé pour vous.
- Retournez dans la console Cloud.
-
Récupérez le nom de votre bucket. Dans le menu de navigation, sélectionnez Cloud Storage > Bucket.
-
Notez le nom du bucket Dataprep pour l'utiliser à l'étape suivante.
-
Dans la ligne de commande Cloud Shell, exécutez la commande suivante, en remplaçant
[YOUR-BUCKET-NAME]
par le nom du bucket Dataprep :
Vous devez obtenir un résultat semblable à celui-ci :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 3 : Créer un flux
Retournez à l'onglet Cloud Dataprep. Pour préparer vos données, vous devez créer un flux. Un flux est une série d'ensembles de données liés comprenant les relations qui les unissent.
- Cliquez sur Create Flow (Créer un flux) en haut à droite :
- Attribuez au flux le nom
Qwiklab1
, laissez le champ de description vide, puis cliquez sur OK.
Votre flux est à présent créé. Pour vous guider et vous aider à démarrer, Dataprep crée des espaces réservés dans le flux. La première étape consiste à importer et ajouter des données dans Dataprep et dans le flux.
-
Cliquez sur le signe + sous "Dataset" (Ensemble de données) pour ajouter une nouvelle source de données, puis cliquez sur le lien Import Datasets (Importer des ensembles de données).
-
Dans le menu de navigation de gauche, cliquez sur
Cloud Storage
>dataprep-staging-xxx
>gsp050
pour accéder aux exemples de données que vous avez stockés à la section précédente. -
Cliquez sur le signe + à côté de chaque fichier listé. Lorsque vous cliquez sur un fichier, il est déplacé vers la partie droite de l'écran. Cliquez sur Import & Add to Flow (Importer et ajouter au flux) pour ajouter les ensembles de données à votre flux :
Cloud Dataprep vous redirige vers la page d'affichage du flux, qui contient désormais les ensembles de données que vous avez ajoutés. Des espaces réservés supplémentaires sont créés pour la recette et le résultat.
Tâche 4 : Nettoyer les données des clients
Maintenant que vous disposez des données, l'étape suivante consiste à concevoir une recette de préparation des données afin de nettoyer l'ensemble de données des clients. Dans le modèle, une recette est déjà ajoutée avec les données de lab_2013_transactions.csv
. Ignorons cette recette pour le moment et créons la nôtre.
- Pour créer une recette :
- Cliquez sur l'icône (+) à côté de
lab_customers.csv
. - Ensuite, cliquez sur Add new Recipe (Ajouter une recette).
- Effectuez un clic droit sur ce nouveau nœud de recette.
- Sélectionnez Edit name and description (Modifier le nom et la description) dans le menu déroulant.
- Remplacez le nom par
lab_customers
, puis cliquez sur OK.
-
Un nœud de recette est créé, et un panneau s'ouvre sur le côté droit. Il affiche des informations sur la recette, comme les données et les étapes de transformation existantes.
-
Cliquez sur le bouton bleu Edit Recipe (Modifier la recette). (Vous pouvez également double-cliquer directement sur le nœud de recette.)
Cloud Dataprep ouvre la page "Transformer Grid" (Grille de transformation). Il s'agit d'une interface semblable à une feuille de calcul qui vous permet de définir les différentes étapes de la recette de préparation de données. La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet exemple. Lorsque vous êtes satisfait du résultat affiché, exécutez le job associé sur votre ensemble de données.
Chaque colonne est associée à un nom et une icône spécifiant le type de données concerné. Pour afficher les types de données disponibles, cliquez sur l'icône située à gauche du nom de la colonne :
Un panneau Details (Détails) s'ouvre sur la droite lorsque vous cliquez sur une option de colonne.
Ce panneau est dynamique et contient des informations sur les éléments que vous avez sélectionnés, y compris les informations sur les colonnes et les transformations suggérées. Cliquez maintenant sur X en haut à droite du panneau "Details" (Détails) pour le fermer.
Dans les étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.
Lorsque vous ouvrez la page "Transformer Grid" (Grille de transformation), Cloud Dataprep affiche automatiquement le profil du contenu de l'ensemble de données et génère des histogrammes organisés en colonnes, ainsi que des indicateurs de qualité des données. Ces informations sur le profil de vos données peuvent orienter votre processus de préparation.
Appliquer un filtre
- Faites défiler la page vers la droite jusqu'à la colonne start_date (date_début). Examinez la barre horizontale située en haut de la colonne :
Cette barre représente la qualité des données. La partie verte représente les valeurs valides, la partie grise celles qui sont manquantes ou vides. Si la barre est rouge, cela signifie que les données ne correspondent pas au type indiqué. En cliquant sur les différentes portions de la barre, vous obtiendrez des suggestions relatives à la qualité des données sous forme d'expressions conditionnelles. Ces expressions testent chaque enregistrement pour déterminer s'il est valide, vide ou non valide, en fonction de la portion de la barre sur laquelle vous avez cliqué.
En utilisant start_date
(date_début) et end_date
(date_fin) comme filtre, vous allez ajouter une transformation permettant de supprimer les contacts pour lesquels la colonne start_date est vide.
- Cliquez sur la partie grise de la barre de qualité des données dans la colonne
start_date
(date_début).
Cloud Dataprep génère une liste de transformations suggérées en fonction de votre sélection et l'affiche sur la droite. Lorsque vous pointez sur la fiche d'une suggestion, Dataprep vous montre un aperçu de vos données une fois la suggestion appliquée. Si vous sélectionnez une fiche, Cloud Dataprep actualise la grille de manière à afficher un aperçu de cette transformation.
- Cliquez sur Add (Ajouter) sur la fiche de la suggestion "Delete rows with missing values in
start_date
" (Supprimer les lignes dont la valeur est manquante dansstart_date
) sur la droite.
Les lignes qui étaient en rouge ont été supprimées de l'ensemble de données.
Renseigner des valeurs manquantes
Examinez la colonne end_date (date_fin). La barre de qualité des données indique qu'un grand nombre de lignes comporte des valeurs manquantes. Pour faciliter l'utilisation de cette colonne, vous allez insérer une valeur fictive (le 1er janvier 2050) dans ces lignes vides.
- Cliquez sur la section grise de la barre de qualité des données dans la colonne
end_date
(date_fin).
De nouvelles transformations suggérées sont générées. Une suggestion Set missing values to NULL() (Définir les valeurs manquantes sur NULL()) devrait apparaître. Dans ce cas, Dataprep ne sait pas exactement quelle valeur vous souhaitez remplir et crée un modèle que vous pouvez modifier.
- Sur la fiche d'une suggestion, cliquez sur Edit (Modifier).
Cela fait apparaître l'outil Add Step (Ajouter une étape). La transformation suggérée par Cloud Dataprep a déjà été appliquée, mais vous pouvez apporter des modifications au code.
- Dans la zone Formula (Formule), remplacez la valeur
NULL()
par'2050/1/1'
(entre guillemets informatiques simples). La formule complète ressemblera à ceci :
- Cliquez sur Add (Ajouter).
Les problèmes de qualité de l'ensemble de données lab_customers
sont maintenant corrigés et la portion grise de la barre de qualité des données a disparu.
Tâche 5 : Unifier plusieurs ensembles de données relatives aux transactions
À présent, concentrons-nous sur les ensembles de données relatives aux transactions.
- Cliquez sur le nom du flux
QWIKLAB1
en haut de l'écran :
Vous êtes redirigé vers la page d'affichage du flux.
Créez un ensemble de données unique rassemblant les ensembles de données relatives aux transactions de 2013, 2014 et 2015.
-
Cliquez sur l'ensemble de données
lab_2013_transactions
. -
Cliquez sur le signe (+), puis sur Add new Recipe (Ajouter une recette).
Cloud Dataprep crée une recette et un ensemble de données formaté sous le nom Untitled recipe
(Recette sans titre).
-
Effectuez un clic droit sur ce nouvel ensemble de données formaté. Sélectionnez Edit name and description (Modifier le nom et la description) dans le menu déroulant.
-
Donnez-lui le nom
Combined Transactions
(Transactions combinées), puis cliquez sur OK.
- Double-cliquez sur Combined Transactions (Transactions combinées) pour modifier la recette. La recette s'ouvre alors dans l'outil "Transformer Grid" (Grille de transformation). Notez que les données présentes dans cette grille correspondent aux données structurées de l'ensemble de données
lab_2013_transactions.csv
.
Associer plusieurs ensembles de données ayant le même schéma par une transformation d'unification
- Avant d'effectuer une transformation, regardez en bas à gauche de l'outil "Transformer Grid" (Grille de transformation). Vous y trouverez des métadonnées :
Les métadonnées présentent la synthèse des données chargées dans la grille. Rappelez-vous que les données chargées sont un échantillon de l'ensemble de données complet, jusqu'à 10 Mo.
- Regardez en haut de l'outil de transformation, à côté du nom de la recette. Vous voyez ici l'échantillon qui est actuellement visible.
OU
L'échantillon affiché comprend les données initiales de la source. Pour les petits ensembles de données (de moins de 10 Mo), Dataprep charge l'intégralité de l'ensemble de données dans l'échantillon de données initiales.
- Cliquez sur l'icône Recette en haut.
-
Cliquez sur Add New Step (Ajouter une étape).
-
Saisissez "Union" (Unification) dans le champ de recherche, puis cliquez sur le résultat obtenu afin d'accéder à l'outil d'unification.
Le champ "Union Output" (Résultats de l'unification) affiche le schéma de sortie correspondant à l'ensemble de données. Chaque zone représente une colonne. Le schéma de sortie de Cloud Dataprep est basé sur le schéma de l'ensemble de données à partir duquel vous avez lancé l'unification. Dans cet exemple, les colonnes situées dans l'ensemble de données "Combined Transactions" (Transactions combinées) déterminent les colonnes qui s'affichent dans le résultat combiné.
-
Cliquez sur Add Data (Ajouter des données).
-
Cochez l'ensemble de données
lab_2014_transactions
. Dans le menu déroulant en bas à gauche, sélectionnezAlign By Name
(Aligner par nom), puis cliquez sur Apply (Appliquer). -
Cliquez sur Add to Recipe (Ajouter à la recette) pour combiner les ensembles de données. Après avoir ajouté l'unification au script, examinez la colonne
transaction_date
.
Cet ensemble de données inclut désormais les enregistrements allant de janvier 2013 à décembre 2014.
- Vous avez donc unifié deux des trois ensembles de données. Consultez les métadonnées qui devraient également faire apparaître des lignes supplémentaires.
Tâche 6 : Modifier les étapes de la recette
Quand on travaille avec des données, on est souvent amené à ajuster ou supprimer certaines transformations. Avec Dataprep, vous pouvez très facilement modifier vos recettes. Dans le cas présent, vous avez unifié deux ensembles de données sur trois. Au lieu de créer de toutes pièces une nouvelle étape pour unifier l'ensemble de données restant, vous pouvez modifier le travail effectué précédemment.
- Cliquez sur l'icône Annuler pour revenir à l'action précédente. Dans notre cas, il s'agit de l'étape "Union" (Unification).
Notez que votre recette est vide à présent. La grille et les métadonnées sont également actualisées de manière à afficher l'état d'origine.
-
Cliquez sur l'icône Répéter de sorte que l'étape "Union" (Unification) réapparaisse.
-
Dans le panneau "Recipe" (Recette), effectuez un clic droit sur l'étape "Union" (Unification) et sélectionnez Edit (Modifier).
-
L'outil d'unification s'affiche à nouveau. Cette fois, cliquez sur Add data (Ajouter des données), puis cochez l'ensemble de données
lab_2015_transactions
. Dans le menu déroulant en bas à gauche, sélectionnezAlign By Name
(Aligner par nom), puis cliquez sur Apply (Appliquer). -
Examinez les correspondances entre les colonnes. Cliquez sur Add to Recipe (Ajouter à la recette) pour combiner les trois ensembles de données.
-
Après avoir ajouté l'unification au script, examinez la colonne
transaction_date
.
Cet ensemble de données inclut désormais des enregistrements allant de janvier 2013 à décembre 2015. Combien de lignes apparaissent maintenant dans les métadonnées ?
- Cliquez sur le nom de flux
QWIKLAB1
pour revenir à la page d'affichage du flux.
Cet affichage est actualisé afin d'afficher la combinaison des trois ensembles de données relatives aux transactions en un ensemble de données "Combined Transactions" (Transactions combinées) unique.
Tâche 7 : Joindre les données des transactions aux données des clients
Maintenant que les ensembles de données sont combinés, vous allez enrichir les données relatives aux transactions à l'aide des informations sur le lieu des achats. Pour ce faire, vous allez joindre les données des clients aux données relatives aux transactions. Lorsque vous effectuez une jointure, veillez à traiter l'ensemble de données le plus volumineux comme ensemble principal, situé à gauche lors de la jointure. L'ensemble de données le moins important correspondra alors à l'ensemble de données associé, situé à droite lors de la jointure. Dans Cloud Dataprep, l'ensemble de données à partir duquel vous débutez une jointure devient automatiquement l'ensemble de données principal.
-
Double-cliquez sur Combined Transactions (Transactions combinées) pour modifier de nouveau la recette.
-
Cliquez sur l'icône Joindre dans la barre d'outils "Transformer" (Transformateur) pour ouvrir l'outil de jointure.
-
Cliquez sur l'ensemble de données
lab_customers
à intégrer dans l'autre ensemble de données, puis cliquez sur Accept (Accepter). -
Sur l'écran qui s'affiche, modifiez les clés et les conditions de la jointure. Un aperçu des correspondances avec les clés de jointure apparaît à gauche. Les options situées à droite vous permettent de modifier le type, les clés et les statistiques d'aperçu de la jointure. Dataprep tentera de déterminer automatiquement les clés de jointure en se basant sur les valeurs communes aux deux ensembles de données.
Vous pouvez éventuellement modifier les clés de jointure. Passez la souris sur la section "Join keys" (Clés de jointure), puis cliquez sur le crayon (icône de modification) pour modifier la clé de jointure ou sur Add (Ajouter) pour ajouter d'autres clés.
Pour ces ensembles de données, Cloud Dataprep a choisi une jointure interne portant sur la colonne customer_id
. Cela signifie que l'ensemble de données généré comprendra les enregistrements qui ont la même valeur pour customer_id.
-
Cliquez sur Next (Suivant).
-
Sur l'écran qui s'affiche, vous pouvez sélectionner les colonnes à inclure ou à exclure après la jointure. Dans le panneau Output Columns (Colonnes de la sortie), cochez la case associée aux champs suivants pour ajouter les colonnes correspondantes à la jointure :
customer_id (current)
transaction_date
ticket_price
product
address_state
address_zip
region
start_date
end_date
Toutes les colonnes que vous ne cochez pas seront exclues. Les résultats s'affichent comme suit :
- Cliquez sur Review (Aperçu) pour prévisualiser le résultat de votre jointure dans la grille de transformation.
- Cliquez sur Add to Recipe (Ajouter à la recette).
Tâche 8 : Créer des colonnes et en renommer
Pour finir, vous allez appliquer quelques opérations de nettoyage supplémentaires à vos données avant de les afficher dans votre rapport. Vous devez créer des colonnes contenant les valeurs que vous souhaitez utiliser comme critères de visualisation.
Nous allons découvrir un autre moyen de définir des transformations dans Dataprep, à partir des menus de colonne.
- Cliquez sur la flèche du menu déroulant à côté de transaction_date, puis sélectionnez Extract > Datetime > Year (YYYY) (date_transaction > Extraire > Date/Heure > Année (AAAA)).
Un nouvel outil de création de formules s'ouvre, prérempli avec les actions sélectionnées. Un aperçu est également généré dans la grille.
- Cliquez sur Add (Ajouter).
Notez qu'une colonne appelée year_transaction_date
(année_date_transaction) est créée. À l'étape précédente, vous avez eu la possibilité de définir le nom de la nouvelle colonne en modifiant la transformation. Si vous ne renseignez pas de nom, Dataprep génère une nouvelle colonne dont le nom est basé sur la transformation effectuée, ou appelée "column#" (colonne#) si vous n'avez sélectionné aucune colonne source.
-
Vous allez renommer cette colonne manuellement. Cliquez sur la flèche du menu déroulant à côté de year_transaction_date (année_date_transaction), puis sélectionnez Rename (Renommer).
-
Saisissez
activity_year
(année_activité) dans le champ. Cliquez sur Add (Ajouter) pour accepter les modifications.
Notez que vous pouvez renommer plusieurs colonnes avec cette transformation en cliquant sur Add (Ajouter) pour ajouter d'autres mappages.
Tâche 9 : Publier les résultats sur BigQuery
Vous venez de finir de préparer vos données et vous êtes prêt à produire un fichier de résultats dans Cloud Storage. Cloud Dataprep exécute votre recette de transformation des données afin de générer un fichier de résultats à l'aide du moteur BigQuery.
-
Cliquez sur Run (Exécuter) en haut à droite de la grille de transformation.
-
Dans la boîte de dialogue Run Job (Exécuter le job), vous pouvez configurer les paramètres d'exécution du job et la destination des résultats. Par défaut, Cloud Dataprep crée un fichier CSV sur Cloud Storage.
-
Passez la souris sur l'action de publication existante, puis cliquez sur Edit (Modifier) à droite.
-
Cliquez sur l'onglet BigQuery à gauche.
-
Sélectionnez la base de données
Dataprep
, puis cliquez sur le bouton Create a new table (Créer une table) à droite. -
Saisissez
transactions_by_customer
(transactions_par_client) comme nom de la nouvelle table, puis sélectionnez Append to this table every run (Ajouter à cette table à chaque exécution) comme option d'écriture. -
Cliquez en bas sur Update (Mettre à jour) pour actualiser les paramètres des résultats.
-
Cliquez sur Run (Exécuter) pour lancer le job BigQuery. Cette opération prend quelques minutes. Vous pouvez voir la progression du job sur la page "Jobs" de Dataprep. Une fois l'opération terminée, un message de réussite semblable au suivant apparaît et vos données sont chargées dans la nouvelle table BigQuery.
- Pointez sur le job terminé et cliquez sur Profile (Profil) pour afficher les données organisées. Celles-ci se présentent comme suit :
-
Vous pouvez consulter vos résultats par le biais d'une requête directe à BigQuery. Dans la console Google Cloud, accédez à ANALYSE > BigQuery. Cliquez sur l'ensemble de données
Dataprep
. -
Saisissez
select * from Dataprep.transactions_by_customer;
dans l'éditeur de requête. Cliquez sur Run (Exécuter) pour afficher les données qui ont été publiées.
Vous savez désormais utiliser l'outil Cloud Dataprep, ainsi que nettoyer et enrichir facilement plusieurs sources de données à l'aide de son interface intuitive et visuelle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Félicitations !
L'atelier "Utiliser Google Cloud Dataprep" est maintenant terminé. Dans cet atelier, vous avez commencé par créer des flux et transformer les données. Vous avez ensuite appris à utiliser l'UI de Dataprep pour filtrer les données désordonnées, unifier et joindre plusieurs fichiers, et créer et renommer des colonnes. Enfin, vous avez généré un fichier de résultats que vous avez exporté vers Google Cloud Storage.
Étapes suivantes et informations supplémentaires
Vous pouvez continuer à explorer Dataprep Professional Edition grâce à un essai gratuit de 30 jours en cliquant ici. Veillez à vous déconnecter de votre compte d'atelier temporaire et vous reconnecter avec votre adresse e-mail Google Cloud valide. Des fonctionnalités avancées, comme des options de connectivité supplémentaires, l'orchestration des pipelines et la qualité adaptable des données, sont également disponibles dans l'édition Premium que vous pouvez explorer dans Google Cloud Marketplace.
Consultez les guides d'utilisation pour apprendre à trouver, nettoyer et améliorer des données dans Google Dataprep.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 27 septembre 2023
Dernier test de l'atelier : 27 septembre 2023
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.