arrow_back

Créer un pipeline de transformation de données avec Cloud Dataprep

Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Créer un pipeline de transformation de données avec Cloud Dataprep

Atelier 1 heure 15 minutes universal_currency_alt 5 crédits show_chart Intermédiaire
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Nous avons développé cet atelier avec notre partenaire Alteryx. Vos informations personnelles pourront être partagées avec Alteryx, le collaborateur d'atelier, si vous avez accepté de recevoir des actualités sur les produits, des annonces et des offres sur la page de profil de votre compte.

GSP430

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement, de nettoyer et de préparer des données structurées ou non structurées à des fins d'analyse. Dans cet atelier, vous allez utiliser l'interface utilisateur (UI) de Dataprep afin de créer un pipeline de transformation de données qui génère des résultats dans BigQuery.

L'ensemble de données utilisé pour cet atelier est un ensemble de données d'e-commerce comprenant des millions d'enregistrements de session Google Analytics pour le Google Merchandise Store chargé dans BigQuery. Dans cet atelier, vous allez examiner les champs et lignes disponibles, et préparer les données pour l'analyse.

Objectifs de l'atelier

Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :

  • Connecter des ensembles de données BigQuery à Dataprep
  • Évaluer la qualité de l'ensemble de données à l'aide de Dataprep
  • Créer un pipeline de transformation de données avec Dataprep
  • Exécuter des jobs de transformation et envoyer les résultats à BigQuery

Préparation

Remarque : Pour effectuer cet atelier, vous devez utiliser Google Chrome. Les autres navigateurs ne sont actuellement pas compatibles avec Dataprep.

Nous vous recommandons de suivre l'atelier Utiliser Cloud Dataprep sur Google Cloud avant celui-ci.

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google Cloud
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).

    L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.

    {{{user_0.username | "Username"}}}

    Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.

  4. Cliquez sur Suivant.

  5. Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.

    {{{user_0.password | "Password"}}}

    Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.

  6. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  7. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas à des essais gratuits.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Pour afficher un menu contenant la liste des produits et services Google Cloud, cliquez sur le menu de navigation en haut à gauche. Icône du menu de navigation

Tâche 1 : Ouvrir Dataprep dans la console Google Cloud

  1. Ouvrez Cloud Shell et exécutez la commande suivante :
gcloud beta services identity create --service=dataprep.googleapis.com

Un message indiquant que l'identité du service a été créée doit s'afficher.

  1. Dans la console Cloud, accédez au menu de navigation, puis sous Analyse, sélectionnez Dataprep.

  2. Avant d'accéder à Dataprep, prenez connaissance des conditions d'utilisation de Google Dataprep, puis cliquez sur Accept (Accepter).

  3. Cochez la case et cliquez sur Agree and Continue (Accepter et continuer) lorsque vous êtes invité à partager les informations de votre compte avec Alteryx.

  4. Cliquez sur Allow (Autoriser) pour autoriser Alteryx à accéder à votre projet.

  5. Sélectionnez vos identifiants Qwiklabs pour vous connecter, puis cliquez sur Allow (Autoriser).

  6. Cochez la case et cliquez sur Accept (Accepter) pour accepter les conditions d'utilisation d'Alteryx.

  7. Si vous êtes invité à utiliser l'emplacement par défaut pour le bucket de stockage, cliquez sur Continue (Continuer).

Tâche 2 : Créer un ensemble de données BigQuery

Bien que cet atelier se concentre principalement sur Cloud Dataprep, vous devez utiliser BigQuery comme point de terminaison pour l'ingestion de l'ensemble de données dans le pipeline et comme destination du résultat une fois le pipeline terminé.

Pipeline Dataflow

  1. Dans la console Cloud, accédez au menu de navigation, puis cliquez sur BigQuery.

  2. Le message Bienvenue sur BigQuery dans la console Cloud s'affiche. Il contient un lien vers le guide de démarrage rapide et liste les mises à jour de l'interface utilisateur.

  3. Cliquez sur OK.

  4. Dans le volet Explorateur, sélectionnez le nom de votre projet :

Volet "Explorateur"

  1. Dans le volet de gauche, sous Explorateur, cliquez sur l'icône Afficher les actions (Icône Afficher les actions) à droite de l'ID de votre projet, puis sur Créer un ensemble de données.
  • Dans le champ ID de l'ensemble de données, saisissez ecommerce.
  • Conservez les valeurs par défaut dans les autres champs.
  1. Cliquez sur CRÉER L'ENSEMBLE DE DONNÉES. Votre ensemble de données s'affiche maintenant sous votre projet dans le volet de gauche.

  2. Copiez la requête SQL suivante, puis collez-la dans l'éditeur de requête :

#standardSQL CREATE OR REPLACE TABLE ecommerce.all_sessions_raw_dataprep OPTIONS( description="Raw data from analyst team to ingest into Cloud Dataprep" ) AS SELECT * FROM `data-to-insights.ecommerce.all_sessions_raw` WHERE date = '20170801'; # limiting to one day of data 56k rows for this lab
  1. Cliquez sur EXÉCUTER. Cette requête copie un sous-ensemble de l'ensemble de données d'e-commerce brut public (données d'une journée de session, soit environ 56 000 enregistrements) dans une nouvelle table nommée all_sessions_raw_dataprep, qui a été ajoutée à votre ensemble de données d'e-commerce pour que vous puissiez l'explorer et la nettoyer dans Cloud Dataprep.

  2. Vérifiez que la nouvelle table existe dans votre ensemble de données ecommerce :

Tâche 3 : Connecter des données BigQuery à Cloud Dataprep

Dans cette tâche, vous allez connecter Cloud Dataprep à votre source de données BigQuery. Sur la page Cloud Dataprep :

  1. Cliquez sur Create a flow (Créer un flux) en haut à droite.

  2. Renommez le flux Untitled Flow (Flux sans titre) et indiquez les informations suivantes :

  • Pour Flow Name (Nom du flux), saisissez Ecommerce Analytics Pipeline (Pipeline d'analyse de données d'e-commerce).
  • Pour Flow Description (Description du flux), saisissez Revenue reporting table (Table de rapport sur les revenus).
  1. Cliquez sur OK.

  2. Si le pop-up What's a flow? (Qu'est-ce qu'un flux ?) s'affiche, cliquez sur Don't show me any helpers (N'afficher aucune aide).

  3. Dans la zone sous "Dataset" (Ensemble de données), cliquez sur l'icône Add (Ajouter).

Icône Add (Ajouter) encadrée

  1. Dans la boîte de dialogue Add Datasets to Flow (Ajouter des ensembles de données au flux), sélectionnez Import Datasets (Importer des ensembles de données).

  2. Dans le volet de gauche, cliquez sur BigQuery.

  3. Une fois votre ensemble de données ecommerce chargé, cliquez dessus.

Ensemble de données "ecommerce" mis en évidence

  1. Cliquez sur l'icône Create dataset (Créer un ensemble de données) (signe +) située à gauche de la table all_sessions_raw_dataprep.

  2. Cliquez sur Import & Add to Flow (Importer et ajouter au flux) dans le coin inférieur droit.

La source de données est mise à jour automatiquement. Vous êtes prêt à passer à la tâche suivante.

Tâche 4 : Explorer les champs de données de l'ensemble "ecommerce" dans l'UI

Dans cette tâche, vous allez charger et explorer un échantillon de l'ensemble de données dans Cloud Dataprep.

  • Cliquez sur l'icône Recipe (Recette), puis sélectionnez Edit Recipe (Modifier la recette).

Icône Recipe (Recette) et bouton "Edit Recipe" (Modifier la recette) encadrés

Cloud Dataprep charge un échantillon de votre ensemble de données dans la vue "Transformer" (Transformateur). Ce processus peut prendre quelques secondes. Vous êtes maintenant prêt à explorer les données.

Répondez aux questions suivantes :

  • Combien de colonnes l'ensemble de données comprend-il ?

Ensemble de données

Réponse : 32 colonnes.

  • Combien de lignes l'échantillon comprend-il ?

Ensemble de données

Réponse : Environ 12 000 lignes.

  • Quelle est la valeur la plus commune dans la colonne channelGrouping ?
Indice : Pour le savoir, pointez le curseur de votre souris sur l'histogramme situé sous le titre de la colonne channelGrouping.

Colonne "channelGrouping"

Réponse : "Referral" (Référence). Un site référent désigne généralement tout site Web contenant un lien vers votre contenu. Par exemple, un site Web différent a évalué un produit de notre site Web d'e-commerce et renvoie vers celui-ci. Dans ce cas, on parle d'un canal d'acquisition différent de celui des résultats des moteurs de recherche.

Remarque : Lorsque vous recherchez une colonne spécifique, cliquez sur l'icône Find column (Trouver une colonne) Icône Find column (Trouver une colonne) située en haut à droite, puis commencez à saisir le nom de la colonne dans la zone de texte Find column (Trouver une colonne). Ensuite, cliquez sur le nom de la colonne. La grille défile automatiquement pour faire apparaître la colonne concernée.
  • Les sessions sont créées depuis trois principaux pays. Lesquels ?

Ensemble de données "country"

Réponse : États-Unis, Inde et Royaume-Uni

  • Que représente la barre grise sous totalTransactionRevenue ?

Barre sous "totalTransactionRevenue"

Réponse : Les valeurs manquantes pour le champ totalTransactionRevenue. Cela signifie qu'un grand nombre de sessions de cet échantillon n'a pas généré de revenus. Plus tard, nous filtrerons ces valeurs afin que notre table finale ne contienne que les transactions des clients et les revenus associés.

  • Quels sont la valeur la plus élevée de timeOnSite en secondes, le nombre maximal de pageviews et le nombre maximal de sessionQualityDim pour l'échantillon de données ? Indice : ouvrez le menu situé à droite de la colonne timeOnSite en cliquant sur Flèche du menu déroulant, puis sélectionnez Column Details (Détails de la colonne).

Ensembles de données "timeOnSite" et "maximum pageviews"

Page contenant l'onglet "Overview" (Aperçu) de timeOnSite

Pour fermer la fenêtre des détails, cliquez sur le bouton X Close Column Details (Fermer les détails de la colonne) situé en haut à droite. Répétez ensuite l'étape précédente pour afficher les détails des colonnes pageviews et sessionQualityDim.

Bouton "Close" (Fermer)

Réponses :

  • Maximum Time On Site (Temps maximal passé sur le site) : 5 561 secondes (ou 92 minutes)
  • Maximum Pageviews (Nombre maximal de pages vues) : 155 pages
  • Maximum Session Quality Dimension (Dimension qualitative maximale de la session) : 97
Remarque : Les réponses concernant les nombres maximaux peuvent varier légèrement en fonction de l'échantillon de données utilisé par Cloud Dataprep. Remarque sur les moyennes : faites très attention lorsque vous effectuez des agrégations telles que des moyennes sur une colonne de données. Nous devons d'abord nous assurer que les champs comme timeOnSite ne sont comptés qu'une seule fois par session. Nous explorerons l'unicité des données de visiteur et de session dans un prochain atelier.
  • Si on considère l'histogramme sessionQualityDim, les valeurs de données sont-elles réparties de manière uniforme ?

Histogramme "sessionQualityDim"

Réponse : Non, les valeurs sont majoritairement faibles (sessions de mauvaise qualité), comme prévu.

  • Quelle est la plage de dates pour l'ensemble de données ? Indice : Examinez le champ date.

Réponse : 01/08/2017 (un jour de données)

  • Il est possible qu'une barre rouge s'affiche sous la colonne productSKU. Si tel est le cas, qu'est-ce que cela signifie ?

Colonne "productSKU"

Réponse : Une barre rouge indique des valeurs non concordantes. Pendant l'échantillonnage des données, Cloud Dataprep tente d'identifier automatiquement le type de chaque colonne. Si aucune barre rouge n'apparaît pour la colonne productSKU, cela signifie que Cloud Dataprep a réussi à identifier le type de colonne, c'est-à-dire le type String (Chaîne). Si une barre rouge s'affiche, cela signifie que Cloud Dataprep a repéré suffisamment de valeurs numériques lors de l'échantillonnage pour déterminer (de manière incorrecte) que le type de colonne devrait être Integer (Entier). Cloud Dataprep a également détecté des valeurs non entières et a donc marqué ces valeurs comme incompatibles. En réalité, productSKU ne correspond pas toujours à un entier (par exemple, "GGOEGOCD078399" peut être une valeur correcte). Dans ce cas, Cloud Dataprep a donc identifié de manière incorrecte le type de colonne, qui devrait être une chaîne et non un entier. Vous corrigerez cela plus tard dans l'atelier.

  • Si on considère la colonne v2ProductName, quels sont les produits les plus populaires ?

Colonne "v2ProductName"

Réponse : Les produits Nest

  • Si on considère la colonne v2ProductCategory, quelles sont les catégories de produits les plus populaires ?

Colonne "v2ProductCategory"

Réponses :

Les catégories de produits les plus populaires sont les suivantes :

  • Nest

  • Bags

  • (not set) (non défini) (ce qui signifie que certaines sessions ne sont associées à aucune catégorie)

  • Vrai ou faux ? La variante productVariant la plus courante est COLOR.

Réponse : Faux. Il s'agit de (not set) (non défini), car aucune variante n'est disponible pour la plupart des produits (plus de 80 %).

  • Quelles sont les deux valeurs de la colonne type ?

Réponse : PAGE et EVENT (ÉVÉNEMENT).

Un utilisateur peut générer de nombreux types d'interactions lorsqu'il navigue sur votre site Web. On peut par exemple citer l'enregistrement de données de session lorsqu'il consulte une PAGE ou un EVENT (Événement) spécial (comme "clicking on a product" [cliquer sur un produit]). Plusieurs types de résultats peuvent être déclenchés exactement au même moment. Vous filtrerez donc souvent les résultats par type pour éviter de les comptabiliser deux fois. Nous en reparlerons ultérieurement, lors d'un atelier d'analyse.

  • Quel est le nombre maximal de productQuantity ?

Réponse : 100 (votre réponse peut varier)

productQuantity indique le nombre d'unités du produit qui ont été ajoutées au panier. "100" signifie que 100 unités d'un seul produit ont été ajoutées.

  • Quel est le principal currencyCode pour les transactions ?

Réponse : USD (dollar américain)

  • Existe-t-il des valeurs valides pour itemQuantity ou itemRevenue ?

Réponse : Non, toutes les valeurs sont NULL (ou manquantes).

Remarque : Après l'exploration, vous trouverez peut-être des colonnes en double ou obsolètes dans certains ensembles de données. Nous utiliserons plutôt les champs "productQuantity" et "productRevenue", et supprimerons plus tard les champs "itemQuantity" et "itemRevenue", afin d'éviter toute confusion chez les utilisateurs du rapport.
  • Quel pourcentage de valeurs transactionId est valide ? À quoi est-ce que cela correspond pour notre ensemble de données ecommerce ?

Onglet "Overview" (Aperçu) de transactionId

  • Réponse : Environ 4,6 % des ID de transaction sont valides, ce qui correspond au taux de conversion moyen du site Web (4,6 % des visiteurs effectuent au moins une transaction).
  • Combien existe-t-il de valeurs eCommerceAction_type et quelle est la valeur la plus courante ?
Indice : Comptez le nombre de colonnes de l'histogramme.

Valeurs "eCommerceAction_type"

Réponses : Il y a sept valeurs dans notre échantillon. La valeur la plus courante est zéro (0), ce qui indique que le type est inconnu. Ce constat est logique dans la mesure où la majorité des sessions sur notre site Web n'aboutissent à aucune transaction, car les utilisateurs ne font que consulter le contenu du site.

  • Selon le schéma, à quoi correspond eCommerceAction_type = 6 ?
Indice : Recherchez le type eCommerceAction et lisez la description du mappage.

Réponse : 6 correspond à "Completed purchase" (Achat effectué). Plus tard dans cet atelier, nous ingérerons cette mise en correspondance dans notre pipeline de données.

Chaîne "commerceAction.action_type"

Tâche 5 : Nettoyer les données

Dans cette tâche, vous allez nettoyer les données en supprimant les colonnes inutilisées, en éliminant les doublons, en créant des champs calculés et en filtrant les lignes non souhaitées.

Convertir le type de données de la colonne productSKU

  1. Pour vous assurer que le type de la colonne productSKU est String (Chaîne), cliquez sur Flèche du menu déroulant pour ouvrir le menu situé à droite de la colonne productSKU, puis sélectionnez Change type > String (Changer de type > Chaîne).

productSKU > Change type > String (productSKU > Changer de type > Chaîne)

  1. Vérifiez que la première étape de votre pipeline de transformation de données a été créée en cliquant sur l'icône Recipe (Recette) :

Icône Recipe (Recette)

Remarque : Si la recette apparaît comme verrouillées, cliquez sur "Edit" (Modifier) et décochez l'option permettant de verrouiller le type de colonne.

Supprimer les colonnes inutilisées

Comme nous l'avons mentionné précédemment, nous allons supprimer les colonnes itemQuantity et itemRevenue, car elles ne contiennent que des valeurs NULL, sans intérêt dans cet atelier.

  1. Ouvrez le menu de la colonne itemQuantity, puis cliquez sur Delete (Supprimer).

Colonne "itemQuantity" avec l'option de menu "Delete" (Supprimer) encadrée

  1. Procédez de la même manière pour supprimer la colonne itemRevenue.

Dédupliquer les lignes

Votre équipe vous a informé que l'ensemble de données source pouvait contenir des doublons. Supprimons-les grâce à une étape de déduplication.

  1. Cliquez sur l'icône Filter rows (Filtrer les lignes) dans la barre d'outils, puis sur Remove duplicate rows (Supprimer les lignes en double).

Icône du menu déroulant Filter rows (Filtrer les lignes) et option "Remove duplicate rows" (Supprimer les lignes en double) encadrées

  1. Cliquez sur Add (Ajouter) dans le panneau de droite.

  2. Passez en revue la recette que vous avez créée jusqu'à présent. Elle doit ressembler à ceci :

Recette en quatre étapes

Filtrer les sessions sans revenus

Votre équipe vous a demandé de créer une table de toutes les sessions d'utilisateurs ayant acheté au moins un article sur votre site Web. Filtrez les sessions utilisateur avec un revenu NULL.

  1. Sous la colonne totalTransactionRevenue, cliquez sur la barre grise Missing values (Valeurs manquantes). Toutes les lignes avec une valeur manquante pour totalTransactionRevenue sont maintenant mises en surbrillance en rouge.
  2. Dans le panneau Suggestions, dans Delete rows (Supprimer les lignes), cliquez sur Add (Ajouter).

Panneau "Suggestions"

Cette étape filtre votre ensemble de données afin de n'inclure que les transactions générant des revenus (où totalTransactionRevenue n'est pas NULL).

Filtrer les sessions en fonction des vues de PAGE

L'ensemble de données contient des sessions de différents types, par exemple PAGE (pour les pages vues) ou EVENT (ÉVÉNEMENT) (pour des événements déclenchés, tels que "viewed product categories" [catégories de produits visualisées] ou "added to cart" [ajouté au panier]). Pour éviter de comptabiliser deux fois les pages vues de la session, ajoutez un filtre afin de n'inclure que les résultats liés à une vue de page.

  1. Dans l'histogramme situé sous la colonne type, cliquez sur la barre PAGE. Toutes les lignes de type PAGE sont maintenant mises en surbrillance en vert.

  2. Dans le panneau Suggestions, dans Keep rows (Conserver les lignes), cliquez sur Add (Ajouter).

Tâche 6 : Enrichir les données

Dans la documentation sur le schéma, consultez la description de visitId pour déterminer si cette valeur est propre à toutes les sessions utilisateur ou juste à l'utilisateur.

  • visitId : identifiant de cette session. Il fait partie de la valeur généralement stockée sous forme de cookie utmb. Il est propre à cet utilisateur. Pour obtenir un identifiant parfaitement unique, vous devez combiner les valeurs des champs fullVisitorId et visitId.

Comme vous pouvez le voir, visitId n'est pas unique pour tous les utilisateurs. Nous devrons créer un identifiant unique.

Créer une colonne pour un identifiant de session unique

Comme vous l'avez découvert, l'ensemble de données ne comprend pas de colonne pour les sessions de visiteur unique. Créez un identifiant unique pour chaque session en concaténant les champs fullVisitorId et visitId.

  1. Cliquez sur l'icône Merge columns (Fusionner les colonnes) de la barre d'outils.

Icône Merge columns (Fusionner les colonnes)

  1. Dans le champ Columns (Colonnes), sélectionnez fullVisitorId et visitId.

  2. Dans le champ Separator (Séparateur), saisissez un trait d'union : -.

  3. Dans le champ New column name (Nom de la nouvelle colonne), saisissez unique_session_id.

Panneau "Merge columns" (Fusionner les colonnes)

  1. Cliquez sur Add (Ajouter).

La colonne unique_session_id est maintenant une combinaison de fullVisitorId et visitId. Dans un prochain atelier, nous étudierons si chaque ligne de cet ensemble de données se situe au niveau de la session unique (une ligne par session utilisateur) ou à un niveau encore plus granulaire.

Créer une instruction de cas pour le type d'action d'e-commerce

Comme vous l'avez vu précédemment, les valeurs de la colonne eCommerceAction_type sont des entiers correspondant aux actions d'e-commerce effectuées dans cette session. Par exemple, 3 = "Add to Cart" (Ajouter au panier) ou 5 = "Check out" (Paiement). Cette mise en correspondance n'est pas évidente pour nos utilisateurs finaux. Créons donc un champ calculé qui ajoute le nom de la valeur.

  1. Cliquez sur Conditions dans la barre d'outils, puis sur Case on single column (Cas sur une seule colonne).

Icône du menu déroulant Conditions et option "Case on single column" (Cas sur une seule colonne) encadrées

  1. Pour Column to evaluate (Colonne à évaluer), indiquez eCommerceAction_type.

  2. À côté de Cases (1) (Cas [1]), cliquez sur Add (Ajouter) huit fois pour un total de neuf cas.

Section "Conditions"

  1. Pour chaque cas, indiquez les valeurs de mise en correspondance suivantes (en incluant les apostrophes) :

Comparaison

Nouvelle valeur

0

'Unknown' (Inconnu)

1

'Click through of product lists' (Clic dans des listes de produits)

2

'Product detail views' (Vues de détails produit)

3

'Add product(s) to cart' (Ajout du/des produit(s) au panier)

4

'Remove product(s) from cart' (Suppression du/des produit(s) du panier)

5

'Check out' (Paiement)

6

'Completed purchase' (Achat effectué)

7

'Refund of purchase' (Remboursement d'achat)

8

'Checkout options' (Options de paiement)

Panneau "Conditions" avec un aperçu de la colonne "eCommerceAction_type" évaluée

  1. Dans le champ New column name (Nom de la nouvelle colonne), saisissez eCommerceAction_label. Conservez les valeurs par défaut des autres champs.

  2. Cliquez sur Add (Ajouter).

Ajuster les valeurs de la colonne totalTransactionRevenue

Comme indiqué dans le schéma, la colonne totalTransactionRevenue contient des valeurs transmises à Analytics multipliées par 10^6 (par ex., 2,40 sera noté 2400000). Divisez maintenant le contenu de cette colonne par 10^6 pour obtenir les valeurs d'origine.

  1. Cliquez sur Flèche du menu déroulant pour ouvrir le menu situé à droite de la colonne totalTransactionRevenue, puis sélectionnez Calculate > Custom formula (Calculer > Formule personnalisée).

Option "Custom formula" (Formule personnalisée) encadrée

  1. Pour Formula (Formule), saisissez DIVIDE(totalTransactionRevenue,1000000), et pour New column name (Nom de la nouvelle colonne), saisissez totalTransactionRevenue1. Un aperçu de la transformation est affiché :

Aperçu

  1. Cliquez sur Add (Ajouter).
Remarque : Il est possible qu'une barre rouge s'affiche sous la colonne totalTransactionRevenue1. Cliquez sur 93c14cbf1f70a561.png pour ouvrir le menu situé à droite de la colonne totalTransactionRevenue1, puis sélectionnez Change type > Decimal (Changer de type > Décimal).
  1. Passez en revue la liste complète des étapes de votre recette :

Recette complète

  1. Cliquez sur Run (Exécuter).

Tâche 7 : Exécuter des jobs Cloud Dataprep dans BigQuery

  1. Sur la page Run Job (Exécuter le job), sélectionnez Dataflow + BigQuery comme Running Environment (Environnement d'exécution).

  2. Sous Publishing Actions (Actions de publication), cliquez sur Edit (Modifier) à droite de Create-CSV.

  3. Sur la page suivante, sélectionnez BigQuery dans le menu de gauche.

  4. Sélectionnez votre ensemble de données ecommerce.

  5. Cliquez sur Create a New Table (Créer une table) dans le panneau à droite.

  6. Nommez votre table revenue_reporting.

  7. Sélectionnez Drop the Table every run (Supprimer la table à chaque exécution).

  8. Cliquez sur Update (Mettre à jour).

  9. Cliquez sur EXÉCUTER.

Une fois votre job Cloud Dataprep exécuté, actualisez votre page BigQuery et vérifiez que la table de sortie revenue_reporting existe.

Remarque : Si le job échoue, attendez une minute, cliquez sur le bouton Retour de votre navigateur, puis exécutez à nouveau le job avec les mêmes paramètres.

Cliquez sur Vérifier ma progression pour valider l'objectif. Vérifiez si les jobs Cloud Dataprep envoient des données à BigQuery

Félicitations !

Vous avez exploré votre ensemble de données "ecommerce" et créé un pipeline de transformation de données avec Cloud Dataprep.

Étapes suivantes et informations supplémentaires

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 11 février 2024

Dernier test de l'atelier : 20 septembre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible