
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Run Cloud Dataprep jobs to BigQuery
/ 100
Nous avons développé cet atelier avec notre partenaire Alteryx. Vos informations personnelles pourront être partagées avec Alteryx, le collaborateur d'atelier, si vous avez accepté de recevoir des actualités sur les produits, des annonces et des offres sur la page de profil de votre compte.
Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement, de nettoyer et de préparer des données structurées ou non structurées à des fins d'analyse. Dans cet atelier, vous allez utiliser l'interface utilisateur (UI) de Dataprep afin de créer un pipeline de transformation de données qui génère des résultats dans BigQuery.
L'ensemble de données utilisé pour cet atelier est un ensemble de données d'e-commerce comprenant des millions d'enregistrements de session Google Analytics pour le Google Merchandise Store chargé dans BigQuery. Dans cet atelier, vous allez examiner les champs et lignes disponibles, et préparer les données pour l'analyse.
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
Nous vous recommandons de suivre l'atelier Utiliser Cloud Dataprep sur Google Cloud avant celui-ci.
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Accédez aux pages suivantes :
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Un message indiquant que l'identité du service a été créée doit s'afficher.
Dans la console Cloud, accédez au menu de navigation, puis sous Analyse, sélectionnez Dataprep.
Avant d'accéder à Dataprep, prenez connaissance des conditions d'utilisation de Google Dataprep, puis cliquez sur Accept (Accepter).
Cochez la case et cliquez sur Agree and Continue (Accepter et continuer) lorsque vous êtes invité à partager les informations de votre compte avec Alteryx.
Cliquez sur Allow (Autoriser) pour autoriser Alteryx à accéder à votre projet.
Sélectionnez vos identifiants Qwiklabs pour vous connecter, puis cliquez sur Allow (Autoriser).
Cochez la case et cliquez sur Accept (Accepter) pour accepter les conditions d'utilisation d'Alteryx.
Si vous êtes invité à utiliser l'emplacement par défaut pour le bucket de stockage, cliquez sur Continue (Continuer).
Bien que cet atelier se concentre principalement sur Cloud Dataprep, vous devez utiliser BigQuery comme point de terminaison pour l'ingestion de l'ensemble de données dans le pipeline et comme destination du résultat une fois le pipeline terminé.
Dans la console Cloud, accédez au menu de navigation, puis cliquez sur BigQuery.
Le message Bienvenue sur BigQuery dans la console Cloud s'affiche. Il contient un lien vers le guide de démarrage rapide et liste les mises à jour de l'interface utilisateur.
Cliquez sur OK.
Dans le volet Explorateur, sélectionnez le nom de votre projet :
ecommerce
.Cliquez sur CRÉER L'ENSEMBLE DE DONNÉES. Votre ensemble de données s'affiche maintenant sous votre projet dans le volet de gauche.
Copiez la requête SQL suivante, puis collez-la dans l'éditeur de requête :
Cliquez sur EXÉCUTER. Cette requête copie un sous-ensemble de l'ensemble de données d'e-commerce brut public (données d'une journée de session, soit environ 56 000 enregistrements) dans une nouvelle table nommée all_sessions_raw_dataprep
, qui a été ajoutée à votre ensemble de données d'e-commerce pour que vous puissiez l'explorer et la nettoyer dans Cloud Dataprep.
Vérifiez que la nouvelle table existe dans votre ensemble de données ecommerce
:
Dans cette tâche, vous allez connecter Cloud Dataprep à votre source de données BigQuery. Sur la page Cloud Dataprep :
Cliquez sur Create a flow (Créer un flux) en haut à droite.
Renommez le flux Untitled Flow (Flux sans titre) et indiquez les informations suivantes :
Ecommerce Analytics Pipeline
(Pipeline d'analyse de données d'e-commerce).Revenue reporting table
(Table de rapport sur les revenus).Cliquez sur OK.
Si le pop-up What's a flow?
(Qu'est-ce qu'un flux ?) s'affiche, cliquez sur Don't show me any helpers (N'afficher aucune aide).
Dans la zone sous "Dataset" (Ensemble de données), cliquez sur l'icône Add (Ajouter).
Dans la boîte de dialogue Add Datasets to Flow (Ajouter des ensembles de données au flux), sélectionnez Import Datasets (Importer des ensembles de données).
Dans le volet de gauche, cliquez sur BigQuery.
Une fois votre ensemble de données ecommerce chargé, cliquez dessus.
Cliquez sur l'icône Create dataset (Créer un ensemble de données) (signe +) située à gauche de la table all_sessions_raw_dataprep
.
Cliquez sur Import & Add to Flow (Importer et ajouter au flux) dans le coin inférieur droit.
La source de données est mise à jour automatiquement. Vous êtes prêt à passer à la tâche suivante.
Dans cette tâche, vous allez charger et explorer un échantillon de l'ensemble de données dans Cloud Dataprep.
Cloud Dataprep charge un échantillon de votre ensemble de données dans la vue "Transformer" (Transformateur). Ce processus peut prendre quelques secondes. Vous êtes maintenant prêt à explorer les données.
Répondez aux questions suivantes :
Réponse : 32 colonnes.
Réponse : Environ 12 000 lignes.
channelGrouping
?channelGrouping
.
Réponse : "Referral" (Référence). Un site référent désigne généralement tout site Web contenant un lien vers votre contenu. Par exemple, un site Web différent a évalué un produit de notre site Web d'e-commerce et renvoie vers celui-ci. Dans ce cas, on parle d'un canal d'acquisition différent de celui des résultats des moteurs de recherche.
Réponse : États-Unis, Inde et Royaume-Uni
Réponse : Les valeurs manquantes pour le champ totalTransactionRevenue
. Cela signifie qu'un grand nombre de sessions de cet échantillon n'a pas généré de revenus. Plus tard, nous filtrerons ces valeurs afin que notre table finale ne contienne que les transactions des clients et les revenus associés.
timeOnSite
en secondes, le nombre maximal de pageviews
et le nombre maximal de sessionQualityDim
pour l'échantillon de données ? Indice : ouvrez le menu situé à droite de la colonne timeOnSite
en cliquant sur Pour fermer la fenêtre des détails, cliquez sur le bouton X Close Column Details (Fermer les détails de la colonne) situé en haut à droite. Répétez ensuite l'étape précédente pour afficher les détails des colonnes pageviews
et sessionQualityDim
.
Réponses :
timeOnSite
ne sont comptés qu'une seule fois par session. Nous explorerons l'unicité des données de visiteur et de session dans un prochain atelier.
sessionQualityDim
, les valeurs de données sont-elles réparties de manière uniforme ?Réponse : Non, les valeurs sont majoritairement faibles (sessions de mauvaise qualité), comme prévu.
Réponse : 01/08/2017 (un jour de données)
productSKU
. Si tel est le cas, qu'est-ce que cela signifie ?Réponse : Une barre rouge indique des valeurs non concordantes. Pendant l'échantillonnage des données, Cloud Dataprep tente d'identifier automatiquement le type de chaque colonne. Si aucune barre rouge n'apparaît pour la colonne productSKU
, cela signifie que Cloud Dataprep a réussi à identifier le type de colonne, c'est-à-dire le type String (Chaîne). Si une barre rouge s'affiche, cela signifie que Cloud Dataprep a repéré suffisamment de valeurs numériques lors de l'échantillonnage pour déterminer (de manière incorrecte) que le type de colonne devrait être Integer (Entier). Cloud Dataprep a également détecté des valeurs non entières et a donc marqué ces valeurs comme incompatibles. En réalité, productSKU
ne correspond pas toujours à un entier (par exemple, "GGOEGOCD078399" peut être une valeur correcte). Dans ce cas, Cloud Dataprep a donc identifié de manière incorrecte le type de colonne, qui devrait être une chaîne et non un entier. Vous corrigerez cela plus tard dans l'atelier.
v2ProductName
, quels sont les produits les plus populaires ?Réponse : Les produits Nest
v2ProductCategory
, quelles sont les catégories de produits les plus populaires ?Réponses :
Les catégories de produits les plus populaires sont les suivantes :
Nest
Bags
(not set) (non défini) (ce qui signifie que certaines sessions ne sont associées à aucune catégorie)
Vrai ou faux ? La variante productVariant
la plus courante est COLOR
.
Réponse : Faux. Il s'agit de (not set) (non défini), car aucune variante n'est disponible pour la plupart des produits (plus de 80 %).
Réponse : PAGE
et EVENT
(ÉVÉNEMENT).
Un utilisateur peut générer de nombreux types d'interactions lorsqu'il navigue sur votre site Web. On peut par exemple citer l'enregistrement de données de session lorsqu'il consulte une PAGE ou un EVENT (Événement) spécial (comme "clicking on a product" [cliquer sur un produit]). Plusieurs types de résultats peuvent être déclenchés exactement au même moment. Vous filtrerez donc souvent les résultats par type pour éviter de les comptabiliser deux fois. Nous en reparlerons ultérieurement, lors d'un atelier d'analyse.
productQuantity
?Réponse : 100 (votre réponse peut varier)
productQuantity
indique le nombre d'unités du produit qui ont été ajoutées au panier. "100" signifie que 100 unités d'un seul produit ont été ajoutées.
currencyCode
pour les transactions ?Réponse : USD (dollar américain)
itemQuantity
ou itemRevenue
?Réponse : Non, toutes les valeurs sont NULL
(ou manquantes).
transactionId
est valide ? À quoi est-ce que cela correspond pour notre ensemble de données ecommerce
?eCommerceAction_type
et quelle est la valeur la plus courante ?Réponses : Il y a sept valeurs dans notre échantillon. La valeur la plus courante est zéro (0
), ce qui indique que le type est inconnu. Ce constat est logique dans la mesure où la majorité des sessions sur notre site Web n'aboutissent à aucune transaction, car les utilisateurs ne font que consulter le contenu du site.
eCommerceAction_type = 6
?eCommerceAction
et lisez la description du mappage.
Réponse : 6 correspond à "Completed purchase" (Achat effectué). Plus tard dans cet atelier, nous ingérerons cette mise en correspondance dans notre pipeline de données.
Dans cette tâche, vous allez nettoyer les données en supprimant les colonnes inutilisées, en éliminant les doublons, en créant des champs calculés et en filtrant les lignes non souhaitées.
Comme nous l'avons mentionné précédemment, nous allons supprimer les colonnes itemQuantity et itemRevenue, car elles ne contiennent que des valeurs NULL, sans intérêt dans cet atelier.
Votre équipe vous a informé que l'ensemble de données source pouvait contenir des doublons. Supprimons-les grâce à une étape de déduplication.
Cliquez sur Add (Ajouter) dans le panneau de droite.
Passez en revue la recette que vous avez créée jusqu'à présent. Elle doit ressembler à ceci :
Votre équipe vous a demandé de créer une table de toutes les sessions d'utilisateurs ayant acheté au moins un article sur votre site Web. Filtrez les sessions utilisateur avec un revenu NULL.
Cette étape filtre votre ensemble de données afin de n'inclure que les transactions générant des revenus (où totalTransactionRevenue n'est pas NULL).
L'ensemble de données contient des sessions de différents types, par exemple PAGE (pour les pages vues) ou EVENT (ÉVÉNEMENT) (pour des événements déclenchés, tels que "viewed product categories" [catégories de produits visualisées] ou "added to cart" [ajouté au panier]). Pour éviter de comptabiliser deux fois les pages vues de la session, ajoutez un filtre afin de n'inclure que les résultats liés à une vue de page.
Dans l'histogramme situé sous la colonne type, cliquez sur la barre PAGE. Toutes les lignes de type PAGE sont maintenant mises en surbrillance en vert.
Dans le panneau Suggestions, dans Keep rows (Conserver les lignes), cliquez sur Add (Ajouter).
Dans la documentation sur le schéma, consultez la description de visitId pour déterminer si cette valeur est propre à toutes les sessions utilisateur ou juste à l'utilisateur.
visitId
: identifiant de cette session. Il fait partie de la valeur généralement stockée sous forme de cookie utmb
. Il est propre à cet utilisateur. Pour obtenir un identifiant parfaitement unique, vous devez combiner les valeurs des champs fullVisitorId et visitId.Comme vous pouvez le voir, visitId
n'est pas unique pour tous les utilisateurs. Nous devrons créer un identifiant unique.
Comme vous l'avez découvert, l'ensemble de données ne comprend pas de colonne pour les sessions de visiteur unique. Créez un identifiant unique pour chaque session en concaténant les champs fullVisitorId et visitId.
Dans le champ Columns (Colonnes), sélectionnez fullVisitorId
et visitId
.
Dans le champ Separator (Séparateur), saisissez un trait d'union : -
.
Dans le champ New column name (Nom de la nouvelle colonne), saisissez unique_session_id
.
La colonne unique_session_id
est maintenant une combinaison de fullVisitorId
et visitId
. Dans un prochain atelier, nous étudierons si chaque ligne de cet ensemble de données se situe au niveau de la session unique (une ligne par session utilisateur) ou à un niveau encore plus granulaire.
Comme vous l'avez vu précédemment, les valeurs de la colonne eCommerceAction_type
sont des entiers correspondant aux actions d'e-commerce effectuées dans cette session. Par exemple, 3 = "Add to Cart" (Ajouter au panier) ou 5 = "Check out" (Paiement). Cette mise en correspondance n'est pas évidente pour nos utilisateurs finaux. Créons donc un champ calculé qui ajoute le nom de la valeur.
Pour Column to evaluate (Colonne à évaluer), indiquez eCommerceAction_type
.
À côté de Cases (1) (Cas [1]), cliquez sur Add (Ajouter) huit fois pour un total de neuf cas.
Comparaison |
Nouvelle valeur |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Dans le champ New column name (Nom de la nouvelle colonne), saisissez eCommerceAction_label
. Conservez les valeurs par défaut des autres champs.
Cliquez sur Add (Ajouter).
Comme indiqué dans le schéma, la colonne totalTransactionRevenue contient des valeurs transmises à Analytics multipliées par 10^6 (par ex., 2,40 sera noté 2400000). Divisez maintenant le contenu de cette colonne par 10^6 pour obtenir les valeurs d'origine.
DIVIDE(totalTransactionRevenue,1000000)
, et pour New column name (Nom de la nouvelle colonne), saisissez totalTransactionRevenue1
. Un aperçu de la transformation est affiché :totalTransactionRevenue1
. Cliquez sur totalTransactionRevenue1
, puis sélectionnez Change type > Decimal (Changer de type > Décimal).Sur la page Run Job (Exécuter le job), sélectionnez Dataflow + BigQuery comme Running Environment (Environnement d'exécution).
Sous Publishing Actions (Actions de publication), cliquez sur Edit (Modifier) à droite de Create-CSV.
Sur la page suivante, sélectionnez BigQuery dans le menu de gauche.
Sélectionnez votre ensemble de données ecommerce.
Cliquez sur Create a New Table (Créer une table) dans le panneau à droite.
Nommez votre table revenue_reporting.
Sélectionnez Drop the Table every run (Supprimer la table à chaque exécution).
Cliquez sur Update (Mettre à jour).
Cliquez sur EXÉCUTER.
Une fois votre job Cloud Dataprep exécuté, actualisez votre page BigQuery et vérifiez que la table de sortie revenue_reporting existe.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous avez exploré votre ensemble de données "ecommerce" et créé un pipeline de transformation de données avec Cloud Dataprep.
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 11 février 2024
Dernier test de l'atelier : 20 septembre 2023
Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
One lab at a time
Confirm to end all existing labs and start this one