Points de contrôle
Create a Dataplex lake with two zones and two assets
/ 20
Create and apply a tag template to a zone
/ 20
Assign a Dataplex IAM role to another user
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Build a Data Mesh with Dataplex : atelier challenge
- GSP514
- Présentation
- Préparation
- Scénario du challenge
- Tâche 1 : Créer un lac Dataplex avec deux zones et deux éléments
- Tâche 2 : Créer un modèle de tag et l'appliquer à une zone
- Tâche 3 : Attribuer un rôle IAM Dataplex à un autre utilisateur
- Tâche 4 : Créer et importer un fichier de spécification de qualité des données dans Cloud Storage
- Tâche 5 : Définir et exécuter un job d'évaluation de la qualité des données dans Dataplex
- Félicitations !
GSP514
Présentation
Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers de la quête correspondante pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).
Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.
Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Scénario du challenge
Vous venez d'être embauché en tant qu'ingénieur de données junior. Jusqu'à présent, vous avez aidé des équipes à créer et gérer des éléments Dataplex.
Vous êtes censé disposer des compétences et des connaissances requises pour ces tâches.
Votre challenge
Il vous est demandé d'aider une équipe de développement récemment constituée à créer un maillage de données à l'aide de Dataplex. Plus spécifiquement, vous devez créer un lac Dataplex avec plusieurs zones et éléments. Vous devez également taguer les éléments dans ce lac et évaluer la qualité de leurs données. Les tâches que vous devez effectuer sont les suivantes :
- Créer un lac Dataplex avec deux zones et deux éléments
- Créer et appliquer un modèle de tag pour taguer l'intégralité d'une zone comme contenant des données protégées
- Attribuer un rôle IAM Dataplex à un autre utilisateur
- Créer un fichier de spécification de qualité des données et l'importer dans Cloud Storage
- Définir et exécuter un job d'évaluation de la qualité des données dans Dataplex
Voici quelques normes que vous devez respecter :
- Vérifiez que toutes les API nécessaires (par exemple, Dataplex, Data Catalog et Dataproc) sont activées.
- Sauf instruction contraire, créez toutes les ressources dans la région
.
Chaque tâche est décrite en détail ci-dessous. Bonne chance !
Tâche 1 : Créer un lac Dataplex avec deux zones et deux éléments
Le bucket Cloud Storage et l'ensemble de données BigQuery de l'étape 2 ont été préalablement créés dans cet atelier.
- Créez un lac Dataplex nommé Sales Lake avec deux zones régionales :
- Une zone de données brutes nommée Raw Customer Zone
- Une zone de données préparées nommée Curated Customer Zone
- Associez un élément précréé à chaque zone :
- Associez à la zone brute le bucket Cloud Storage
-customer-online-sessions et nommez ce nouvel élément Customer Engagements. - Associez à la zone de données préparées l'ensemble de données BigQuery
.customer_orders et nommez ce nouvel élément Customer Orders.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 2 : Créer un modèle de tag et l'appliquer à une zone
- Créez un modèle de tag public nommé Protected Customer Data Template avec deux champs énumérés :
- Un premier champ nommé Raw Data Flag comportant deux valeurs :
Yes
etNo
- Un second champ nommé Protected Contact Information Flag comportant deux valeurs :
Yes
etNo
- Utilisez ce modèle pour taguer la zone Raw Customer Zone avec la valeur
Yes
pour les deux options.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 3 : Attribuer un rôle IAM Dataplex à un autre utilisateur
- Selon le principe du moindre privilège, attribuez le rôle IAM Dataplex approprié à l'utilisateur 2 (
) afin qu'il puisse importer de nouveaux fichiers Cloud Storage dans l'élément Dataplex Customer Engagements.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 4 : Créer et importer un fichier de spécification de qualité des données dans Cloud Storage
Le bucket Cloud Storage de l'étape 2 a été préalablement créé dans cet atelier.
- Créez un fichier de spécification de qualité des données nommé dq-customer-orders.yaml avec les règles suivantes :
- Règle NOT NULL appliquée à la colonne user_id de la table customer_orders.ordered_items
- Règle NOT NULL appliquée à la colonne order_id de la table customer_orders.ordered_items
- Importez le fichier dans le bucket Cloud Storage nommé
-dq-config.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 5 : Définir et exécuter un job d'évaluation de la qualité des données dans Dataplex
L'ensemble de données BigQuery de l'étape 1 a été préalablement créé dans cet atelier.
- Définissez un job d'évaluation de la qualité des données à l'aide du fichier dq-customer-orders.yaml avec les spécifications suivantes :
Propriété | Valeur |
---|---|
Nom du job d'évaluation de la qualité des données | Customer Orders Data Quality Job |
Table de destination BigQuery pour les résultats | |
Compte de service utilisateur | Compte de service Compute Engine par défaut |
- Exécutez immédiatement le job d'évaluation de la qualité des données.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Félicitations !
Gagnez un badge de compétence
Cet atelier d'auto-formation fait partie de la quête Build a Data Mesh with Dataplex. Si vous terminez cette quête, vous obtiendrez le badge de compétence ci-dessus attestant de votre réussite. Ajoutez votre badge à votre CV et partagez-le sur les réseaux sociaux en utilisant le hashtag #GoogleCloudBadge.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 4 juillet 2023
Dernier test de l'atelier : 4 juillet 2023
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.