arrow_back

Évaluer la qualité des données avec Dataplex

Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Évaluer la qualité des données avec Dataplex

Atelier 1 heure 30 minutes universal_currency_alt 1 crédit show_chart Débutant
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

GSP1158

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dataplex est une data fabric intelligente qui permet aux entreprises de découvrir, de gérer, de surveiller et de gouverner leurs données de façon centralisée sur des lacs, des entrepôts et des magasins de données pour optimiser les analyses à grande échelle.

La capacité de Dataplex à définir et exécuter des vérifications de qualité des données sur des éléments Dataplex tels que des tables BigQuery et des fichiers Cloud Storage représente une fonctionnalité intéressante de cet outil. Avec les tâches Dataplex liées à la qualité des données, vous pouvez intégrer des vérifications de la qualité des données dans vos workflows quotidiens en validant les données générées par un pipeline de production de données, en surveillant régulièrement la qualité de vos données vis-à-vis d'un ensemble de critères, ou encore en créant des rapports sur la qualité afin de répondre aux exigences réglementaires.

Dans cet atelier, vous allez découvrir comment créer un fichier de spécification de qualité des données et l'utiliser pour définir et exécuter un job d'évaluation de la qualité des données sur un ensemble de données BigQuery.

Objectifs de l'atelier

  • Créer un lac, une zone et un élément Dataplex
  • Interroger une table BigQuery pour examiner la qualité des données
  • Créer et importer un fichier de spécification de qualité des données
  • Définir et exécuter un job d'évaluation de la qualité des données
  • Examiner les résultats du job d'évaluation de la qualité des données

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google Cloud
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).

    L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.

    {{{user_0.username | "Username"}}}

    Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.

  4. Cliquez sur Suivant.

  5. Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.

    {{{user_0.password | "Password"}}}

    Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.

  6. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  7. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas à des essais gratuits.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Pour afficher un menu contenant la liste des produits et services Google Cloud, cliquez sur le menu de navigation en haut à gauche. Icône du menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.

  1. Cliquez sur Activer Cloud Shell Icône Activer Cloud Shell en haut de la console Google Cloud.

Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.

  1. (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
gcloud auth list
  1. Cliquez sur Autoriser.

  2. Vous devez à présent obtenir le résultat suivant :

Résultat :

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
gcloud config list project

Résultat :

[core] project = <ID_Projet>

Exemple de résultat :

[core] project = qwiklabs-gcp-44776a13dea667a6 Remarque : Pour consulter la documentation complète sur gcloud, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.

Activer l'API Dataproc

  1. Dans la console Google Cloud, saisissez API Cloud Dataproc dans la barre de recherche en haut de l'écran.

  2. Dans les résultats, cliquez sur API Cloud Dataproc sous "Marketplace".

  3. Cliquez sur Activer.

Tâche 1 : Créer un lac, une zone et un élément dans Dataplex

Pour pouvoir définir et exécuter des tâches liées à la qualité des données, vous devez au préalable créer des ressources Dataplex.

Dans cette tâche, vous allez créer un lac Dataplex pour stocker les informations sur les clients d'un site d'e-commerce, ajouter une zone brute au lac, puis associer un ensemble de données BigQuery déjà créé en tant que nouvel élément de la zone.

Créer un lac

  1. Dans le menu de navigation (Menu de navigation) de la console Google Cloud, accédez à Analyse > Dataplex.

Si la fenêtre Bienvenue dans la nouvelle interface Dataplex s'affiche, cliquez sur Fermer.

  1. Sous Gérer les lacs, cliquez sur Gérer.

  2. Cliquez sur Créer un lac de données.

  3. Saisissez les informations requises pour créer un lac de données :

Propriété Valeur
Nom à afficher Ecommerce Lake
Identifiant Conservez la valeur par défaut.
Région

Conservez les autres valeurs par défaut.

  1. Cliquez sur Créer.

La création d'un lac peut prendre jusqu'à trois minutes.

Ajouter une zone au lac

  1. Dans l'onglet Gérer, cliquez sur le nom de votre lac.

  2. Cliquez sur Ajouter une zone.

  3. Saisissez les informations requises pour créer une zone :

Propriété Valeur
Nom à afficher Customer Contact Raw Zone
Identifiant Conservez la valeur par défaut.
Type Zone brute
Emplacements des données Régional

Conservez les autres valeurs par défaut.

Par exemple, l'option Activer la découverte des métadonnées sous les paramètres de découverte est activée par défaut. Elle permet aux utilisateurs autorisés de découvrir les données dans la zone.

  1. Cliquez sur Créer.

La création de la zone peut prendre jusqu'à deux minutes.

Vous pouvez passer à l'étape suivante lorsque l'état de la zone bascule sur Actif.

Associer un élément à une zone

  1. Dans l'onglet Zones, cliquez sur le nom de votre zone.

  2. Dans l'onglet Éléments, cliquez sur Ajouter des éléments.

  3. Cliquez sur Ajouter un élément.

  4. Saisissez les informations requises pour associer un élément :

Propriété Valeur
Type Ensemble de données BigQuery
Nom à afficher Contact Info
Identifiant Conservez la valeur par défaut.
Ensemble de données .customers

Conservez les autres valeurs par défaut.

  1. Cliquez sur OK.

  2. Cliquez sur Continuer.

  3. Dans les paramètres de découverte, sélectionnez Hériter pour hériter des paramètres de découverte du niveau de la zone, puis cliquez sur Continuer.

  4. Cliquez sur Envoyer.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer un lac, une zone et un élément dans Dataplex

Tâche 2 : Interroger une table BigQuery pour examiner la qualité des données

Dans la tâche précédente, vous avez créé un élément Dataplex à partir d'un ensemble de données BigQuery nommé customers préalablement créé pour cet atelier. Cet ensemble de données comporte une table nommée contact_info, qui contient les coordonnées brutes des clients d'une entreprise d'e-commerce fictive.

Dans cette tâche, vous allez interroger cette table afin de commencer à identifier de potentiels problèmes de qualité des données que vous pourrez intégrer à la liste des points à vérifier lors de l'exécution du job d'évaluation de la qualité des données. Vous allez également identifier un autre ensemble de données pré-créé que vous pourrez utiliser pour stocker les résultats du job d'évaluation de la qualité des données dans une tâche ultérieure.

  1. Dans le menu de navigation (Menu de navigation) de la console Google Cloud, accédez à BigQuery > Espace de travail SQL.

  2. Dans le volet "Explorer", cliquez sur la flèche située à côté de l'ID de votre projet pour développer la liste des contenus :

En plus de l'ensemble de données customer_contact_raw_zone créé par Dataplex pour gérer cette zone, vous pouvez voir les deux ensembles de données BigQuery que nous avons créés au préalable pour cet atelier :

  • customers
  • customers_dq_dataset

L'ensemble de données nommé customers comporte une table intitulée contact_info, qui contient les coordonnées client telles que les ID des clients, leurs noms et leurs adresses e-mail, entre autres. Il s'agit de la table que vous allez explorer afin d'identifier les problèmes de qualité des données tout au long de cet atelier.

L'ensemble de données customers_dq_dataset ne contient aucune table. Lorsque vous définirez un job d'évaluation de la qualité des données dans une prochaine tâche, vous utiliserez cet ensemble de données comme destination pour héberger une table contenant les résultats de ce job.

Liste des ensembles de données BigQuery

  1. Dans l'éditeur SQL, cliquez sur Saisir une nouvelle requête. Collez la requête suivante, puis cliquez sur Exécuter :
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

Cette requête sélectionne 50 enregistrements de la table d'origine et les classe selon l'ID client dans les résultats.

  1. Passez les résultats en revue dans le volet Résultats.

Vous pouvez remarquer que certains enregistrements ne contiennent pas d'ID client et que pour d'autres l'adresse e-mail n'est pas correcte, ce qui peut entraîner des difficultés de gestion des commandes client.

Données incomplètes dans la table contact-info

Cliquez sur Vérifier ma progression pour valider l'objectif. Interroger une table BigQuery pour examiner la qualité des données

Tâche 3 : Créer et importer un fichier de spécification de qualité des données

Les exigences de contrôle de la qualité des données Dataplex sont définies à l'aide des fichiers de spécification YAML de CloudDQ. Une fois créé, le fichier de spécification YAML est importé dans un bucket Cloud Storage auquel le job d'évaluation de la qualité des données a accès.

Le fichier YAML comporte quatre sections principales :

  • Une liste de règles à exécuter (règles prédéfinies ou personnalisées)
  • Des filtres de lignes permettant de sélectionner un sous-ensemble de données à valider
  • Des liaisons de règles permettant d'appliquer les règles définies à la table ou aux tables
  • Des dimensions de règle facultatives permettant de spécifier les types de règles que le fichier YAML peut contenir

Dans cette tâche, vous allez définir un fichier de spécification YAML pour les vérifications de la qualité des données visant à identifier les chaînes d'ID client et d'adresse e-mail vides dans la table BigQuery spécifiée. Une fois le fichier défini, vous allez l'importer dans un bucket Cloud Storage pré-créé afin de pouvoir l'utiliser dans une tâche ultérieure pour exécuter le job d'évaluation de la qualité des données.

Créer le fichier de spécification de qualité des données

  1. Dans Cloud Shell, exécutez la commande suivante pour créer un fichier de spécification de qualité des données vide :
nano dq-customer-raw-data.yaml
  1. Collez le code suivant :
metadata_registry_defaults: dataplex: projects: {{{project_0.project_id | Project ID}}} locations: {{{project_0.default_region | Region}}} lakes: ecommerce-lake zones: customer-contact-raw-zone row_filters: NONE: filter_sql_expr: |- True INTERNATIONAL_ITEMS: filter_sql_expr: |- REGEXP_CONTAINS(item_id, 'INTNL') rule_dimensions: - consistency - correctness - duplication - completeness - conformance - integrity - timeliness - accuracy rules: NOT_NULL: rule_type: NOT_NULL dimension: completeness VALID_EMAIL: rule_type: REGEX dimension: conformance params: pattern: |- ^[^@]+[@]{1}[^@]+$ rule_bindings: VALID_CUSTOMER: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: id row_filter_id: NONE rule_ids: - NOT_NULL VALID_EMAIL_ID: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: email row_filter_id: NONE rule_ids: - VALID_EMAIL
  1. Examinez le code pour identifier les deux principales règles de qualité des données qui sont définies dans ce fichier.

La première partie du fichier dq-customer-raw-data.yaml contient les paramètres clés permettant d'identifier les ressources Dataplex telles que l'ID du projet, la région et les noms du lac et de la zone Dataplex.

Ensuite, le fichier spécifie les dimensions de règle autorisées, ainsi que deux règles principales :

  • La règle concernant les valeurs NOT_NULL fait référence à la dimension d'exhaustivité (pour la détection des valeurs nulles).
  • La règle concernant les valeurs VALID_EMAIL fait référence à la dimension de conformité (pour la détection des valeurs non valides).

Enfin, les règles sont liées à des entités (tables) et des colonnes à l'aide de liaisons de règle pour la validation de la qualité des données :

  • La première liaison de règle nommée VALID_CUSTOMER lie la règle NOT_NULL à la colonne id de la table contact_info. Elle vise à vérifier si la colonne "ID" contient des valeurs nulles (NULL).
  • La deuxième liaison de règle nommée VALID_EMAIL_ID lie la règle VALID_EMAIL à la colonne email de la table contact_info. Elle vise à vérifier la validité des adresses e-mail.
  1. Appuyez sur Ctrl+X puis sur Y pour enregistrer et fermer le fichier.

Importer le fichier dans Cloud Storage

  • Dans Cloud Shell, exécutez la commande suivante pour importer le fichier dans un bucket Cloud Storage que nous avons créé spécialement pour cet atelier :
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer et importer un fichier de spécification de qualité des données

Tâche 4 : Définir et exécuter un job d'évaluation de la qualité des données dans Dataplex

Le processus de contrôle de la qualité des données utilise un fichier YAML de spécification de qualité des données pour exécuter un job d'évaluation, et génère des métriques associées qui sont ensuite écrites dans un ensemble de données BigQuery.

Dans cette tâche, vous allez définir et exécuter un job d'évaluation de la qualité des données en utilisant le fichier YAML de spécification de qualité des données que vous avez importé dans Cloud Storage dans la tâche précédente. Lorsque vous définissez le job, vous spécifiez également un ensemble de données BigQuery pré-créé, nommé customer_dq_dataset, qui servira à stocker les résultats de l'évaluation de la qualité des données.

  1. Dans le menu de navigation (Menu de navigation) de la console Google Cloud, accédez à Analyse > Dataplex.

  2. Sous Gérer les lacs, cliquez sur Traiter.

  3. Cliquez sur Créer une tâche.

  4. Sous "Vérifier la qualité des données", cliquez sur Créer une tâche.

  5. Saisissez les informations requises pour créer un job d'évaluation de la qualité des données :

Propriété Valeur
Lac Dataplex ecommerce-lake
Nom à afficher Customer Data Quality Job
Identifiant Conservez la valeur par défaut.
Sélectionner un fichier GCS -bucket/dq-customer-raw-data.yaml
Sélectionnez un ensemble de données BigQuery .customers_dq_dataset
Table BigQuery dq_results
Compte de service utilisateur Compte de service Compute Engine par défaut

Conservez les autres valeurs par défaut.

Notez que le compte de service Compute Engine par défaut a été préconfiguré pour disposer des rôles et autorisations IAM appropriés pour cet atelier. Pour plus d'informations, consultez la documentation Dataplex intitulée Créer un compte de service.

  1. Cliquez sur Continuer.

  2. Pour Démarrer, sélectionnez Immédiatement.

  3. Cliquez sur Créer.

L'exécution du job peut prendre plusieurs minutes. Vous devrez peut-être actualiser la page pour voir s'il a bien été exécuté.

État du job &quot;Réussite&quot;

Cliquez sur Vérifier ma progression pour valider l'objectif. Définir et exécuter un job d'évaluation de la qualité des données dans Dataplex

Tâche 5 : Examiner les résultats d'évaluation de la qualité des données dans BigQuery

Dans cette tâche, vous allez examiner les tables de l'ensemble de données customers_dq_dataset pour identifier les enregistrements dont les valeurs "ID client" sont absentes et/ou ceux dont les adresses e-mail ne sont pas valides.

  1. Dans le menu de navigation (Menu de navigation) de la console Google Cloud, accédez à BigQuery > Espace de travail SQL.

  2. Dans le volet "Explorer", cliquez sur la flèche située à côté de l'ID de votre projet pour développer la liste des contenus :

  3. Cliquez sur la flèche située à côté de l'ensemble de données customer_dq_dataset.

  4. Cliquez sur la table dq_summary.

  5. Cliquez sur l'onglet Aperçu pour consulter les résultats.

La table dq_summary fournit des informations utiles sur le niveau global de qualité des données, y compris le nombre d'enregistrements qui ne respectent pas les deux règles définies dans le fichier de spécification de qualité des données.

  1. Faites défiler l'affichage jusqu'à la dernière colonne nommée failed_records_query.

  2. Cliquez sur la flèche vers le bas dans la première ligne pour développer le texte afin de voir l'ensemble de la requête pour les résultats associés à la règle VALID_EMAIL.

Vous pouvez noter que cette requête est assez longue, et qu'elle se termine par ORDER BY _dq_validation_rule_id.

  1. Cliquez sur Saisir une nouvelle requête. Copiez la requête et collez-la dans l'éditeur SQL, puis cliquez sur Exécuter.

Le résultat de la requête contient les valeurs d'adresse e-mail de la table contact_info qui ne sont pas valides.

Résultats de l&#39;évaluation de la qualité des données pour VALID_EMAIL

  1. Répétez les étapes 7 et 8 pour la deuxième cellule, qui contient la requête permettant d'obtenir les résultats associés à la règle VALID_CUSTOMER.

Les résultats de la requête indiquent que 10 enregistrements de la table contact_info n'ont pas de valeur d'ID.

Résultats de l&#39;évaluation de la qualité des données pour VALID_CUSTOMER

Cliquez sur Vérifier ma progression pour valider l'objectif. Examiner les résultats d'évaluation de la qualité des données d'une table BigQuery

Félicitations !

Vous avez appris à évaluer la qualité des données à l'aide de Dataplex en créant un fichier de spécification de qualité des données personnalisé permettant d'exécuter un job d'évaluation de la qualité des données sur une table BigQuery.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 4 juillet 2023

Dernier test de l'atelier : 4 juillet 2023

Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible