Points de contrôle
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Explorer les métadonnées d'ensemble de données de différents projets avec Data Catalog
- GSP789
- Présentation
- Démarrer l'atelier
- Scénario : PDG d'une société de transport de la ville de New York
- Partie 1 : Explorer l'environnement de données existant avec le rôle Propriétaire
- Vérifier que le rôle Propriétaire permet de consulter et d'interroger l'ensemble de données new_york_mv_collisions
- Vérifier que le rôle Propriétaire permet de consulter et d'interroger l'ensemble de données Bike Share
- Partie 2 : Explorer l'environnement de données existant avec un accès utilisateur restreint
- Se connecter avec le compte Analyste de données et vérifier que l'accès au projet est bien restreint
- Tenter d'interroger directement un ensemble de données privé
- Partie 3 : Utiliser Data Catalog pour ajouter des tags aux ensembles de données dans les projets
- Créer un modèle de tag Data Catalog à partir d'un ensemble de données BigQuery
- Créer un modèle Data Catalog
- Félicitations !
- Terminer l'atelier
GSP789
Présentation
Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif qui fait partie de la gamme de produits d'analyse de données de Google Cloud.
Sans les bons outils, la gestion des éléments de données peut être longue et coûteuse. Data Catalog fournit un emplacement centralisé où les organisations peuvent rechercher, préparer et décrire leurs éléments de données.
Utiliser Data Catalog
Vous pouvez interagir avec Data Catalog de deux manières :
-
En recherchant des éléments de données auxquels vous avez accès
-
En ajoutant des tags de métadonnées à des éléments
Objectifs de l'atelier
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
-
Examiner un environnement d'entreprise simulé associé à deux projets, deux ensembles de données et deux comptes utilisateur
-
Parcourir manuellement une table BigQuery dans l'interface utilisateur
-
Exécuter des requêtes pour mieux comprendre les colonnes de données sensibles auxquelles ajouter ensuite des tags
-
Utiliser Data Catalog pour rechercher des ensembles de données existants dans les projets
-
Utiliser les modèles de tags Data Catalog pour ajouter des tags de métadonnées aux éléments
En quoi est-ce utile ?
-
Affichez les éléments de données de plusieurs projets dans votre organisation.
-
Créez des modèles de tags réutilisables en vue d'ajouter des descriptions de données enrichies à l'intention de vos équipes.
-
Repérez rapidement les ensembles de données contenant des informations personnelles.
-
Le contrôle des accès aux métadonnées est hérité de l'utilisateur connecté (aucune liste de contrôle d'accès Data Catalog distincte n'est requise).
Prérequis
Très important : Avant de commencer cet atelier, déconnectez-vous de votre compte Gmail personnel ou professionnel, ou lancez l'atelier dans une fenêtre de navigation privée. Cela vous évitera d'être connecté au mauvais compte.
Démarrer l'atelier
-
Si vous ne l'avez pas encore fait, cliquez sur Démarrer l'atelier.
-
Conseil : La génération automatique des deux projets Google Cloud, des deux ensembles de données préremplis et des deux comptes utilisateur dans l'environnement de l'atelier va prendre entre trois et cinq minutes. Vous pouvez continuer à lire les informations relatives à cet atelier pendant ce temps (vous devez lire le scénario ci-dessous pour vous connecter).
-
Cliquez sur Ouvrir la console Bike dans l'atelier ou dans une nouvelle fenêtre de navigation privée, et accédez à Cloud Console. Ne vous connectez pas tout de suite avec les comptes fournis. Poursuivez tout d'abord la lecture du scénario. Vous recevrez les instructions relatives au compte à utiliser plus tard.
Important : Une fois que vous avez démarré l'atelier, vous ne pouvez plus l'interrompre. Si vous l'arrêtez, tous les projets du participant en cours d'exécution seront supprimés.
Scénario : PDG d'une société de transport de la ville de New York
Vous dirigez une entreprise de transport basée à New York. Vos équipes d'analystes de données interrogent les ensembles de données sur les moyens de transport new-yorkais (vélo et voiture) que vous avez collectés.
Difficultés :
-
Certains de vos ensembles de données contiennent des informations sensibles pour lesquelles vous souhaitez gérer l'accès.
-
Votre équipe se plaint d'avoir des difficultés à localiser le bon ensemble de données parmi tous ceux auxquels elle a accès.
-
Pour vous conformer aux dernières exigences réglementaires, vous devez trouver un moyen clair de signaler tous les ensembles de données contenant des informations personnelles.
Ensembles de données de votre organisation
- NYC Bike Share Trips (Trajets en vélos en libre-service dans la ville de NY)
- NYC Motor Vehicle Collisions (Collisions impliquant des véhicules motorisés à NY)
Chaque équipe d'ingénieurs de données gère son ensemble de données dans un projet Google Cloud distinct qui lui est propre afin de faciliter la gestion de l'accès et de la facturation. Si cette méthode facilite la tâche des ingénieurs de données, elle complique celle des analystes, car les ensembles de données sont plus difficiles à trouver.
Tous les rôles d'analyste ne sont pas équivalents
Pour compliquer encore les choses, votre équipe d'informatique décisionnelle compte différents niveaux d'analystes de données :
-
Analystes de données – moins de droits
-
Propriétaire – droits d'administration complets
Examiner les conditions automatiquement créées pour vous
Afin de simuler au mieux un vrai environnement d'entreprise comptant plusieurs projets et ensembles de données à cataloguer, votre équipe d'ingénieurs vous a donné accès à des ressources existantes (autrement dit, des ressources ont été préchargées dans l'atelier pour que vous n'ayez pas à les créer).
Votre équipe vous a fourni les accès mentionnés ci-dessus aux éléments suivants :
- Deux projets
- Deux comptes utilisateur
Elle a ajouté les remarques suivantes concernant la restriction des accès :
-
Le propriétaire dispose d'un accès complet à tous les projets et ensembles de données.
-
Les analystes de données ne doivent pas avoir accès à l'ensemble de données sur les collisions impliquant des véhicules motorisés dans la ville de New York et ne peuvent pas l'interroger (données sensibles).
Partie 1 : Explorer l'environnement de données existant avec le rôle Propriétaire
Rappel : Votre équipe d'ingénieurs de données vous a fourni deux projets contenant chacun un ensemble de données différent sur la ville de New York. Vérifiez que le rôle Propriétaire permet de consulter et d'interroger tous ces ensembles de données.
Connectez-vous à l'aide de l'adresse e-mail et du mot de passe associés au Propriétaire (droits d'administration complets) générés automatiquement pour cet atelier.
Acceptez les Conditions d'utilisation de Google Cloud (si vous y êtes invité).
Localiser le projet NYC Collisions
- Cliquez sur le menu déroulant indiquant le nom de votre projet en haut de la page pour sélectionner un projet.
- Reportez-vous au nom généré automatiquement par Qwiklabs pour le projet
NYC Motor Vehicle Collisions
, et localisez cette valeur de chaîne dans le pop-up de sélection du projet :
Activer l'API Data Catalog
- Accédez au menu de navigation, puis faites-le défiler vers le bas jusqu'à Data Catalog.
- Pointez sur le nom, puis cliquez sur l'icône en forme de punaise pour faire remonter Data Catalog en haut du menu de navigation.
- Cliquez sur Data Catalog.
- Vérifiez que l'API est déjà activée (si aucun message ne vous demande d'activer l'API, c'est qu'elle est déjà activée et qu'aucune action de votre part n'est requise).
Dans la suite de cet atelier, une fois que vous aurez recherché et interrogé manuellement les ensembles de données dans BigQuery, vous utiliserez Data Catalog.
Accéder à BigQuery et l'épingler
-
Faites défiler le menu de navigation vers le bas jusqu'à BigQuery.
-
Pointez sur le nom, puis cliquez sur l'icône en forme de punaise.
-
Cliquez sur BigQuery, puis sur OK.
Vérifier que le rôle Propriétaire permet de consulter et d'interroger l'ensemble de données new_york_mv_collisions
Assurons-nous maintenant que le rôle Propriétaire permet de consulter l'ensemble de données new_york_mv_collisions
.
-
Dans BigQuery, sous Explorateur, cliquez sur le nom de votre projet pour ouvrir les ensembles de données auxquels vous avez accès.
-
Vérifiez que vous pouvez voir l'ensemble de données
new_york_mv_collisions
. -
Cliquez sur l'ensemble de données
new_york_mv_collisions
pour ouvrir les tables qu'il contient. -
Cliquez sur la table
nypd_mv_collisions
, puis examinez les champs disponibles dans le schéma.
Le schéma doit ressembler à ce qui suit :
Répondez aux questions suivantes.
La table ne contient pas d'informations personnelles, comme un numéro de téléphone ou une adresse e-mail, mais vous devez néanmoins rester prudent lorsque vous partagez l'ensemble de données qui la contient avec davantage de personnes.
Dans la suite de cet atelier, nous verrons comment accéder aux ensembles de données restreints et utiliser Data Catalog pour ajouter proactivement des tags de métadonnées enrichies aux ensembles de données et tables de votre organisation.
Vérifier que le rôle Propriétaire permet d'interroger l'ensemble de données sur les collisions
Comme vous êtes connecté en tant que propriétaire global, vérifiez que vous pouvez voir les deux projets et ensembles de données, y accéder et exécuter la requête ci-dessous.
- Copiez la requête suivante et collez-la dans l'éditeur de requête BigQuery, puis cliquez sur Exécuter.
Quels ont été les 10 premiers facteurs d'accidents de voiture dans la ville de New York ?
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vérifier que le rôle Propriétaire permet de consulter et d'interroger l'ensemble de données Bike Share
-
Cliquez sur Sélectionnez un projet en haut de la page.
-
Cliquez sur l'onglet Tous.
-
Localisez l'ensemble de données Bike Share en vous reportant à l'ID de projet correspondant, automatiquement généré :
- Cliquez sur l'ID du projet.
- Dans l'interface utilisateur BigQuery, ouvrez l'ID de projet -->
new_york_citibike
--> tablecitibike_trips
.
Une fois les détails et l'aperçu du schéma affichés, répondez aux questions ci-dessous.
Quels sont les trajets en vélo en libre-service les plus populaires en fonction du sexe des utilisateurs ?
L'ensemble de données NYC Citi Bike public effectue un suivi de tous les trajets (station de retrait, station de retour) ainsi que d'autres aspects pour chaque utilisateur.
Ajoutez la requête ci-dessous dans l'éditeur de requête, puis cliquez sur Exécuter pour trouver les trajets les plus populaires en fonction du sexe des utilisateurs. Notez que les trois seules valeurs disponibles dans l'ensemble de données sont "unknown" (inconnu), "male" (homme) et "female" (femme), lesquelles risquent de ne pas être représentatives de tous les utilisateurs de vélos en libre-service.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous allez apprendre à ajouter des tags de données sensibles aux ensembles de données et aux tables.
Récapitulatif de l'exploration
-
Vous avez exploré chacun des ensembles de données NYC (collisions et trajets en vélos en libre-service).
-
Chacun de ces ensembles de données est stocké dans un projet distinct.
-
Le rôle Propriétaire (avec lequel vous êtes actuellement connecté) permet de consulter et d'interroger chaque ensemble de données.
Partie 2 : Explorer l'environnement de données existant avec un accès utilisateur restreint
Jusqu'à maintenant, vous vous êtes connecté avec le compte Propriétaire doté des autorisations les plus élevées.
Vous avez demandé à vos équipes d'ingénieurs de limiter l'accès de vos analystes de données comme suit.
Les analystes de données sont autorisés à voir :
- NYC Bike Share (Trajets en vélo en libre-service dans la ville de New York)
Ils NE PEUVENT PAS voir :
-
NYC Motor Vehicle Collisions (Collisions impliquant des véhicules motorisés à NY)
Se déconnecter du compte Propriétaire
-
Cliquez sur l'icône du profil.
-
Déconnectez-vous.
Se connecter avec le compte Analyste de données et vérifier que l'accès au projet est bien restreint
-
Cliquez sur Utiliser un autre compte.
-
Connectez-vous à nouveau à Google Cloud à l'aide de l'adresse e-mail et du mot de passe partagé associés au
compte Analyste de données
. -
Sous Sélectionnez un projet, vérifiez qu'un seul projet autogénéré par Qwiklabs est accessible, et non deux.
-
Sélectionnez le projet Qwiklabs auquel vous avez accès.
-
Accédez à BigQuery.
Tenter d'interroger directement un ensemble de données privé
Dans BigQuery, vous pouvez interroger tous les projets auxquels vous avez accès, même s'ils ne sont pas épinglés ni visibles dans la section "Explorateur". Essayez d'interroger directement l'ensemble de données NYC Collisions en tant qu'analyste de données en utilisant l'ID du projet.
-
Ajoutez la requête ci-dessous, que vous avez déjà utilisée, et remplacez le préfixe de l'ID du projet avec celui du projet
NYC Motor Vehicle Collisions Project
:
- Vérifiez qu'un message d'erreur pour accès refusé s'affiche.
Vous venez de passer en revue les différents droits et accès accordés aux rôles Propriétaire (groupe d'autorisations le plus vaste) et Analystes de données (groupe d'autorisations le plus restrictif) pour l'accès aux projets, ensembles de données et requêtes.
Maintenant, vous allez essayer de trouver un ensemble de données masqué à l'aide de la fonctionnalité de recherche de Data Catalog. Pensez-vous que les analystes de données pourront le voir si BigQuery vous empêche d'y accéder ?
Partie 3 : Utiliser Data Catalog pour ajouter des tags aux ensembles de données dans les projets
Maintenant que vous connaissez mieux les ensembles de données et les niveaux d'accès accordés en fonction des rôles, vous allez résoudre les difficultés soulevées plus tôt dans l'exemple de scénario :
Difficultés :
- Certains de vos ensembles de données contiennent des informations sensibles pour lesquelles vous souhaitez gérer l'accès.
- Votre équipe se plaint d'avoir des difficultés à localiser le bon ensemble de données parmi tous ceux auxquels elle a accès.
Pour vous conformer aux dernières exigences réglementaires, vous devez trouver un moyen clair de signaler tous les ensembles de données contenant des informations personnelles. Pour résoudre ces problèmes et réaliser cette tâche, vous allez utiliser le service Data Catalog.
- Dans le menu de navigation, cliquez sur Data Catalog.
- Sur la page d'accueil de Data Catalog, sous Systèmes, appliquez le filtre BigQuery.
-
Saisissez
qwiklabs-gcp
dans la barre de recherche de Data Catalog pour exclure les ressources Qwiklabs externes. -
Vérifiez que la vue à laquelle vous avez accès en tant qu'analyste de données ressemble à celle-ci :
Quel que soit le projet auquel vous êtes connecté, Data Catalog affiche TOUS les ensembles de données BigQuery auxquels votre rôle a accès.
En tant qu'analyste de données, vous ne verrez pas l'ensemble de données new_york_mv_collisions
dans Data Catalog, même s'il existe (nous l'avons interrogé avec le rôle Propriétaire).
Pourquoi ? Découvrez-le en explorant le fonctionnement du contrôle des accès dans Data Catalog.
Comment Data Catalog affiche les métadonnées
Avant de rechercher, découvrir ou afficher des ressources Google Cloud, Data Catalog vérifie que l'utilisateur dispose d'un rôle IAM avec les autorisations de lecture des métadonnées requises par BigQuery, Pub/Sub ou tout autre système source permettant d'accéder à la ressource.
Exemple : Data Catalog vérifie que l'utilisateur s'est vu attribuer un rôle doté de l'autorisation bigquery.tables.get
avant d'afficher les métadonnées de la table BigQuery.
Créer un modèle de tag Data Catalog à partir d'un ensemble de données BigQuery
- Cliquez sur le nom de la table
new_york_citibike
. Il s'agit d'une sous-tâche de l'ensemble de données Bike Share auquel vous avez accès.
Au niveau des tables BigQuery, Data Catalog vous permet d'ajouter des tags aux éléments suivants :
-
L'ensemble de données même
-
La table
-
Les colonnes individuelles
-
Essayez de cliquer sur le bouton Associer des tags :
-
Vérifiez qu'un message d'erreur semblable à celui-ci s'affiche :
- Dans cette boîte de dialogue, pointez sur En savoir plus pour comprendre pourquoi cette fonctionnalité n'est pas disponible.
Le rôle Analyste de données permet de rechercher des métadonnées dans Data Catalog, mais pas d'ajouter des tags.
Maintenant, découvrez comment fonctionnent les autorisations d'ajout de tag et les modèles de tag dans Data Catalog.
Modèles, tags et autorisations Data Catalog
Les modèles de tag Data Catalog vous aident à créer et à gérer des métadonnées communes sur les éléments de données dans un emplacement unique. Les tags sont associés à l'élément de données, ce qui signifie qu'il est visible dans le système Data Catalog. Cette fonctionnalité vous permet également de créer d'autres applications qui utilisent ces métadonnées contextuelles sur un élément de données.
À quoi ressemble un modèle de tag ?
Qui peut créer un modèle de tag ?
Pour créer des modèles de tag, l'utilisateur doit au moins disposer d'un accès en modification à la ressource concernée (dans cet atelier, BigQuery) ET du rôle datacatalog.tagTemplateUser
(sous réserve qu'un modèle ait déjà été créé). Lien de la documentation
Et si vous avez besoin de créer un modèle de tag ? Pour cela, vous devez disposer au minimum d'un rôle datacatalog.tagTemplateCreator
ou roles/datacatalog.tagTemplateOwner
. Le rôle Propriétaire vous permet de supprimer les modèles existants et d'autres droits d'administrateur.
Les rôles Cloud IAM les plus souvent prédéfinis dans Data Catalog sont les suivants :
-
roles/datacatalog.tagTemplateViewer
-
roles/datacatalog.tagTemplateUser
-
roles/datacatalog.tagTemplateCreator
-
roles/datacatalog.tagTemplateOwner
-
Consultez la liste complète des rôles.
Créer un modèle Data Catalog
Connectez-vous avec le rôle Propriétaire, qui dispose de l'autorisation roles/datacatalog.tagTemplateOwner
. Sélectionnez le projet NYC Bike Share utilisé précédemment.
Accédez à Data Catalog.
- Créez un modèle de tag en cliquant sur Modèles de tag > Créer un modèle de tag.
- Saisissez les informations de base du nouveau modèle et nommez-le "Ensembles de données New York".
-
Cliquez sur Ajouter un champ.
-
Nommez le nouveau champ Contient des infos perso, rendez-le obligatoire, sélectionnez le type Booléen, puis cliquez sur OK.
-
Cliquez sur Ajouter un champ.
-
Nommez le champ Type d'infos perso, sélectionnez le type Énuméré, ajoutez les valeurs indiquées ci-dessous, puis cliquez sur OK une fois que vous avez terminé.
- Aucune
- Date de naissance
- Sexe
- Zone géographique
-
Cliquez sur Ajouter un champ.
-
Nommez le champ Équipe propriétaire des données, rendez-le obligatoire, sélectionnez le type Énuméré, ajoutez les valeurs indiquées ci-dessous, puis cliquez sur OK une fois que vous avez terminé.
- Marketing
- Science des données
- Ventes
- Ingénierie
-
Cliquez sur Créer.
Ajouter des tags au niveau de l'ensemble de données
- Cliquez sur Rechercher les entrées qui n'utilisent pas ce modèle.
- Cliquez sur l'ensemble de données new_york_mv_collisions.
- Vous verrez qu'il n'y a pas de tag sous le nom de l'ensemble de données. Cliquez sur Associer des tags.
- Sélectionnez le modèle que vous avez créé précédemment, puis cliquez sur OK.
-
À l'aide des menus déroulants, indiquez les valeurs ci-dessous pour les champs du modèle, puis cliquez sur Enregistrer.
- vrai
- Zone géographique
- Ingénierie
- Affichez les tags au niveau de l'ensemble de données.
Ajouter des tags au niveau des tables et des colonnes
Pour plus de précision, vous pouvez appliquer des tags au niveau des tables et des colonnes.
- Retournez aux éléments de notre précédente recherche, puis cliquez sur la table
nypd_mv_collisions
.
-
Cliquez sur Associer des tags et définissez les champs suivants pour les tags de colonne et de schéma :
- Table : nypd_mv_collisions
- Colonne : Emplacement
- Modèle de tag : Ensembles de données New York
- Valeurs des tags : vrai, Géolocalisation, Ingénieurs
Ensuite, cliquez sur Enregistrer.
- Ajoutez le tag des informations personnelles de géolocalisation, puis assurez-vous qu'il s'affiche lorsque vous cliquez sur le nom du modèle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Rechercher des ensembles de données par tag et clé de tag
Maintenant que vous avez ajouté des tags, vous pouvez faire des recherches dans votre catalogue à partir de ces tags.
Dans la barre de recherche, copiez et collez tag:qwiklabs-VOTRE-PROJET-ICI.new_york_datasets.contient_des_infos_perso
, puis remplacez le préfixe de l'ID de projet par l'ID de votre projet Qwiklabs en cours.
Pour obtenir d'autres exemples de recherche rapide dans le catalogue, consultez ce guide de recherche.
Félicitations !
Vous savez désormais explorer et rechercher des données, et leur ajouter des tags dans un projet à l'aide de Data Catalog. Vous en savez également plus sur l'intérêt de restreindre l'accès aux ensembles de données et de signaler les champs dotés d'informations personnelles pour mieux informer vos équipes.
Terminer votre quête
Cet atelier d'auto-formation fait partie des quêtes Qwiklabs BigQuery for Marketing Analysts et Data Catalog Fundamentals. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez une quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête pour obtenir immédiatement les crédits associés à cet atelier si vous l'avez suivi. Découvrez les autres quêtes Qwiklabs disponibles.
Sujets abordés
-
Examiner un environnement d'entreprise simulé associé à deux projets, deux ensembles de données et deux comptes utilisateur
-
Exécuter des requêtes pour mieux comprendre les colonnes de données sensibles auxquelles ajouter ensuite des tags
-
Utiliser Data Catalog pour rechercher des ensembles de données dans un projet
-
Utiliser les modèles de tags Data Catalog pour ajouter des tags de métadonnées enrichies aux éléments
Étapes suivantes et informations supplémentaires
- Page de documentation sur Data Catalog
- Regarder la prochaine vidéo du moment
Terminer l'atelier
Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Votre compte et les ressources utilisées sont alors supprimés de la plate-forme d'atelier.
Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.
Voici à quoi correspond le nombre d'étoiles que vous pouvez attribuer à un atelier :
- 1 étoile = très insatisfait(e)
- 2 étoiles = insatisfait(e)
- 3 étoiles = ni insatisfait(e), ni satisfait(e)
- 4 étoiles = satisfait(e)
- 5 étoiles = très satisfait(e)
Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.
Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 27 novembre 2021
Dernier test de l'atelier : 27 novembre 2021
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.