
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Data Catalog est obsolète et ne sera plus disponible à partir du 30 janvier 2026. Vous pouvez toujours effectuer cet atelier si vous le souhaitez.
Pour savoir comment transférer vos utilisateurs, vos charges de travail et votre contenu Data Catalog vers le catalogue Dataplex, consultez "Passer de Data Catalog au catalogue Dataplex" (https://cloud.google.com/dataplex/docs/transition-to-dataplex-catalog).
Data Catalog est un service de gestion des métadonnées entièrement géré et évolutif au sein de Dataplex.
Sans les bons outils, la gestion des éléments de données peut être chronophage et coûteuse. Data Catalog fournit un emplacement centralisé où les organisations peuvent rechercher, gérer et décrire leurs éléments de données.
Vous pouvez interagir avec Data Catalog de deux manières :
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
Très important : Avant de commencer cet atelier, déconnectez-vous de votre compte Gmail personnel ou professionnel, ou lancez l'atelier dans une fenêtre de navigation privée. Cela vous évitera d'être connecté au mauvais compte.
Si vous ne l'avez pas encore fait, cliquez sur Démarrer l'atelier.
Conseil : La génération automatique des deux projets Google Cloud, des deux ensembles de données préremplis et des deux comptes utilisateur dans l'environnement de l'atelier va prendre entre trois et cinq minutes. Vous pouvez continuer à lire les informations concernant cet atelier pendant ce temps (vous devez lire le scénario ci-dessous pour vous connecter).
Cliquez sur Ouvrir la console Bike dans l'atelier ou dans une nouvelle fenêtre de navigation privée, et accédez à la console Cloud. Ne vous connectez pas tout de suite avec les comptes fournis. Poursuivez tout d'abord la lecture du scénario. Vous recevrez les instructions relatives au compte à utiliser plus tard.
Important : Une fois que vous avez démarré l'atelier, vous ne pouvez plus l'interrompre. Si vous l'arrêtez, tous les projets du participant en cours d'exécution seront supprimés.
Vous dirigez une entreprise de transport basée à New York. Vos équipes d'analystes de données interrogent les ensembles de données sur les moyens de transport new-yorkais (vélo et voiture) que vous avez collectés.
Difficultés :
Chaque équipe d'ingénieurs de données gère son ensemble de données dans un projet Google Cloud distinct qui lui est propre afin de faciliter la gestion de l'accès et de la facturation. Si cette méthode facilite la tâche des ingénieurs de données, elle complique celle des analystes, car les ensembles de données sont plus difficiles à trouver.
Pour compliquer encore les choses, votre équipe d'informatique décisionnelle compte différents niveaux d'analystes de données :
Afin de simuler au mieux un vrai environnement d'entreprise comptant plusieurs projets et ensembles de données à cataloguer, votre équipe d'ingénieurs vous a donné accès à des ressources existantes (autrement dit, des ressources ont été préchargées dans l'atelier pour que vous n'ayez pas à les créer).
Votre équipe vous a fourni les accès mentionnés ci-dessus aux éléments suivants :
Elle a ajouté les remarques suivantes concernant la restriction des accès :
Rappel : Votre équipe d'ingénieurs de données vous a fourni deux projets contenant chacun un ensemble de données différent sur la ville de New York. Vérifiez que le rôle Propriétaire permet de consulter et d'interroger tous ces ensembles de données.
Connectez-vous à l'aide de l'adresse e-mail et du mot de passe du Propriétaire (droits d'administration complets), générés automatiquement pour cet atelier.
Acceptez les conditions d'utilisation de Google Cloud (si vous y êtes invité).
NYC Motor Vehicle Collisions
, puis localisez cette valeur de chaîne dans le pop-up de sélection du projet :Vous utiliserez Data Catalog dans la suite de cet atelier, une fois que vous aurez recherché et interrogé manuellement les ensembles de données dans BigQuery.
Vérifiez que le rôle Propriétaire permet de consulter l'ensemble de données new_york_mv_collisions
.
Dans BigQuery, sous Explorateur, cliquez sur le nom de votre projet pour ouvrir la liste des ensembles de données auxquels vous avez accès.
Vérifiez que vous pouvez voir l'ensemble de données new_york_mv_collisions
.
Cliquez sur l'ensemble de données new_york_mv_collisions
pour ouvrir les tables qu'il contient.
Cliquez sur la table nypd_mv_collisions
, puis examinez les champs disponibles dans le schéma.
Le schéma doit ressembler à ce qui suit :
Répondez aux questions suivantes.
La table ne contient pas d'informations personnelles, comme un numéro de téléphone ou une adresse e-mail, mais vous devez néanmoins rester prudent lorsque vous partagez l'ensemble de données qui la contient avec davantage de personnes.
Dans la suite de cet atelier, nous verrons comment accéder aux ensembles de données restreints et utiliser Data Catalog pour ajouter proactivement des tags de métadonnées enrichies aux ensembles de données et tables de votre organisation.
Comme vous êtes connecté en tant que propriétaire global, vérifiez que vous pouvez voir les projets et ensembles de données, et que vous pouvez y accéder. Vérifiez aussi que vous pouvez exécuter la requête ci-dessous.
Quels ont été les 10 premiers facteurs d'accidents de voiture dans la ville de New York ?
Cliquez sur Vérifier ma progression pour valider l'objectif.
Cliquez sur Sélectionnez un projet en haut de la page.
Cliquez sur l'onglet Tous.
Localisez l'ensemble de données Bike Share en vous reportant à l'ID de projet correspondant, automatiquement généré :
new_york_citibike
> table citibike_trips
.Une fois les détails et l'aperçu du schéma affichés, répondez aux questions ci-dessous.
L'ensemble de données public NYC Citi Bike effectue un suivi de tous les trajets (station de retrait, station de retour) ainsi que d'autres aspects pour chaque utilisateur.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous allez apprendre à ajouter des tags de données sensibles aux ensembles de données et aux tables.
Jusqu'à maintenant, vous vous êtes connecté avec le compte Propriétaire, auquel votre équipe d'ingénieurs de données a fourni le niveau d'autorisation le plus élevé.
Vous avez demandé à vos équipes d'ingénieurs de limiter l'accès de vos analystes de données comme suit.
Les analystes de données sont autorisés à voir :
Ils ne peuvent PAS voir :
Cliquez sur l'icône du profil.
Déconnectez-vous.
Cliquez sur Utiliser un autre compte.
Connectez-vous à nouveau à Google Cloud à l'aide de l'adresse e-mail et du mot de passe partagé associés au compte Analyste de données
.
Sous Sélectionnez un projet, vérifiez qu'un seul projet autogénéré par Qwiklabs s'affiche, et non deux.
Sélectionnez le projet Qwiklabs auquel vous avez accès.
Accédez à BigQuery.
Dans BigQuery, vous pouvez interroger tous les projets auxquels vous avez accès, même s'ils ne sont pas épinglés ni visibles dans la section "Explorateur". Essayez d'interroger directement l'ensemble de données NYC Collisions en tant qu'analyste de données en utilisant l'ID du projet.
NYC Motor Vehicle Collisions Project
:Un message d'erreur "Accès refusé" confirme votre niveau d'accès Analyste de données.
Vous venez de passer en revue les différents droits et accès accordés aux rôles Propriétaire (groupe d'autorisations le plus vaste) et Analystes de données (groupe d'autorisations le plus restrictif) pour l'accès aux projets, ensembles de données et requêtes.
Maintenant, vous allez essayer de trouver un ensemble de données masqué à l'aide de la fonctionnalité de recherche de Data Catalog. Pensez-vous que les analystes de données pourront le voir si BigQuery vous empêche d'y accéder ?
Maintenant que vous connaissez mieux les ensembles de données et les niveaux d'accès accordés en fonction des rôles, vous allez résoudre les difficultés soulevées plus tôt dans l'exemple de scénario :
Difficultés :
Pour vous conformer aux dernières exigences réglementaires, vous devez trouver un moyen clair de signaler tous les ensembles de données contenant des informations permettant d'identifier personnellement les utilisateurs. Pour résoudre ces problèmes et réaliser cette tâche, vous allez utiliser le service Data Catalog.
Saisissez qwiklabs-gcp
dans la barre de recherche de Data Catalog pour exclure les ressources Qwiklabs externes.
Vérifiez que la vue à laquelle vous avez accès en tant qu'analyste de données ressemble à celle-ci :
Quel que soit le projet auquel vous êtes connecté, Data Catalog affiche TOUS les ensembles de données BigQuery auxquels votre rôle a accès.
En tant qu'analyste de données, vous ne verrez pas l'ensemble de données new_york_mv_collisions
dans Data Catalog, même s'il existe (nous l'avons interrogé avec le rôle Propriétaire).
Pourquoi ? Découvrez-le en explorant le fonctionnement du contrôle des accès dans Data Catalog.
Avant de rechercher, découvrir ou afficher des ressources Google Cloud, Data Catalog vérifie que l'utilisateur dispose d'un rôle IAM avec les autorisations de lecture des métadonnées requises par BigQuery, Pub/Sub ou tout autre système source permettant d'accéder à la ressource.
Exemple : Data Catalog vérifie que l'utilisateur s'est vu attribuer un rôle doté de l'autorisation bigquery.tables.get
avant d'afficher les métadonnées de la table BigQuery.
new_york_citibike
. Il s'agit d'une sous-tâche de l'ensemble de données Bike Share auquel vous avez accès.Au niveau des tables BigQuery, Data Catalog vous permet d'ajouter des tags aux éléments suivants :
Essayez de cliquer sur le bouton Associer des tags :
Vérifiez qu'un message d'erreur semblable à celui-ci s'affiche :
Le rôle Analyste de données permet de rechercher des métadonnées dans Data Catalog, mais pas d'ajouter des tags.
Maintenant, découvrez comment fonctionnent les autorisations d'ajout de tag et les modèles de tag dans Data Catalog.
Les modèles de tag Data Catalog vous aident à créer et à gérer des métadonnées communes sur les éléments de données dans un emplacement unique. Les tags sont associés à l'élément de données, qui est donc visible dans le système Data Catalog. Cette fonctionnalité vous permet également de créer d'autres applications qui utilisent ces métadonnées contextuelles associées à un élément de données.
Pour créer des modèles de tag, l'utilisateur doit au moins disposer d'un accès en modification à la ressource concernée (dans cet atelier, BigQuery) ET du rôle datacatalog.tagTemplateUser
(sous réserve qu'un modèle ait déjà été créé). Pour en savoir plus, consultez le Guide IAM pour Data Catalog.
Et si vous avez besoin de créer un modèle de tag ? Pour cela, vous devez disposer au minimum d'un rôle datacatalog.tagTemplateCreator
ou roles/datacatalog.tagTemplateOwner
. Le rôle Propriétaire vous permet de supprimer les modèles existants et d'autres droits d'administrateur.
Les rôles Cloud IAM les plus souvent prédéfinis dans Data Catalog sont les suivants :
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
Connectez-vous avec le rôle Propriétaire, qui dispose de l'autorisation roles/datacatalog.tagTemplateOwner
.
Sélectionnez le projet NYC Bike Share
utilisé précédemment.
Accédez à Data Catalog.
Créez un modèle de tag en cliquant sur Modèles de tag > Créer un modèle de tag.
Saisissez les informations générales du nouveau modèle et nommez-le Ensembles de données New York.
Sélectionnez l'emplacement
Cliquez sur Ajouter un champ.
Nommez le nouveau champ Contient des infos personnelles, Cochez la case Rendre ce champ obligatoire, sélectionnez le type Booléen, puis cliquez sur OK.
Cliquez sur Ajouter un champ.
Nommez le champ Type d'infos personnelles, sélectionnez le type Énuméré, ajoutez les valeurs indiquées ci-dessous, puis cliquez sur OK une fois que vous avez terminé :
Cliquez sur Ajouter un champ.
Nommez le champ Équipe propriétaire des données, cochez la case Rendre ce champ obligatoire, sélectionnez le type Énuméré, ajoutez les valeurs indiquées ci-dessous, puis cliquez sur OK une fois que vous avez terminé :
Cliquez sur Rechercher les entrées qui n'utilisent pas ce modèle.
Cliquez sur l'ensemble de données new_york_mv_collisions.
Vous verrez qu'il n'y a aucun tag sous le nom de l'ensemble de données. Cliquez sur Associer des tags.
Sélectionnez le modèle que vous avez créé précédemment, puis cliquez sur OK.
À l'aide des menus déroulants, indiquez les valeurs ci-dessous pour les champs du modèle, puis cliquez sur Enregistrer.
Pour plus de précision, vous pouvez appliquer des tags au niveau des tables et des colonnes.
Retournez aux éléments de notre précédente recherche, puis cliquez sur la table nypd_mv_collisions
.
Cliquez sur Associer des tags et définissez les champs suivants pour les tags de colonne et de schéma :
Table : nypd_mv_collisions
Colonne : Emplacement
Modèle de tag : Ensembles de données New York
Valeurs des tags :
Ensuite, cliquez sur Enregistrer.
Ajoutez au champ un tag d'informations permettant d'identifier personnellement l'utilisateur en termes de géolocalisation, puis assurez-vous qu'il s'affiche lorsque vous cliquez sur le nom du modèle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Maintenant que vous avez ajouté des tags, vous pouvez les utiliser pour effectuer des recherches dans votre catalogue.
tag:qwiklabs-VOTRE-PROJET-ICI.ensembles_de_données_new_york.contient_des_infos_personnelles
, puis remplacez le préfixe de l'ID de projet par l'ID de votre projet Qwiklabs en cours.Vous vous êtes familiarisé avec Data Catalog. Pour cela, vous avez effectué les tâches suivantes :
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 30 avril 2024
Dernier test de l'atelier : 30 avril 2024
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
One lab at a time
Confirm to end all existing labs and start this one