Points de contrôle
Create the connection resource
/ 20
Set up access to a Cloud Storage data lake
/ 30
Create the BigLake table
/ 20
Create the external table
/ 10
Update external table to Biglake table
/ 20
BigLake : Qwik Start
- GSP1040
- Présentation
- Objectifs
- Préparation
- Tâche 1 : Créer une ressource de connexion
- Tâche 2 : Configurer l'accès à un lac de données Cloud Storage
- Tâche 3 : Créer une table BigLake
- Tâche 4 : Interroger une table BigLake via BigQuery
- Tâche 5 : Configurer des stratégies de contrôle d'accès
- Tâche 6 : Mettre à niveau des tables externes vers des tables BigLake
- Félicitations !
GSP1040
Présentation
BigLake est un moteur de stockage unifié qui simplifie l'accès aux données pour les entrepôts et les lacs de données en offrant un contrôle des accès uniforme et précis. Il est compatible avec le stockage multicloud et permet d'utiliser des formats ouverts.
BigLake étend la sécurité ultraprécise de BigQuery (au niveau des lignes et des colonnes) aux tables des stores qui hébergent des données sous forme d'objets, tels qu'Amazon S3, Azure Data Lake Storage Gen2 et Google Cloud Storage. BigLake dissocie l'accès à la table des données sous-jacentes stockées sur le cloud grâce à la délégation d'accès. Cette fonctionnalité permet d'accorder de manière sécurisée un accès au niveau des lignes et des colonnes aux utilisateurs et aux pipelines de votre organisation, sans leur donner un accès complet à la table.
Une fois la table BigLake créée, vous pouvez l'interroger comme n'importe quelle autre table BigQuery. BigQuery applique des contrôles d'accès au niveau des lignes et des colonnes. Chaque utilisateur ne voit ainsi que la tranche de données qu'il a l'autorisation de consulter. Les stratégies de gouvernance sont appliquées à tous les accès aux données effectués par l'intermédiaire des API BigQuery. Par exemple, l'API BigQuery Storage permet aux utilisateurs d'accéder à des données autorisées à l'aide de moteurs de requête Open Source tels qu'Apache Spark, comme le montre le schéma suivant :
Objectifs
Au cours de cet atelier, vous allez :
- créer et afficher une ressource de connexion ;
- configurer l'accès à un lac de données Cloud Storage ;
- créer une table BigLake ;
- interroger la table BigLake via BigQuery ;
- configurer des stratégies de contrôle d'accès ;
- mettre à niveau des tables externes vers des tables BigLake.
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}} Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}} Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
- Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
-
Cliquez sur Autoriser.
-
Vous devez à présent obtenir le résultat suivant :
Résultat :
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
Résultat :
Exemple de résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Tâche 1 : Créer une ressource de connexion
Les tables BigLake accèdent aux données Google Cloud Storage à l'aide d'une ressource de connexion. Une ressource de connexion peut être associée à une seule table ou à un groupe arbitraire de tables du projet.
-
Dans le menu de navigation, accédez à BigQuery > BigQuery Studio. Cliquez sur OK.
-
Pour créer une connexion, cliquez sur + AJOUTER, puis sur Connexions à des sources de données externes.
- Dans la liste "Type de connexion", sélectionnez Modèles distants Vertex AI, fonctions à distance et BigLake (Ressource Cloud).
-
Dans le champ "ID de connexion", saisissez
my-connection
. -
Pour "Type d'emplacement", choisissez Multirégional, puis sélectionnez US (plusieurs régions aux États-Unis) dans le menu déroulant.
-
Cliquez sur Créer une connexion.
-
Pour afficher vos informations de connexion, sélectionnez la connexion dans le menu de navigation.
- Dans la section Informations de connexion, copiez l'ID du compte de service. Vous en aurez besoin dans la section suivante.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 2 : Configurer l'accès à un lac de données Cloud Storage
Dans cette section, vous allez accorder à la nouvelle ressource de connexion un accès en lecture seule au lac de données Cloud Storage afin que BigQuery puisse accéder aux fichiers Cloud Storage pour le compte des utilisateurs. Nous vous recommandons d'attribuer au compte de service de la ressource de connexion le rôle IAM Lecteur d'objets Storage, qui permet au compte de service d'accéder aux buckets Cloud Storage.
-
Dans le menu de navigation, accédez à IAM et administration > IAM.
-
Cliquez sur ACCORDER L'ACCÈS.
-
Dans le champ Nouveaux comptes principaux, saisissez l'ID de compte de service que vous avez copié précédemment.
-
Dans le champ Sélectionner un rôle, sélectionnez Cloud Storage, puis Lecteur d'objets Storage.
- Cliquez sur Enregistrer.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 3 : Créer une table BigLake
L'exemple suivant utilise le format de fichier CSV, mais vous pouvez utiliser n'importe quel format compatible avec BigLake, comme indiqué dans la section Limitations. Vous savez comment créer des tables dans BigQuery ? Le processus est ici similaire. Seule différence : vous spécifiez la connexion de ressource cloud associée.
Si aucun schéma n'a été fourni et que l'accès au bucket n'a pas été accordé au compte de service à l'étape précédente, cette étape échoue et un message de type "accès refusé" vous est renvoyé.
Créer un ensemble de données
-
Revenez dans BigQuery > BigQuery Studio.
-
Cliquez sur les trois points à côté du nom de votre projet et sélectionnez Créer un ensemble de données.
-
Dans le champ ID de l'ensemble de données, indiquez
demo_dataset
. -
Pour "Type d'emplacement", choisissez Multirégional, puis sélectionnez US (plusieurs régions aux États-Unis) dans le menu déroulant.
-
Laissez les valeurs par défaut des autres champs et cliquez sur Créer un ensemble de données.
Maintenant que vous avez créé un ensemble de données, vous pouvez copier un ensemble de données existant depuis Cloud Storage vers BigQuery.
Créer la table
- Cliquez sur les trois points à côté de demo_dataset, puis choisissez Créer une table.
- Dans "Source", pour l'option Créer une table à partir de, sélectionnez Google Cloud Storage.
-
Cliquez sur Parcourir pour sélectionner l'ensemble de données. Accédez au bucket nommé
, puis au fichier customer.csv
à importer dans BigQuery, et cliquez sur Sélectionner. -
Sous Destination, vérifiez que le projet de l'atelier a été sélectionné et que vous utilisez l'ensemble de données demo_dataset.
-
Nommez la table
biglake_table
. -
Définissez "Type de table" sur Table externe.
-
Cochez la case Créer une table BigLake à l'aide d'une connexion à une ressource cloud.
Vérifiez que l'ID de connexion us.my-connection est sélectionné. Votre configuration doit se présenter comme suit :
- Sous Schéma, activez l'option Modifier sous forme de texte, puis copiez et collez le schéma suivant dans la zone de texte :
- Cliquez sur Créer une table.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 4 : Interroger une table BigLake via BigQuery
Maintenant que vous avez créé la table BigLake, vous pouvez envoyer une requête à l'aide de n'importe quel client BigQuery.
-
Dans la barre d'outils d'aperçu biglake_table, cliquez sur Requête > Dans un nouvel onglet.
-
Exécutez la commande suivante pour interroger la table BigLake via l'éditeur BigQuery :
-
Cliquez sur Exécuter.
-
Vérifiez que vous voyez bien toutes les colonnes et données dans la table obtenue.
Tâche 5 : Configurer des stratégies de contrôle d'accès
Une fois la table BigLake créée, vous pouvez la gérer de la même manière qu'une table BigQuery. Pour créer des stratégies de contrôle d'accès pour les tables BigLake, vous devez d'abord créer une taxonomie de tags avec stratégie dans BigQuery. Ensuite, appliquez les tags avec stratégie aux lignes ou colonnes sensibles. Dans cette section, vous allez créer une stratégie au niveau des colonnes. Pour savoir comment configurer la sécurité au niveau des lignes, consultez le guide de la sécurité au niveau des lignes.
À cette fin, une taxonomie BigQuery nommée
Ajouter des tags avec stratégie à des colonnes
Vous allez maintenant utiliser le tag avec stratégie que vous avez créé pour limiter l'accès à certaines colonnes de la table BigQuery. Dans cet exemple, vous allez restreindre l'accès à des informations sensibles (adresse, code postal et numéro de téléphone).
-
Dans le menu de navigation, accédez à BigQuery > BigQuery Studio.
-
Accédez à demo-dataset > biglake_table, puis cliquez sur la table pour ouvrir la page présentant son schéma.
-
Cliquez sur Modifier le schéma.
-
Cochez les cases correspondant aux champs address, postal_code et phone.
-
Cliquez sur Ajouter un tag avec stratégie.
-
Cliquez sur
pour le développer, et sélectionnez biglake-policy.
-
Cliquez sur Sélectionner.
Le tag avec stratégie doit désormais être associé aux colonnes.
-
Cliquez sur Enregistrer.
-
Vérifiez que le schéma de votre table se présente maintenant comme suit.
Vérifier la sécurité au niveau des colonnes
-
Ouvrez l'éditeur de requête pour la table biglake_table.
-
Exécutez la commande suivante pour interroger la table BigLake via l'éditeur BigQuery :
-
Cliquez sur Exécuter.
Un message d'erreur de type "accès refusé" doit s'afficher :
- À présent, exécutez la requête suivante en omettant les colonnes auxquelles vous n'avez pas accès :
La requête doit s'exécuter sans aucun problème et renvoyer les colonnes auxquelles vous avez accès. Cet exemple montre que la sécurité au niveau des colonnes appliquée dans BigQuery s'applique également aux tables BigLake.
Tâche 6 : Mettre à niveau des tables externes vers des tables BigLake
Vous pouvez mettre à niveau une table existante vers une table BigLake en associant la table existante à une connexion de ressource cloud. Pour obtenir la liste complète des options et arguments, consultez bq update
et bq mkdef
.
Créer la table externe
-
Cliquez sur les trois points à côté de demo_dataset, puis choisissez Créer une table.
-
Dans "Source", pour l'option Créer une table à partir de, sélectionnez Google Cloud Storage.
-
Cliquez sur Parcourir pour sélectionner l'ensemble de données. Accédez au bucket nommé
, puis au fichier invoice.csv
à importer dans BigQuery, et cliquez sur Sélectionner. -
Sous Destination, vérifiez que le projet de l'atelier a été sélectionné et que vous utilisez l'ensemble de données demo_dataset.
-
Nommez la table
external_table
. -
Définissez "Type de table" sur Table externe.
- Sous Schéma, activez l'option Modifier sous forme de texte, puis copiez et collez le schéma suivant dans la zone de texte :
- Cliquez sur Créer une table.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Mettre à niveau la table externe vers une table BigLake
- Ouvrez une nouvelle fenêtre Cloud Shell, puis exécutez la commande suivante pour générer une nouvelle définition de table externe qui indique la connexion à utiliser :
- Vérifiez que la définition de table a bien été créée :
- Obtenez le schéma de votre table :
- Mettez à niveau la table en utilisant la nouvelle définition de table externe :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vérifier la table mise à niveau
-
Dans le menu de navigation, accédez à BigQuery > BigQuery Studio.
-
Accédez à demo-dataset > double-clic sur external_table.
-
Ouvrez l'onglet Détails.
-
Sous "Configuration des données externes", vérifiez que la table utilise désormais l'ID de connexion approprié.
Parfait ! Vous avez bien mis à niveau la table externe existante vers une table BigLake en l'associant à une connexion de ressource cloud.
Félicitations !
Dans cet atelier, vous avez créé une ressource de connexion, configuré l'accès à un lac de données Cloud Storage et créé une table BigLake à partir de celui-ci. Vous avez ensuite interrogé la table BigLake via BigQuery et configuré des stratégies de contrôle d'accès au niveau des colonnes. Enfin, vous avez mis à niveau une table externe existante vers une table BigLake à l'aide d'une ressource de connexion.
Étapes suivantes et informations supplémentaires
Pour vous familiariser davantage avec BigLake, consultez la documentation suivante :
- Présentation des tables BigLake
- Créer et gérer des tables BigLake
- Interroger une table BigLake en utilisant des connecteurs
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 16 janvier 2024
Dernier test de l'atelier : 16 janvier 2024
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.