Points de contrôle
Create a database for replication
/ 50
Create the Datastream resources
/ 50
Datastream : Réplication de PostgreSQL vers BigQuery
- GSP1052
- Présentation
- Préparation
- Tâche 1 : Créer une base de données pour la réplication
- Tâche 2 : Créer les ressources Datastream et démarrer la réplication
- Tâche 3 : Afficher les données dans BigQuery
- Tâche 4 : Vérifier que les modifications apportées dans la source sont répliquées dans BigQuery
- Félicitations !
GSP1052
Présentation
Dans l'environnement concurrentiel actuel, les organisations doivent prendre des décisions rapides et efficaces basées sur les données en temps réel. Datastream pour BigQuery propose la réplication transparente depuis des sources de bases de données opérationnelles telles que AlloyDB, MySQL, PostgreSQL et Oracle, directement vers BigQuery, l'entrepôt de données sans serveur de Google Cloud. Grâce à son architecture sans serveur à autoscaling, Datastream vous permet de configurer facilement un pipeline ELT (extraction, chargement et transformation) pour la réplication de données à faible latence, vous permettant ainsi de bénéficier d'insights en temps réel.
Dans cet atelier pratique, vous allez déployer une base de données Cloud SQL pour PostgreSQL et importer un exemple d'ensemble de données à l'aide de la ligne de commande gcloud
. Dans l'UI, vous allez créer et lancer un flux Datastream, et répliquer les données dans BigQuery.
Même si vous pouvez facilement copier et coller les commandes du présent atelier aux endroits appropriés, nous vous conseillons de les saisir vous-même afin de mieux assimiler les concepts fondamentaux.
Objectifs de l'atelier
- Préparer une instance Cloud SQL pour PostgreSQL à l'aide de la console Google Cloud
- Importer les données dans l'instance Cloud SQL
- Créer un profil de connexion Datastream pour la base de données PostgreSQL
- Créer un profil de connexion Datastream pour la destination BigQuery
- Créer un flux Datastream et démarrer la réplication
- Vérifier que les données existantes et les modifications sont bien répliquées dans BigQuery
Prérequis
- Bonne connaissance des environnements Linux standards
- Bonne connaissance des concepts de capture des données modifiées (CDC, Change Data Capture)
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}} Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}} Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
- Cliquez sur Activer Cloud Shell en haut de la console Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
-
Cliquez sur Autoriser.
-
Vous devez à présent obtenir le résultat suivant :
Résultat :
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
Résultat :
Exemple de résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Tâche 1 : Créer une base de données pour la réplication
Dans cette section, vous allez préparer une base de données Cloud SQL pour PostgreSQL pour la réplication Datastream.
Créer la base de données Cloud SQL
- Exécutez la commande suivante pour activer l'API Cloud SQL :
- Exécutez la commande suivante pour créer une instance de base de données Cloud SQL pour PostgreSQL :
DATASTREAM_IPS
par les adresses IP publiques de Datastream adaptées à votre région.
Une fois la base de données créée, notez l'adresse IP publique de l'instance. Vous en aurez besoin ultérieurement lors de la création du profil de connexion Datastream.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Insérer des exemples de données dans la base de données
Connectez-vous à la base de données PostgreSQL en exécutant la commande suivante dans Cloud Shell.
Lorsque vous êtes invité à saisir le mot de passe, indiquez pwd
.
Une fois connecté à la base de données, exécutez la commande SQL suivante pour créer un exemple de schéma et de table :
Configurer la base de données pour la réplication
- Exécutez la commande SQL suivante pour créer une publication et un emplacement de réplication :
Tâche 2 : Créer les ressources Datastream et démarrer la réplication
Maintenant que la base de données est prête, créez les profils de connexion et le flux Datastream pour démarrer la réplication.
-
Dans le menu de navigation, cliquez sur Afficher tous les produits. Sous Analyse, sélectionnez Datastream.
-
Cliquez sur Activer pour activer l'API Datastream.
Créer des profils de connexion
Créez deux profils de connexion : l'un pour la source PostgreSQL, l'autre pour la destination BigQuery.
Profil de connexion PostgreSQL
- Dans la console Cloud, accédez à l'onglet Profils de connexion, puis cliquez sur Créer un profil.
- Sélectionnez le type de profil de connexion PostgreSQL.
-
Définissez le nom et l'ID du profil de connexion sur
postgres-cp
. -
Saisissez les informations sur la connexion à la base de données :
- Région :
- Adresse IP et port de l'instance Cloud SQL créée précédemment
- Nom d'utilisateur :
postgres
- Mot de passe :
pwd
- Base de données :
postgres
-
Cliquez sur Continuer.
-
Conservez la valeur AUCUN du chiffrement, puis cliquez sur CONTINUER.
-
Sélectionnez la méthode de connectivité Liste d'autorisation d'adresses IP, puis cliquez sur Continuer.
-
Cliquez sur EFFECTUER LE TEST pour vérifier que Datastream peut accéder à la base de données.
-
Cliquez sur Créer.
Profil de connexion BigQuery
- Dans la console Cloud, accédez à l'onglet Profils de connexion, puis cliquez sur Créer un profil.
- Sélectionnez le type de profil de connexion BigQuery.
-
Définissez le nom et l'ID du profil de connexion sur
bigquery-cp
. -
Région
-
Cliquez sur Créer.
Créer un flux
Créez le flux permettant d'associer les profils de connexion créés ci-dessus et de configurer les données à transférer de la source vers la destination.
- Dans la console Cloud, accédez à l'onglet Flux, puis cliquez sur Créer un flux.
Définir les détails du flux
- Définissez le nom et l'ID du flux sur
test-stream
. - Région
- Sélectionnez PostgreSQL comme type de source.
- Sélectionnez BigQuery comme type de destination.
- Cliquez sur CONTINUER.
Définir la source
- Sélectionnez le profil de connexion postgres-cp créé à l'étape précédente.
- [Facultatif] Cliquez sur EFFECTUER LE TEST pour tester la connectivité.
- Cliquez sur CONTINUER.
Configurer la source
- Définissez le nom de l'emplacement de réplication sur
test_replication
. - Définissez le titre de la publication sur
test_publication
.
- Sélectionnez le schéma test pour la réplication.
- Cliquez sur Continuer.
Définir la destination
- Sélectionnez le profil de connexion bigquery-cp créé à l'étape précédente, puis cliquez sur Continuer.
Configurer la destination
- Choisissez une région, puis sélectionnez
comme emplacement de l'ensemble de données BigQuery. - Définissez la limite d'obsolescence sur 0 seconde.
- Cliquez sur Continuer.
Examiner et créer le flux
- Enfin, validez les détails du flux en cliquant sur EXÉCUTER LA VALIDATION. Une fois la validation terminée, cliquez sur CRÉER ET DÉMARRER.
Patientez environ 1 à 2 minutes jusqu'à ce que l'état du flux indique qu'il est en cours d'exécution.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 3 : Afficher les données dans BigQuery
Maintenant que le flux est en cours d'exécution, observez la réplication des données dans l'ensemble de données BigQuery.
- Dans le menu de navigation de la console Google Cloud, accédez à BigQuery.
- Dans l'explorateur BigQuery Studio, développez le nœud du projet pour afficher la liste des ensembles de données.
- Développez le nœud de l'ensemble de données test.
- Cliquez sur la table example_table.
- Cliquez sur l'onglet APERÇU pour afficher les données dans BigQuery.
Tâche 4 : Vérifier que les modifications apportées dans la source sont répliquées dans BigQuery
- Exécutez la commande suivante dans Cloud Shell pour vous connecter à la base de données Cloud SQL (le mot de passe est
pwd
) :
- Exécutez les commandes SQL suivantes pour apporter des modifications aux données :
- Ouvrez l'espace de travail BigQuery SQL, puis exécutez la requête suivante pour afficher les modifications dans BigQuery :
Félicitations !
Datastream est un outil essentiel dans votre boîte à outils d'intégration et d'analyse des données. Vous avez découvert les principes de base de la réplication de PostgreSQL vers BigQuery avec Datastream.
Dernière mise à jour du manuel : 23 août 2024
Dernier test de l'atelier : 23 août 2024
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.