arrow_back

Datastream : Réplication de PostgreSQL vers BigQuery

Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Datastream : Réplication de PostgreSQL vers BigQuery

Atelier 1 heure universal_currency_alt 1 crédit show_chart Débutant
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

GSP1052

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dans l'environnement concurrentiel actuel, les organisations doivent prendre des décisions rapides et efficaces basées sur les données en temps réel. Datastream pour BigQuery propose la réplication transparente depuis des sources de bases de données opérationnelles telles que AlloyDB, MySQL, PostgreSQL et Oracle, directement vers BigQuery, l'entrepôt de données sans serveur de Google Cloud. Grâce à son architecture sans serveur à autoscaling, Datastream vous permet de configurer facilement un pipeline ELT (extraction, chargement et transformation) pour la réplication de données à faible latence, vous permettant ainsi de bénéficier d'insights en temps réel.

Dans cet atelier pratique, vous allez déployer une base de données Cloud SQL pour PostgreSQL et importer un exemple d'ensemble de données à l'aide de la ligne de commande gcloud. Dans l'UI, vous allez créer et lancer un flux Datastream, et répliquer les données dans BigQuery.

Même si vous pouvez facilement copier et coller les commandes du présent atelier aux endroits appropriés, nous vous conseillons de les saisir vous-même afin de mieux assimiler les concepts fondamentaux.

Objectifs de l'atelier

  • Préparer une instance Cloud SQL pour PostgreSQL à l'aide de la console Google Cloud
  • Importer les données dans l'instance Cloud SQL
  • Créer un profil de connexion Datastream pour la base de données PostgreSQL
  • Créer un profil de connexion Datastream pour la destination BigQuery
  • Créer un flux Datastream et démarrer la réplication
  • Vérifier que les données existantes et les modifications sont bien répliquées dans BigQuery

Prérequis

  • Bonne connaissance des environnements Linux standards
  • Bonne connaissance des concepts de capture des données modifiées (CDC, Change Data Capture)

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google Cloud
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).

    L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.

    {{{user_0.username | "Username"}}}

    Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.

  4. Cliquez sur Suivant.

  5. Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.

    {{{user_0.password | "Password"}}}

    Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.

  6. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  7. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas à des essais gratuits.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Pour afficher un menu contenant la liste des produits et services Google Cloud, cliquez sur le menu de navigation en haut à gauche. Icône du menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.

  1. Cliquez sur Activer Cloud Shell Icône Activer Cloud Shell en haut de la console Google Cloud.

Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.

  1. (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
gcloud auth list
  1. Cliquez sur Autoriser.

  2. Vous devez à présent obtenir le résultat suivant :

Résultat :

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
gcloud config list project

Résultat :

[core] project = <ID_Projet>

Exemple de résultat :

[core] project = qwiklabs-gcp-44776a13dea667a6 Remarque : Pour consulter la documentation complète sur gcloud, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.

Tâche 1 : Créer une base de données pour la réplication

Dans cette section, vous allez préparer une base de données Cloud SQL pour PostgreSQL pour la réplication Datastream.

Créer la base de données Cloud SQL

  1. Exécutez la commande suivante pour activer l'API Cloud SQL :
gcloud services enable sqladmin.googleapis.com
  1. Exécutez la commande suivante pour créer une instance de base de données Cloud SQL pour PostgreSQL :
POSTGRES_INSTANCE=postgres-db DATASTREAM_IPS={{{project_0.startup_script.ip_Address | IP_ADDRESS}}} gcloud sql instances create ${POSTGRES_INSTANCE} \ --database-version=POSTGRES_14 \ --cpu=2 --memory=10GB \ --authorized-networks=${DATASTREAM_IPS} \ --region={{{project_0.default_region|REGION}}} \ --root-password pwd \ --database-flags=cloudsql.logical_decoding=on Remarque : Cette commande crée la base de données dans . Pour d'autres régions, veillez à remplacer DATASTREAM_IPS par les adresses IP publiques de Datastream adaptées à votre région.

Une fois la base de données créée, notez l'adresse IP publique de l'instance. Vous en aurez besoin ultérieurement lors de la création du profil de connexion Datastream.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Créer une base de données pour la réplication

Insérer des exemples de données dans la base de données

Connectez-vous à la base de données PostgreSQL en exécutant la commande suivante dans Cloud Shell.

gcloud sql connect postgres-db --user=postgres

Lorsque vous êtes invité à saisir le mot de passe, indiquez pwd.

Une fois connecté à la base de données, exécutez la commande SQL suivante pour créer un exemple de schéma et de table :

CREATE SCHEMA IF NOT EXISTS test; CREATE TABLE IF NOT EXISTS test.example_table ( id SERIAL PRIMARY KEY, text_col VARCHAR(50), int_col INT, date_col TIMESTAMP ); ALTER TABLE test.example_table REPLICA IDENTITY DEFAULT; INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('hello', 0, '2020-01-01 00:00:00'), ('goodbye', 1, NULL), ('name', -987, NOW()), ('other', 2786, '2021-01-01 00:00:00');

Configurer la base de données pour la réplication

  • Exécutez la commande SQL suivante pour créer une publication et un emplacement de réplication :
CREATE PUBLICATION test_publication FOR ALL TABLES; ALTER USER POSTGRES WITH REPLICATION; SELECT PG_CREATE_LOGICAL_REPLICATION_SLOT('test_replication', 'pgoutput');

Tâche 2 : Créer les ressources Datastream et démarrer la réplication

Maintenant que la base de données est prête, créez les profils de connexion et le flux Datastream pour démarrer la réplication.

  1. Dans le menu de navigation, cliquez sur Afficher tous les produits. Sous Analyse, sélectionnez Datastream.

  2. Cliquez sur Activer pour activer l'API Datastream.

64c95a330abbceb6.png

Créer des profils de connexion

Créez deux profils de connexion : l'un pour la source PostgreSQL, l'autre pour la destination BigQuery.

Profil de connexion PostgreSQL

  1. Dans la console Cloud, accédez à l'onglet Profils de connexion, puis cliquez sur Créer un profil.
page &quot;Profils de connexion&quot; avec le lien &quot;Créer un profil&quot; en haut à droite
  1. Sélectionnez le type de profil de connexion PostgreSQL.
PostgreSQL est l&#39;une des vignettes affichées
  1. Définissez le nom et l'ID du profil de connexion sur postgres-cp.

  2. Saisissez les informations sur la connexion à la base de données :

  • Région :
  • Adresse IP et port de l'instance Cloud SQL créée précédemment
  • Nom d'utilisateur : postgres
  • Mot de passe : pwd
  • Base de données : postgres
  1. Cliquez sur Continuer.

  2. Conservez la valeur AUCUN du chiffrement, puis cliquez sur CONTINUER.

  3. Sélectionnez la méthode de connectivité Liste d'autorisation d'adresses IP, puis cliquez sur Continuer.

  4. Cliquez sur EFFECTUER LE TEST pour vérifier que Datastream peut accéder à la base de données.

  5. Cliquez sur Créer.

Profil de connexion BigQuery

  1. Dans la console Cloud, accédez à l'onglet Profils de connexion, puis cliquez sur Créer un profil.
page &quot;Profils de connexion&quot; avec le lien &quot;Créer un profil&quot; en haut à droite
  1. Sélectionnez le type de profil de connexion BigQuery.
BigQuery est l&#39;une des vignettes affichées
  1. Définissez le nom et l'ID du profil de connexion sur bigquery-cp.

  2. Région

  3. Cliquez sur Créer.

Créer un flux

Créez le flux permettant d'associer les profils de connexion créés ci-dessus et de configurer les données à transférer de la source vers la destination.

  • Dans la console Cloud, accédez à l'onglet Flux, puis cliquez sur Créer un flux.
onglet &quot;Flux&quot; avec le lien &quot;Créer un flux&quot; en haut à droite

Définir les détails du flux

  1. Définissez le nom et l'ID du flux sur test-stream.
  2. Région
  3. Sélectionnez PostgreSQL comme type de source.
  4. Sélectionnez BigQuery comme type de destination.
  5. Cliquez sur CONTINUER.
étape 1 de la page d&#39;informations &quot;Créer un flux&quot; renseignée

Définir la source

  1. Sélectionnez le profil de connexion postgres-cp créé à l'étape précédente.
  2. [Facultatif] Cliquez sur EFFECTUER LE TEST pour tester la connectivité.
  3. Cliquez sur CONTINUER.
étape 2 de la page &quot;Créer un flux&quot; renseignée

Configurer la source

  1. Définissez le nom de l'emplacement de réplication sur test_replication.
  2. Définissez le titre de la publication sur test_publication.
étape 3 de la page &quot;Créer un flux&quot; renseignée
  1. Sélectionnez le schéma test pour la réplication.
schéma &quot;test&quot; sélectionné parmi plusieurs propositions
  1. Cliquez sur Continuer.

Définir la destination

  • Sélectionnez le profil de connexion bigquery-cp créé à l'étape précédente, puis cliquez sur Continuer.
étape 4 de la page &quot;Créer un flux&quot; avec bigquery-cp sélectionné

Configurer la destination

  1. Choisissez une région, puis sélectionnez comme emplacement de l'ensemble de données BigQuery.
  2. Définissez la limite d'obsolescence sur 0 seconde.
étape 5 de la page &quot;Créer un flux&quot; avec l&#39;emplacement sélectionné
  1. Cliquez sur Continuer.

Examiner et créer le flux

  • Enfin, validez les détails du flux en cliquant sur EXÉCUTER LA VALIDATION. Une fois la validation terminée, cliquez sur CRÉER ET DÉMARRER.
résultats de la validation avec des coches vertes

Patientez environ 1 à 2 minutes jusqu'à ce que l'état du flux indique qu'il est en cours d'exécution.

Cliquez sur Vérifier ma progression pour valider l'objectif.

Créer les ressources Datastream

Tâche 3 : Afficher les données dans BigQuery

Maintenant que le flux est en cours d'exécution, observez la réplication des données dans l'ensemble de données BigQuery.

  1. Dans le menu de navigation de la console Google Cloud, accédez à BigQuery.
  2. Dans l'explorateur BigQuery Studio, développez le nœud du projet pour afficher la liste des ensembles de données.
  3. Développez le nœud de l'ensemble de données test.
  4. Cliquez sur la table example_table.
  5. Cliquez sur l'onglet APERÇU pour afficher les données dans BigQuery.
Remarque : L'affichage des données dans la section Aperçu peut prendre quelques minutes. page de l&#39;explorateur BigQuery avec la table example_table visible

Tâche 4 : Vérifier que les modifications apportées dans la source sont répliquées dans BigQuery

  1. Exécutez la commande suivante dans Cloud Shell pour vous connecter à la base de données Cloud SQL (le mot de passe est pwd) :
gcloud sql connect postgres-db --user=postgres
  1. Exécutez les commandes SQL suivantes pour apporter des modifications aux données :
INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('abc', 0, '2022-10-01 00:00:00'), ('def', 1, NULL), ('ghi', -987, NOW()); UPDATE test.example_table SET int_col=int_col*2; DELETE FROM test.example_table WHERE text_col = 'abc';
  1. Ouvrez l'espace de travail BigQuery SQL, puis exécutez la requête suivante pour afficher les modifications dans BigQuery :
SELECT * FROM test.example_table ORDER BY id; résultats de la requête

Félicitations !

Datastream est un outil essentiel dans votre boîte à outils d'intégration et d'analyse des données. Vous avez découvert les principes de base de la réplication de PostgreSQL vers BigQuery avec Datastream.

Dernière mise à jour du manuel : 23 août 2024

Dernier test de l'atelier : 23 août 2024

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible