arrow_back

Datastream: Replikasi PostgreSQL ke BigQuery

Login Gabung
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

Datastream: Replikasi PostgreSQL ke BigQuery

Lab 1 jam universal_currency_alt 1 Kredit show_chart Pengantar
info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

GSP1052

Lab Mandiri Google Cloud

Ringkasan

Dalam lingkungan kompetitif saat ini, organisasi perlu membuat keputusan dengan cepat dan mudah berdasarkan data real-time. Datastream untuk BigQuery menghadirkan replikasi yang lancar dari sumber database operasional seperti AlloyDB, MySQL, PostgreSQL, dan Oracle, langsung ke BigQuery, yang merupakan data warehouse serverless milik Google Cloud. Dengan arsitektur penskalaan otomatis serverless, Datastream dapat Anda gunakan untuk menyiapkan pipeline ELT (Ekstraksi, Pemuatan, Transformasi) dengan mudah untuk replikasi data latensi rendah yang memungkinkan insight real-time.

Di lab praktik ini, Anda akan men-deploy database Cloud SQL untuk PostgreSQL dan mengimpor set data sampel menggunakan command line gcloud. Di UI, Anda akan membuat dan memulai aliran data Datastream dan mereplikasi data ke BigQuery.

Meskipun Anda dapat dengan mudah menyalin dan menempelkan perintah dari lab ke tempat yang sesuai, cobalah untuk mengetikkan perintah tersebut sendiri untuk memperkuat pemahaman konsep inti.

Yang akan Anda lakukan

  • Menyiapkan instance Cloud SQL untuk PostgreSQL menggunakan Konsol Google Cloud
  • Mengimpor data ke instance Cloud SQL
  • Membuat profil koneksi Datastream untuk database PostgreSQL
  • Membuat profil koneksi Datastream untuk tujuan BigQuery
  • Membuat aliran data Datastream dan memulai replikasi
  • Memvalidasi bahwa data dan perubahan yang ada direplikasi dengan benar ke BigQuery

Prasyarat

  • Berpengalaman dengan lingkungan Linux standar
  • Berpengalaman dengan konsep pengambilan data perubahan (CDC)

Penyiapan dan persyaratan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:

    • Tombol Open Google Cloud console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

    Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.

    {{{user_0.username | "Username"}}}

    Anda juga dapat menemukan Username di panel Lab Details.

  4. Klik Next.

  5. Salin Password di bawah dan tempel ke dialog Welcome.

    {{{user_0.password | "Password"}}}

    Anda juga dapat menemukan Password di panel Lab Details.

  6. Klik Next.

    Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  7. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk melihat menu dengan daftar produk dan layanan Google Cloud, klik Navigation menu di kiri atas. Ikon Navigation menu

Mengaktifkan Cloud Shell

Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.

  1. Klik Activate Cloud Shell Ikon Activate Cloud Shell di bagian atas konsol Google Cloud.

Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke PROJECT_ID Anda. Output berisi baris yang mendeklarasikan PROJECT_ID untuk sesi ini:

Project Cloud Platform Anda dalam sesi ini disetel ke YOUR_PROJECT_ID

gcloud adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.

  1. (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
gcloud auth list
  1. Klik Authorize.

  2. Output Anda sekarang akan terlihat seperti ini:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net Untuk menyetel akun aktif, jalankan: $ gcloud config set account `ACCOUNT`
  1. (Opsional) Anda dapat menampilkan daftar project ID dengan perintah ini:
gcloud config list project

Output:

[core] project = <project_ID>

Contoh output:

[core] project = qwiklabs-gcp-44776a13dea667a6 Catatan: Untuk mendapatkan dokumentasi gcloud yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.

Tugas 1. Membuat database untuk replikasi

Di bagian ini, Anda akan menyiapkan database Cloud SQL untuk PostgreSQL untuk replikasi Datastream.

Membuat database Cloud SQL

  1. Jalankan perintah berikut untuk mengaktifkan Cloud SQL API:
gcloud services enable sqladmin.googleapis.com
  1. Jalankan perintah berikut untuk membuat instance database Cloud SQL untuk PostgreSQL:
POSTGRES_INSTANCE=postgres-db DATASTREAM_IPS={{{project_0.startup_script.ip_Address | IP_ADDRESS}}} gcloud sql instances create ${POSTGRES_INSTANCE} \ --database-version=POSTGRES_14 \ --cpu=2 --memory=10GB \ --authorized-networks=${DATASTREAM_IPS} \ --region={{{project_0.default_region|REGION}}} \ --root-password pwd \ --database-flags=cloudsql.logical_decoding=on Catatan: Perintah ini membuat database di . Untuk region lain, pastikan untuk mengganti DATASTREAM_IPS dengan IP Publik Datastream yang tepat untuk region Anda.

Setelah instance database dibuat, catat IP publik instance tersebut. Anda akan memerlukannya nanti saat membuat profil koneksi Datastream.

Klik Check my progress untuk memverifikasi tujuan.

Membuat database untuk replikasi

Mengisi database dengan data sampel

Hubungkan ke database PostgreSQL dengan menjalankan perintah berikut di Cloud Shell.

gcloud sql connect postgres-db --user=postgres

Saat diminta sandinya, masukkan pwd.

Setelah terhubung ke database, jalankan perintah SQL berikut untuk membuat contoh skema dan tabel:

CREATE SCHEMA IF NOT EXISTS test; CREATE TABLE IF NOT EXISTS test.example_table ( id SERIAL PRIMARY KEY, text_col VARCHAR(50), int_col INT, date_col TIMESTAMP ); ALTER TABLE test.example_table REPLICA IDENTITY DEFAULT; INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('hello', 0, '2020-01-01 00:00:00'), ('goodbye', 1, NULL), ('name', -987, NOW()), ('other', 2786, '2021-01-01 00:00:00');

Mengonfigurasi database untuk replikasi

  • Jalankan perintah SQL berikut untuk membuat slot publikasi dan replikasi:
CREATE PUBLICATION test_publication FOR ALL TABLES; ALTER USER POSTGRES WITH REPLICATION; SELECT PG_CREATE_LOGICAL_REPLICATION_SLOT('test_replication', 'pgoutput');

Tugas 2. Membuat resource Datastream dan memulai replikasi

Setelah database siap, buat aliran data dan profil koneksi Datastream untuk memulai replikasi.

  1. Dari Navigation menu, klik View All Products, lalu di bagian Analytics, pilih Datastream

  2. Klik Enable untuk mengaktifkan Datastream API.

64c95a330abbceb6.png

Membuat profil koneksi

Buat dua profil koneksi, satu untuk sumber PostgreSQL, dan satu lagi untuk tujuan BigQuery.

Profil koneksi PostgreSQL

  1. Di Konsol Cloud, buka tab Connection Profiles, lalu klik Create Profile.
halaman profil koneksi dengan link Create Profile di pojok kanan atas
  1. Pilih jenis profil koneksi PostgreSQL.
PostgreSQL adalah salah satu opsi yang ditampilkan
  1. Gunakan postgres-cp sebagai nama dan ID profil koneksi.

  2. Masukkan detail koneksi database:

  • Region:
  • IP dan port instance Cloud SQL yang dibuat sebelumnya
  • Username: postgres
  • Password: pwd
  • Database: postgres
  1. Klik Continue.

  2. Biarkan enkripsi sebagai NONE, lalu klik CONTINUE.

  3. Pilih metode konektivitas IP allowlisting, lalu klik Continue.

  4. Klik RUN TEST untuk memastikan Datastream dapat mencapai database.

  5. Klik Create.

Profil koneksi BigQuery

  1. Di Konsol Cloud, buka tab Connection Profiles, lalu klik Create Profile.
Halaman Connection profiles dengan link Create Profile di pojok kanan atas
  1. Pilih jenis profil koneksi BigQuery.
BigQuery adalah salah satu opsi yang ditampilkan
  1. Gunakan bigquery-cp sebagai nama dan ID profil koneksi.

  2. Region

  3. Klik Create.

Membuat aliran data

Buat aliran data yang menghubungkan profil koneksi yang dibuat di atas dan menentukan konfigurasi untuk data yang akan dialirkan dari sumber ke tujuan.

  • Di Konsol Cloud, buka tab Streams, lalu klik Create Stream.
Tab Streams dengan link create stream di pojok kanan atas

Menentukan detail aliran data

  1. Gunakan test-stream sebagai nama dan ID aliran data.
  2. Region
  3. Pilih PostgreSQL sebagai jenis sumber
  4. Pilih BigQuery sebagai jenis tujuan
  5. Klik CONTINUE.
langkah 1 dari halaman create stream details yang diisi

Menentukan sumber

  1. Pilih profil koneksi postgres-cp yang dibuat di langkah sebelumnya.
  2. [Opsional] Uji konektivitas dengan mengklik RUN TEST
  3. Klik CONTINUE.
langkah 2 dari halaman create streams yang diisi

Mengonfigurasi sumber

  1. Tentukan nama slot replikasi sebagai test_replication.
  2. Tentukan nama publikasi sebagai test_publication.
langkah 3 dari halaman create streams yang diisi
  1. Pilih skema test untuk replikasi.
skema pengujian dipilih dari beberapa pilihan
  1. Klik Continue.

Menentukan tujuan

  • Pilih profil koneksi bigquery-cp yang dibuat di langkah sebelumnya, lalu klik Continue.
langkah 4 dari halaman create stream dengan bigquery-cp dipilih

Mengonfigurasi tujuan

  1. Pilih Region, lalu pilih sebagai lokasi set data BigQuery.
  2. Tetapkan batas staleness ke 0 seconds.
langkah 5 dari halaman create stream dengan lokasi yang dipilih
  1. Klik Continue.

Meninjau dan membuat aliran data

  • Terakhir, validasi detail aliran data dengan mengklik RUN VALIDATION. Setelah validasi berhasil diselesaikan, klik CREATE AND START.
hasil validasi dengan tanda centang hijau

Tunggu sekitar 1-2 menit hingga status aliran data ditampilkan sebagai "running".

Klik Check my progress untuk memverifikasi tujuan.

Membuat resource Datastream

Tugas 3. Melihat data di BigQuery

Setelah aliran data berjalan, lihat data yang direplikasi ke dalam set data BigQuery.

  1. Di Konsol Google Cloud, dari Navigation menu, buka BigQuery.
  2. Di penjelajah BigQuery Studio, luaskan node project untuk melihat daftar set data.
  3. Luaskan node set data test.
  4. Klik tabel example_table.
  5. Klik tab PREVIEW untuk melihat data di BigQuery.
Catatan: Data mungkin memerlukan waktu beberapa menit agar muncul di bagian Preview. Halaman BigQuery Explorer dengan example_table terlihat

Tugas 4. Memeriksa apakah perubahan pada sumber direplikasi ke BigQuery atau tidak

  1. Jalankan perintah berikut di Cloud Shell untuk terhubung ke database Cloud SQL (sandinya adalah pwd):
gcloud sql connect postgres-db --user=postgres
  1. Jalankan perintah SQL berikut untuk membuat beberapa perubahan pada data:
INSERT INTO test.example_table (text_col, int_col, date_col) VALUES ('abc', 0, '2022-10-01 00:00:00'), ('def', 1, NULL), ('ghi', -987, NOW()); UPDATE test.example_table SET int_col=int_col*2; DELETE FROM test.example_table WHERE text_col = 'abc';
  1. Buka ruang kerja BigQuery SQL dan jalankan kueri berikut untuk melihat perubahan di BigQuery:
SELECT * FROM test.example_table ORDER BY id; hasil kueri

Selamat!

Datastream adalah alat penting dalam perangkat integrasi dan analisis data Anda. Anda telah mempelajari dasar-dasar replikasi dari PostgreSQL ke BigQuery dengan Datastream.

Manual Terakhir Diperbarui pada 23 Agustus 2024

Lab Terakhir Diuji pada 23 Agustus 2024

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Konten ini tidak tersedia untuk saat ini

Kami akan memberi tahu Anda melalui email saat konten tersedia

Bagus!

Kami akan menghubungi Anda melalui email saat konten tersedia