arrow_back

Menilai Kualitas Data dengan Dataplex

Login Gabung
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

Menilai Kualitas Data dengan Dataplex

Lab 1 jam 30 menit universal_currency_alt 1 Kredit show_chart Pengantar
info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

GSP1158

Lab Mandiri Google Cloud

Ringkasan

Dataplex adalah data fabric cerdas yang memungkinkan organisasi menelusuri, mengelola, memantau, dan mengatur data mereka secara terpusat di seluruh data lake, data warehouse, dan data mart untuk mendukung analisis dalam skala besar.

Fitur berharga dari Dataplex adalah kemampuan untuk menetapkan dan menjalankan pemeriksaan kualitas data pada aset Dataplex seperti tabel BigQuery dan file Cloud Storage. Dengan menggunakan tugas kualitas data Dataplex, Anda dapat mengintegrasikan pemeriksaan kualitas data ke alur kerja sehari-hari dengan cara memvalidasi data yang menjadi bagian dari pipeline produksi data, memantau secara reguler kualitas data terhadap serangkaian kriteria, dan membangun laporan kualitas data untuk persyaratan peraturan.

Di lab ini, Anda akan mempelajari cara menilai kualitas data menggunakan Dataplex dengan cara membuat file spesifikasi kualitas data khusus serta menggunakannya untuk menetapkan dan menjalankan tugas kualitas data di data BigQuery.

Yang akan Anda lakukan

  • Membuat data lake, zona, dan aset Dataplex
  • Membuat kueri tabel BigQuery untuk meninjau kualitas data
  • Membuat dan mengupload file spesifikasi kualitas data
  • Menetapkan dan menjalankan tugas kualitas data
  • Meninjau hasil tugas kualitas data

Penyiapan dan persyaratan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:

    • Tombol Open Google Cloud console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

    Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.

    {{{user_0.username | "Username"}}}

    Anda juga dapat menemukan Username di panel Lab Details.

  4. Klik Next.

  5. Salin Password di bawah dan tempel ke dialog Welcome.

    {{{user_0.password | "Password"}}}

    Anda juga dapat menemukan Password di panel Lab Details.

  6. Klik Next.

    Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  7. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk melihat menu dengan daftar produk dan layanan Google Cloud, klik Navigation menu di kiri atas. Ikon Navigation menu

Mengaktifkan Cloud Shell

Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.

  1. Klik Activate Cloud Shell Ikon Activate Cloud Shell di bagian atas konsol Google Cloud.

Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke PROJECT_ID Anda. Output berisi baris yang mendeklarasikan PROJECT_ID untuk sesi ini:

Project Cloud Platform Anda dalam sesi ini disetel ke YOUR_PROJECT_ID

gcloud adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.

  1. (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
gcloud auth list
  1. Klik Authorize.

  2. Output Anda sekarang akan terlihat seperti ini:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net Untuk menyetel akun aktif, jalankan: $ gcloud config set account `ACCOUNT`
  1. (Opsional) Anda dapat menampilkan daftar project ID dengan perintah ini:
gcloud config list project

Output:

[core] project = <project_ID>

Contoh output:

[core] project = qwiklabs-gcp-44776a13dea667a6 Catatan: Untuk mendapatkan dokumentasi gcloud yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.

Mengaktifkan Dataproc API

  1. Di Konsol Google Cloud, ketikkan Cloud Dataproc API di kotak penelusuran teratas.

  2. Klik hasil untuk Cloud Dataproc API di bagian Marketplace.

  3. Klik Enable.

Tugas 1. Membuat data lake, zona, dan aset di Dataplex

Untuk menetapkan dan menjalankan tugas kualitas data, Anda perlu membuat beberapa resource Dataplex terlebih dahulu.

Dalam tugas ini, Anda akan membuat data lake Dataplex baru untuk menyimpan informasi pelanggan e-commerce, menambahkan zona mentah ke data lake tersebut, lalu menyertakan set data BigQuery yang telah dibuat sebelumnya sebagai aset baru di zona tersebut.

Membuat data lake

  1. Di Konsol Google Cloud, di Navigation menu (Navigation menu), buka Analytics > Dataplex.

Jika muncul prompt Welcome to the new Dataplex experience, klik Close.

  1. Di bagian Manage lakes, klik Manage.

  2. Klik Create lake.

  3. Masukkan informasi yang diperlukan untuk membuat data lake baru:

Properti Nilai
Display Name Ecommerce Lake
ID Jangan mengubah nilai default-nya.
Region

Jangan mengubah nilai default lainnya.

  1. Klik Create.

Diperlukan waktu hingga 3 menit untuk membuat data lake.

Menambahkan zona ke data lake

  1. Di tab Manage, klik nama data lake Anda.

  2. Klik Add zone.

  3. Masukkan informasi yang diperlukan untuk membuat zona baru:

Properti Nilai
Display Name Customer Contact Raw Zone
ID Jangan mengubah nilai default-nya.
Type Raw zone
Data locations Regional

Jangan mengubah nilai default lainnya.

Misalnya, opsi Enable metadata discovery di bagian Discovery settings diaktifkan secara default dan mengizinkan pengguna yang berwenang untuk menemukan data di zona.

  1. Klik Create.

Diperlukan waktu hingga 2 menit untuk membuat zona.

Anda dapat melakukan tugas berikutnya setelah status zona ini Active.

Memasang aset ke zona

  1. Di tab Zones, klik nama zona Anda.

  2. Di tab Assets, klik Add assets.

  3. Klik Add an asset.

  4. Masukkan informasi yang diperlukan untuk memasang aset baru:

Properti Nilai
Type BigQuery dataset
Display Name Contact Info
ID Jangan mengubah nilai default-nya.
Dataset .customers

Jangan mengubah nilai default lainnya.

  1. Klik Done.

  2. Click Continue.

  3. Untuk Discovery settings, pilih Inherit untuk mewarisi setelan Discovery dari tingkat zona, lalu klik Continue.

  4. Klik Submit.

Klik Check my progress untuk memverifikasi tujuan. Membuat data lake, zona, dan aset di Dataplex

Tugas 2. Membuat kueri tabel BigQuery untuk meninjau kualitas data

Di tugas sebelumnya, Anda telah membuat aset Dataplex baru dari set data BigQuery yang diberi nama customers yang telah dibuat sebelumnya untuk lab ini. Set data ini berisi tabel yang bernama contact_info yang berisi informasi kontak mentah untuk pelanggan dari perusahaan ecommerce fiktif.

Dalam tugas ini, Anda akan mengkueri tabel ini untuk mulai mengidentifikasi beberapa potensi masalah kualitas data yang Anda dapat sertakan sebagai pemeriksaan di tugas kualitas data. Anda juga akan mengidentifikasi set data lain yang telah dibuat sebelumnya yang Anda dapat gunakan untuk menyimpan hasil tugas kualitas data di tugas berikutnya.

  1. Di Konsol Google Cloud, di Navigation menu (Navigation menu), buka BigQuery > SQL Workspace.

  2. Di panel Explorer, perluas panah di samping project ID untuk mencantumkan konten:

Selain dari set data customer_contact_raw_zone yang dibuat oleh Dataplex untuk mengelola zona tersebut, terdapat dua set data BigQuery yang telah dibuat sebelumnya untuk lab ini:

  • customers
  • customers_dq_dataset

Set data yang bernama customers berisi satu tabel yang bernama contact_info, yang berisi informasi kontak untuk pelanggan seperti ID pelanggan, nama, email, dan informasi lainnya. Ini adalah tabel yang akan Anda jelajahi dan periksa untuk masalah kualitas data di sepanjang lab ini.

Set data yang bernama customers_dq_dataset tidak berisi tabel apa pun. Ketika menetapkan tugas kualitas data di tugas berikutnya, Anda akan menggunakan set data ini sebagai tujuan untuk tabel baru yang berisi hasil tugas kualitas data.

Daftar Set Data BigQuery

  1. Di editor SQL, klik Compose a new query. Tempelkan kueri berikut ini, lalu klik Run:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

Kueri ini memilih 50 kumpulan data dari tabel asal dan memesan kumpulan data berdasarkan id pelanggan di hasil.

  1. Scroll pada hasil di panel Results.

Perhatikan bahwa beberapa kumpulan data tidak memiliki ID pelanggan atau email yang salah, yang dapat mempersulit pengelolaan pesanan pelanggan.

Data tidak lengkap di tabel info kontak

Klik Check my progress untuk memverifikasi tujuan. Membuat kueri tabel BigQuery untuk meninjau kualitas data

Tugas 3. Membuat dan mengupload file spesifikasi kualitas data

Persyaratan pemeriksaan kualitas data Dataplex ditentukan menggunakan file spesifikasi YAML CloudDQ. Setelah dibuat, file spesifikasi YAML diupload ke bucket Cloud Storage yang dapat diakses oleh tugas kualitas data.

File YAML memiliki empat bagian penting:

  • daftar aturan untuk dijalankan (baik aturan yang sudah dibuat sebelumnya atau khusus)
  • filter baris untuk memilih subset data untuk validasi
  • aturan mengikat untuk menerapkan aturan yang ditetapkan ke tabel/beberapa tabel
  • dimensi aturan opsional untuk menentukan jenis aturan yang dapat dimuat dalam file YAML

Dalam tugas ini, Anda akan menentukan file spesifikasi YAML baru untuk pemeriksaan kualitas data yang mengidentifikasi email dan ID pelanggan dengan nilai null di Tabel BigQuery yang ditentukan. Setelah menentukan file, Anda akan mengupload file tersebut ke bucket Cloud Storage yang dibuat sebelumnya untuk digunakan di tugas berikutnya guna menjalankan tugas kualitas data.

Membuat file spesifikasi kualitas data

  1. Di Cloud Shell, jalankan perintah berikut untuk membuat file kosong baru untuk spesifikasi kualitas data:
nano dq-customer-raw-data.yaml
  1. Tempelkan kode berikut:
metadata_registry_defaults: dataplex: projects: {{{project_0.project_id | Project ID}}} locations: {{{project_0.default_region | Region}}} lakes: ecommerce-lake zones: customer-contact-raw-zone row_filters: NONE: filter_sql_expr: |- True INTERNATIONAL_ITEMS: filter_sql_expr: |- REGEXP_CONTAINS(item_id, 'INTNL') rule_dimensions: - consistency - correctness - duplication - completeness - conformance - integrity - timeliness - accuracy rules: NOT_NULL: rule_type: NOT_NULL dimension: completeness VALID_EMAIL: rule_type: REGEX dimension: conformance params: pattern: |- ^[^@]+[@]{1}[^@]+$ rule_bindings: VALID_CUSTOMER: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: id row_filter_id: NONE rule_ids: - NOT_NULL VALID_EMAIL_ID: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: email row_filter_id: NONE rule_ids: - VALID_EMAIL
  1. Tinjau kode untuk mengidentifikasi dua aturan kualitas data utama yang ditentukan di file ini.

File dq-customer-raw-data.yaml dimulai dengan parameter kunci untuk mengidentifikasi resource Dataplex, termasuk project ID, region, serta nama data lake dan zona Dataplex.

Kemudian, file ini menentukan dimensi aturan yang diizinkan dan dua aturan utama:

  • Aturan untuk nilai NOT_NULL mengacu pada dimensi kelengkapan seperti nilai null.
  • Aturan untuk nilai VALID_EMAIL mengacu pada dimensi kepatuhan seperti nilai tidak valid.

Terakhir, aturan terikat pada entity (tabel) dan kolom menggunakan aturan mengikat untuk validasi kualitas data:

  • Pengikatan aturan pertama bernama VALID_CUSTOMER mengikat aturan NOT_NULL ke kolom id dari tabel contact_info, yang akan melakukan validasi jika kolom ID memiliki nilai NULL.
  • Pengikatan aturan kedua bernama VALID_EMAIL_ID mengikat aturan VALID_EMAIL ke kolom email dari tabel contact_info, yang akan memeriksa email yang valid.
  1. Tekan Ctrl+X, lalu Y, untuk menyimpan dan menutup file.

Mengupload file ke Cloud Storage

  • Di Cloud Shell, jalankan perintah berikut untuk mengupload file ke bucket Cloud Storage yang telah dibuat untuk lab ini:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Klik Check my progress untuk memverifikasi tujuan. Membuat dan mengupload file spesifikasi kualitas data

Tugas 4. Menetapkan dan menjalankan tugas kualitas data di Dataplex

Proses kualitas data menggunakan file YAML spesifikasi kualitas data untuk menjalankan tugas kualitas data dan membuat metrik kualitas data yang ditulis ke set data BigQuery.

Di tugas ini, Anda akan menetapkan dan menjalankan tugas kualitas data menggunakan file YAML spesifikasi kualitas data yang diupload ke Cloud Storage di tugas sebelumnya. Saat menetapkan tugas, Anda juga akan menentukan set data BigQuery yang dibuat sebelumnya bernama customer_dq_dataset untuk menyimpan hasil kualitas data.

  1. Di Konsol Google Cloud, di Navigation menu (Navigation menu), buka Analytics > Dataplex.

  2. Di bagian Manage lakes, klik Process.

  3. Klik Create task.

  4. Di bagian Check Data Quality, klik Create task.

  5. Masukkan informasi yang diperlukan untuk membuat tugas kualitas data yang baru:

Properti Nilai
Dataplex lake ecommerce-lake
Display name Customer Data Quality Job
ID Jangan mengubah nilai default-nya.
Select GCS file -bucket/dq-customer-raw-data.yaml
Select BigQuery dataset .customers_dq_dataset
BigQuery table dq_results
User service account Compute Engine default service account

Jangan mengubah nilai default lainnya.

Perlu diperhatikan bahwa akun layanan default Compute Engine telah dikonfigurasi sebelumnya untuk lab ini agar memiliki peran dan izin IAM yang sesuai. Untuk mengetahui informasi selengkapnya, tinjau dokumentasi Dataplex dengan judul Membuat akun layanan.

  1. Click Continue.

  2. Untuk Start, pilih Immediately.

  3. Klik Create.

Perlu waktu beberapa menit sebelum tugas dapat dijalankan. Anda mungkin perlu memuat ulang halaman untuk melihat tugas yang telah berhasil dijalankan.

Status Tugas yang Berhasil

Klik Check my progress untuk memverifikasi tujuan. Menetapkan dan menjalankan tugas kualitas data di Dataplex

Tugas 5. Meninjau hasil kualitas data di BigQuery

Dalam tugas ini, Anda akan meninjau tabel di customers_dq_dataset untuk mengidentifikasi kumpulan data yang tidak memiliki nilai ID pelanggan atau nilai tidak valid untuk email.

  1. Di Konsol Google Cloud, di Navigation menu (Navigation menu), buka BigQuery > SQL Workspace.

  2. Di panel Explorer, perluas panah di samping project ID untuk mencantumkan konten:

  3. Perluas panah di samping set data customer_dq_dataset.

  4. Klik pada tabel dq_summary.

  5. Klik pada tab Preview untuk melihat hasil.

Tabel dq summary memberikan informasi bermanfaat terkait kualitas data secara menyeluruh, termasuk jumlah kumpulan data yang diidentifikasi tidak mematuhi dua aturan di file spesifikasi kualitas data.

  1. Scroll ke kolom terakhir bernama failed_records_query.

  2. Klik panah bawah di kolom pertama untuk memperluas teks dan melihat seluruh kueri untuk hasil aturan VALID_EMAIL.

Perhatikan bahwa kueri ini cukup panjang dan berakhiran dengan ORDER BY _dq_validation_rule_id.

  1. Klik pada Compose new query. Salin dan tempel kueri ke dalam Editor SQL, lalu klik Run.

Hasil kueri akan memberikan nilai email di tabel contact_info yang tidak valid.

Hasil kualitas data untuk VALID_EMAIL

  1. Ulangi langkah 7-8 untuk sel kedua yang berisi kueri untuk hasil aturan VALID_CUSTOMER.

Hasil kueri mengidentifikasi ada 10 kumpulan data di tabel contact_info yang tidak memiliki nilai ID.

Hasil kualitas data untuk VALID_CUSTOMER

Klik Check my progress untuk memverifikasi tujuan. Meninjau hasil kualitas data di tabel BigQuery

Selamat!

Anda telah melakukan penilaian kualitas data menggunakan Dataplex dengan cara membuat file spesifikasi kualitas data khusus dan menggunakannya untuk menjalankan tugas kualitas data di tabel BigQuery.

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 4 Juli 2023

Lab Terakhir Diuji pada 4 Juli 2023

Hak cipta 2025 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Konten ini tidak tersedia untuk saat ini

Kami akan memberi tahu Anda melalui email saat konten tersedia

Bagus!

Kami akan menghubungi Anda melalui email saat konten tersedia