Checkpoint
Create a lake, zone, and asset
/ 20
Query BigQuery table to review data quality
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Review data quality results in BigQuery
/ 20
Menilai Kualitas Data dengan Dataplex
- GSP1158
- Ringkasan
- Penyiapan dan persyaratan
- Tugas 1. Membuat data lake, zona, dan aset di Dataplex
- Tugas 2. Membuat kueri tabel BigQuery untuk meninjau kualitas data
- Tugas 3. Membuat dan mengupload file spesifikasi kualitas data
- Tugas 4. Menetapkan dan menjalankan tugas kualitas data di Dataplex
- Tugas 5. Meninjau hasil kualitas data di BigQuery
- Selamat!
GSP1158
Ringkasan
Dataplex adalah data fabric cerdas yang memungkinkan organisasi menelusuri, mengelola, memantau, dan mengatur data mereka secara terpusat di seluruh data lake, data warehouse, dan data mart untuk mendukung analisis dalam skala besar.
Fitur berharga dari Dataplex adalah kemampuan untuk menetapkan dan menjalankan pemeriksaan kualitas data pada aset Dataplex seperti tabel BigQuery dan file Cloud Storage. Dengan menggunakan tugas kualitas data Dataplex, Anda dapat mengintegrasikan pemeriksaan kualitas data ke alur kerja sehari-hari dengan cara memvalidasi data yang menjadi bagian dari pipeline produksi data, memantau secara reguler kualitas data terhadap serangkaian kriteria, dan membangun laporan kualitas data untuk persyaratan peraturan.
Di lab ini, Anda akan mempelajari cara menilai kualitas data menggunakan Dataplex dengan cara membuat file spesifikasi kualitas data khusus serta menggunakannya untuk menetapkan dan menjalankan tugas kualitas data di data BigQuery.
Yang akan Anda lakukan
- Membuat data lake, zona, dan aset Dataplex
- Membuat kueri tabel BigQuery untuk meninjau kualitas data
- Membuat dan mengupload file spesifikasi kualitas data
- Menetapkan dan menjalankan tugas kualitas data
- Meninjau hasil tugas kualitas data
Penyiapan dan persyaratan
Sebelum mengklik tombol Mulai Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account. -
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}} Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}} Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan. -
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Mengaktifkan Cloud Shell
Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.
- Klik Activate Cloud Shell di bagian atas konsol Google Cloud.
Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke PROJECT_ID Anda. Output berisi baris yang mendeklarasikan PROJECT_ID untuk sesi ini:
gcloud
adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.
- (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
-
Klik Authorize.
-
Output Anda sekarang akan terlihat seperti ini:
Output:
- (Opsional) Anda dapat menampilkan daftar project ID dengan perintah ini:
Output:
Contoh output:
gcloud
yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.
Mengaktifkan Dataproc API
-
Di Konsol Google Cloud, ketikkan Cloud Dataproc API di kotak penelusuran teratas.
-
Klik hasil untuk Cloud Dataproc API di bagian Marketplace.
-
Klik Enable.
Tugas 1. Membuat data lake, zona, dan aset di Dataplex
Untuk menetapkan dan menjalankan tugas kualitas data, Anda perlu membuat beberapa resource Dataplex terlebih dahulu.
Dalam tugas ini, Anda akan membuat data lake Dataplex baru untuk menyimpan informasi pelanggan e-commerce, menambahkan zona mentah ke data lake tersebut, lalu menyertakan set data BigQuery yang telah dibuat sebelumnya sebagai aset baru di zona tersebut.
Membuat data lake
- Di Konsol Google Cloud, di Navigation menu (), buka Analytics > Dataplex.
Jika muncul prompt Welcome to the new Dataplex experience
, klik Close.
-
Di bagian Manage lakes, klik Manage.
-
Klik Create lake.
-
Masukkan informasi yang diperlukan untuk membuat data lake baru:
Properti | Nilai |
---|---|
Display Name | Ecommerce Lake |
ID | Jangan mengubah nilai default-nya. |
Region |
Jangan mengubah nilai default lainnya.
- Klik Create.
Diperlukan waktu hingga 3 menit untuk membuat data lake.
Menambahkan zona ke data lake
-
Di tab Manage, klik nama data lake Anda.
-
Klik Add zone.
-
Masukkan informasi yang diperlukan untuk membuat zona baru:
Properti | Nilai |
---|---|
Display Name | Customer Contact Raw Zone |
ID | Jangan mengubah nilai default-nya. |
Type | Raw zone |
Data locations | Regional |
Jangan mengubah nilai default lainnya.
Misalnya, opsi Enable metadata discovery di bagian Discovery settings diaktifkan secara default dan mengizinkan pengguna yang berwenang untuk menemukan data di zona.
- Klik Create.
Diperlukan waktu hingga 2 menit untuk membuat zona.
Memasang aset ke zona
-
Di tab Zones, klik nama zona Anda.
-
Di tab Assets, klik Add assets.
-
Klik Add an asset.
-
Masukkan informasi yang diperlukan untuk memasang aset baru:
Properti | Nilai |
---|---|
Type | BigQuery dataset |
Display Name | Contact Info |
ID | Jangan mengubah nilai default-nya. |
Dataset |
|
Jangan mengubah nilai default lainnya.
-
Klik Done.
-
Click Continue.
-
Untuk Discovery settings, pilih Inherit untuk mewarisi setelan Discovery dari tingkat zona, lalu klik Continue.
-
Klik Submit.
Klik Check my progress untuk memverifikasi tujuan.
Tugas 2. Membuat kueri tabel BigQuery untuk meninjau kualitas data
Di tugas sebelumnya, Anda telah membuat aset Dataplex baru dari set data BigQuery yang diberi nama customers yang telah dibuat sebelumnya untuk lab ini. Set data ini berisi tabel yang bernama contact_info yang berisi informasi kontak mentah untuk pelanggan dari perusahaan ecommerce fiktif.
Dalam tugas ini, Anda akan mengkueri tabel ini untuk mulai mengidentifikasi beberapa potensi masalah kualitas data yang Anda dapat sertakan sebagai pemeriksaan di tugas kualitas data. Anda juga akan mengidentifikasi set data lain yang telah dibuat sebelumnya yang Anda dapat gunakan untuk menyimpan hasil tugas kualitas data di tugas berikutnya.
-
Di Konsol Google Cloud, di Navigation menu (), buka BigQuery > SQL Workspace.
-
Di panel Explorer, perluas panah di samping project ID untuk mencantumkan konten:
Selain dari set data customer_contact_raw_zone yang dibuat oleh Dataplex untuk mengelola zona tersebut, terdapat dua set data BigQuery yang telah dibuat sebelumnya untuk lab ini:
- customers
- customers_dq_dataset
Set data yang bernama customers berisi satu tabel yang bernama contact_info, yang berisi informasi kontak untuk pelanggan seperti ID pelanggan, nama, email, dan informasi lainnya. Ini adalah tabel yang akan Anda jelajahi dan periksa untuk masalah kualitas data di sepanjang lab ini.
Set data yang bernama customers_dq_dataset tidak berisi tabel apa pun. Ketika menetapkan tugas kualitas data di tugas berikutnya, Anda akan menggunakan set data ini sebagai tujuan untuk tabel baru yang berisi hasil tugas kualitas data.
- Di editor SQL, klik Compose a new query. Tempelkan kueri berikut ini, lalu klik Run:
Kueri ini memilih 50 kumpulan data dari tabel asal dan memesan kumpulan data berdasarkan id pelanggan di hasil.
- Scroll pada hasil di panel Results.
Perhatikan bahwa beberapa kumpulan data tidak memiliki ID pelanggan atau email yang salah, yang dapat mempersulit pengelolaan pesanan pelanggan.
Klik Check my progress untuk memverifikasi tujuan.
Tugas 3. Membuat dan mengupload file spesifikasi kualitas data
Persyaratan pemeriksaan kualitas data Dataplex ditentukan menggunakan file spesifikasi YAML CloudDQ. Setelah dibuat, file spesifikasi YAML diupload ke bucket Cloud Storage yang dapat diakses oleh tugas kualitas data.
File YAML memiliki empat bagian penting:
- daftar aturan untuk dijalankan (baik aturan yang sudah dibuat sebelumnya atau khusus)
- filter baris untuk memilih subset data untuk validasi
- aturan mengikat untuk menerapkan aturan yang ditetapkan ke tabel/beberapa tabel
- dimensi aturan opsional untuk menentukan jenis aturan yang dapat dimuat dalam file YAML
Dalam tugas ini, Anda akan menentukan file spesifikasi YAML baru untuk pemeriksaan kualitas data yang mengidentifikasi email dan ID pelanggan dengan nilai null di Tabel BigQuery yang ditentukan. Setelah menentukan file, Anda akan mengupload file tersebut ke bucket Cloud Storage yang dibuat sebelumnya untuk digunakan di tugas berikutnya guna menjalankan tugas kualitas data.
Membuat file spesifikasi kualitas data
- Di Cloud Shell, jalankan perintah berikut untuk membuat file kosong baru untuk spesifikasi kualitas data:
- Tempelkan kode berikut:
- Tinjau kode untuk mengidentifikasi dua aturan kualitas data utama yang ditentukan di file ini.
File dq-customer-raw-data.yaml
dimulai dengan parameter kunci untuk mengidentifikasi resource Dataplex, termasuk project ID, region, serta nama data lake dan zona Dataplex.
Kemudian, file ini menentukan dimensi aturan yang diizinkan dan dua aturan utama:
- Aturan untuk nilai NOT_NULL mengacu pada dimensi kelengkapan seperti nilai null.
- Aturan untuk nilai VALID_EMAIL mengacu pada dimensi kepatuhan seperti nilai tidak valid.
Terakhir, aturan terikat pada entity (tabel) dan kolom menggunakan aturan mengikat untuk validasi kualitas data:
- Pengikatan aturan pertama bernama VALID_CUSTOMER mengikat aturan NOT_NULL ke kolom id dari tabel contact_info, yang akan melakukan validasi jika kolom ID memiliki nilai NULL.
- Pengikatan aturan kedua bernama VALID_EMAIL_ID mengikat aturan VALID_EMAIL ke kolom email dari tabel contact_info, yang akan memeriksa email yang valid.
- Tekan
Ctrl+X
, laluY
, untuk menyimpan dan menutup file.
Mengupload file ke Cloud Storage
- Di Cloud Shell, jalankan perintah berikut untuk mengupload file ke bucket Cloud Storage yang telah dibuat untuk lab ini:
Klik Check my progress untuk memverifikasi tujuan.
Tugas 4. Menetapkan dan menjalankan tugas kualitas data di Dataplex
Proses kualitas data menggunakan file YAML spesifikasi kualitas data untuk menjalankan tugas kualitas data dan membuat metrik kualitas data yang ditulis ke set data BigQuery.
Di tugas ini, Anda akan menetapkan dan menjalankan tugas kualitas data menggunakan file YAML spesifikasi kualitas data yang diupload ke Cloud Storage di tugas sebelumnya. Saat menetapkan tugas, Anda juga akan menentukan set data BigQuery yang dibuat sebelumnya bernama customer_dq_dataset untuk menyimpan hasil kualitas data.
-
Di Konsol Google Cloud, di Navigation menu (), buka Analytics > Dataplex.
-
Di bagian Manage lakes, klik Process.
-
Klik Create task.
-
Di bagian Check Data Quality, klik Create task.
-
Masukkan informasi yang diperlukan untuk membuat tugas kualitas data yang baru:
Properti | Nilai |
---|---|
Dataplex lake | ecommerce-lake |
Display name | Customer Data Quality Job |
ID | Jangan mengubah nilai default-nya. |
Select GCS file |
|
Select BigQuery dataset |
|
BigQuery table | dq_results |
User service account | Compute Engine default service account |
Jangan mengubah nilai default lainnya.
Perlu diperhatikan bahwa akun layanan default Compute Engine telah dikonfigurasi sebelumnya untuk lab ini agar memiliki peran dan izin IAM yang sesuai. Untuk mengetahui informasi selengkapnya, tinjau dokumentasi Dataplex dengan judul Membuat akun layanan.
-
Click Continue.
-
Untuk Start, pilih Immediately.
-
Klik Create.
Klik Check my progress untuk memverifikasi tujuan.
Tugas 5. Meninjau hasil kualitas data di BigQuery
Dalam tugas ini, Anda akan meninjau tabel di customers_dq_dataset untuk mengidentifikasi kumpulan data yang tidak memiliki nilai ID pelanggan atau nilai tidak valid untuk email.
-
Di Konsol Google Cloud, di Navigation menu (), buka BigQuery > SQL Workspace.
-
Di panel Explorer, perluas panah di samping project ID untuk mencantumkan konten:
-
Perluas panah di samping set data customer_dq_dataset.
-
Klik pada tabel dq_summary.
-
Klik pada tab Preview untuk melihat hasil.
Tabel dq summary memberikan informasi bermanfaat terkait kualitas data secara menyeluruh, termasuk jumlah kumpulan data yang diidentifikasi tidak mematuhi dua aturan di file spesifikasi kualitas data.
-
Scroll ke kolom terakhir bernama failed_records_query.
-
Klik panah bawah di kolom pertama untuk memperluas teks dan melihat seluruh kueri untuk hasil aturan VALID_EMAIL.
Perhatikan bahwa kueri ini cukup panjang dan berakhiran dengan ORDER BY _dq_validation_rule_id
.
- Klik pada Compose new query. Salin dan tempel kueri ke dalam Editor SQL, lalu klik Run.
Hasil kueri akan memberikan nilai email di tabel contact_info yang tidak valid.
- Ulangi langkah 7-8 untuk sel kedua yang berisi kueri untuk hasil aturan VALID_CUSTOMER.
Hasil kueri mengidentifikasi ada 10 kumpulan data di tabel contact_info yang tidak memiliki nilai ID.
Klik Check my progress untuk memverifikasi tujuan.
Selamat!
Anda telah melakukan penilaian kualitas data menggunakan Dataplex dengan cara membuat file spesifikasi kualitas data khusus dan menggunakannya untuk menjalankan tugas kualitas data di tabel BigQuery.
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 4 Juli 2023
Lab Terakhir Diuji pada 4 Juli 2023
Hak cipta 2025 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.