Checkpoint
Run Cloud Dataprep jobs to BigQuery
/ 100
Membuat Pipeline Transformasi Data dengan Cloud Dataprep
- GSP430
- Ringkasan
- Penyiapan dan persyaratan
- Tugas 1. Buka Dataprep di Konsol Google Cloud
- Tugas 2. Membuat set data BigQuery
- Tugas 3. Menghubungkan data BigQuery ke Cloud Dataprep
- Tugas 4. Mempelajari kolom data e-commerce dengan UI
- Tugas 5. Membersihkan data
- Tugas 6. Memperkaya data
- Tugas 7. Menjalankan tugas Cloud Dataprep ke BigQuery
- Selamat!
Lab ini dikembangkan dengan partner kami, Alteryx. Jika Anda memilih untuk menerima info terbaru terkait produk, pengumuman, dan penawaran di Profil Akun Anda, informasi pribadi Anda mungkin akan dibagikan kepada Alteryx, yang merupakan sponsor dari lab ini.
GSP430
Ringkasan
Cloud Dataprep dari Trifacta adalah layanan data cerdas untuk secara visual mempelajari, membersihkan, dan menyiapkan data terstruktur maupun tidak terstruktur untuk analisis. Dalam lab ini, Anda akan mengeksplorasi antarmuka pengguna (UI) Dataprep untuk membuat pipeline transformasi data yang menghasilkan output ke dalam BigQuery.
Set data untuk lab ini adalah set data e-commerce yang memiliki jutaan data sesi Google Analytics untuk Google Merchandise Store yang dimuat ke BigQuery. Di dalam lab, Anda akan mempelajari kolom dan baris yang tersedia serta menyiapkan data untuk analisis.
Yang akan Anda lakukan
Di lab ini, Anda akan mempelajari cara melakukan tugas berikut:
- Menghubungkan set data BigQuery ke Dataprep
- Mengeksplorasi kualitas set data dengan Dataprep
- Membuat pipeline transformasi data dengan Dataprep
- Menjalankan tugas transformasi dan mengirimkan output ke BigQuery
Penyiapan dan persyaratan
Anda dianjurkan untuk menyelesaikan lab Bekerja dengan Cloud Dataprep pada Google Cloud sebelum mencoba lab ini.
Sebelum mengklik tombol Mulai Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account. -
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}} Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}} Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan. -
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Tugas 1. Buka Dataprep di Konsol Google Cloud
- Buka Cloud Shell dan jalankan perintah berikut:
Anda akan melihat pesan yang menyatakan bahwa identitas layanan telah dibuat.
-
Di Konsol Cloud, buka Navigation menu, dan pada bagian Analytics pilih Dataprep.
-
Untuk masuk ke Dataprep, pastikan Anda menyetujui Persyaratan Layanan Google Dataprep dan kemudian klik Accept.
-
Klik kotak centang dan kemudian klik Agree and Continue saat diminta untuk membagikan informasi akun dengan Alteryx.
-
Klik Allow untuk memberikan Alteryx akses ke project Anda.
-
Pilih kredensial Qwiklabs anda untuk login dan klik Allow.
-
Centang kotak dan klik Accept untuk menyetujui Persyaratan Layanan Alteryx.
-
Jika diminta untuk menggunakan lokasi default untuk bucket penyimpanan, klik Continue.
Tugas 2. Membuat set data BigQuery
Meskipun fokus utama lab ini ada pada Cloud Dataprep, Anda memerlukan BigQuery sebagai endpoint untuk penyerapan set data ke pipeline dan sebagai destinasi untuk output saat pipeline selesai.
-
Di Konsol Cloud, pilih Navigation menu > BigQuery.
-
Kotak pesan Welcome to BigQuery in the Cloud Console akan terbuka. Kotak pesan ini menyediakan link ke panduan memulai dan membuat daftar update UI.
-
Klik Done.
-
Di panel Explorer, pilih nama project Anda:
- Di panel sebelah kiri, pada bagian Explorer, klik ikon View actions () di sebelah kanan Project ID Anda, kemudian klik Create dataset.
- Untuk Dataset ID, masukkan
ecommerce
. - Biarkan nilai lain tetap pada nilai defaultnya.
-
Klik CREATE DATASET. Kini Anda akan melihat set data pada bagian project di panel sebelah kiri.
-
Salin dan tempel kueri SQL berikut ini ke Editor Kueri:
-
Klik RUN. Kueri ini akan menyalin subset set data e-commerce publik yang mentah (data sesi dalam satu hari, atau sekitar 56 ribu kumpulan data) ke dalam tabel baru bernama
all_sessions_raw_dataprep
, yang telah ditambahkan ke set data e-commerce Anda untuk dieksplorasi dan dibersihkan di Cloud Dataprep. -
Konfirmasi bahwa tabel baru tersebut ada di dalam set data
ecommerce
Anda:
Tugas 3. Menghubungkan data BigQuery ke Cloud Dataprep
Di dalam tugas ini, Anda akan menghubungkan Cloud Dataprep ke sumber data BigQuery Anda. Pada halaman Cloud Dataprep:
-
Klik Create a flow di sudut kanan.
-
Namakan ulang Untitled Flow dan masukkan detail-detail berikut:
- Untuk Flow Name, masukkan
Ecommerce Analytics Pipeline
- Untuk Flow Description, masukkan
Revenue reporting table
-
Klik Ok.
-
Jika jendela pop-up
What's a flow?
muncul, pilih Don't show me any helpers. -
Klik Add Icon di kotak Dataset.
-
Di kotak dialog Add Datasets to Flow, pilih Import Datasets.
-
Di panel sebelah kiri, klik BigQuery.
-
Saat set data ecommerce Anda dimuat, klik set data tersebut.
-
Klik ikon Create dataset (tanda +) di sebelah kiri tabel
all_sessions_raw_dataprep
. -
Klik Import & Add to Flow di sudut kanan bawah.
Sumber data diperbarui secara otomatis. Anda siap untuk melanjutkan ke tugas berikutnya.
Tugas 4. Mempelajari kolom data e-commerce dengan UI
Di tugas ini, Anda akan memuat dan mempelajari sampel set data di dalam Cloud Dataprep.
- Klik Recipe icon, lalu pilih Edit Recipe.
Cloud Dataprep memuat sampel set data Anda ke dalam tampilan Transformer. Proses ini mungkin membutuhkan waktu beberapa detik. Sekarang Anda siap mempelajari datanya!
Jawablah pertanyaan berikut:
- Berapa jumlah kolom di set data?
Jawaban: 32 kolom.
- Berapa jumlah baris yang ada di dalam sampel?
Jawaban: Sekitar 12 ribu baris.
- Apa nilai yang paling umum di kolom
channelGrouping
?
channelGrouping
.
Jawaban: Rujukan. Situs rujukan biasanya berupa situs lain yang memiliki link untuk mengakses ke konten Anda. Contohnya di sini adalah situs berbeda yang mengulas produk di situs e-commerce kita dan menautkannya. Ini dianggap sebagai saluran akuisisi yang berbeda dibandingkan jika pengunjung mengakses situs dari mesin telusur.
- Apa saja tiga negara teratas tempat sesi berasal?
Jawaban: Amerika Serikat, India, Britania Raya
- Apa arti dari bar berwarna abu-abu pada bagian totalTransactionRevenue?
Jawaban: Nilai tidak ada untuk kolom totalTransactionRevenue
. Artinya, banyak sesi dalam sampel ini tidak menghasilkan pendapatan. Nanti, kita akan memfilter nilai-nilai ini agar tabel akhir hanya berisi transaksi pelanggan dan pendapatan terkait.
- Berapa
timeOnSite
maksimum dalam detik,pageviews
maksimum, dansessionQualityDim
maksimum untuk sampel data? (Petunjuk: Buka menu di sebelah kanan kolomtimeOnSite
dengan mengklik menu Column Details)
Untuk menutup jendela detail, klik tombol (X) Close Column Details di sudut kanan atas. Kemudian ulangi proses guna melihat detail untuk kolom pageviews
dan sessionQualityDim
.
Jawaban:
- Waktu di Situs Maksimum: 5,561 detik (atau 92 menit)
- Tayangan Halaman Maksimum: 155 halaman
- Dimensi Kualitas Sesi Maksimum: 97
timeOnSite
hanya dihitung sekali per sesi. Kita akan mempelajari keunikan pengunjung dan data sesi di lab selanjutnya.
- Dengan merujuk pada histogram untuk
sessionQualityDim
, apakah nilai data terdistribusi secara merata?
Jawaban: Tidak, nilai data lebih condong ke nilai yang lebih rendah (sesi berkualitas rendah), dan hal ini normal.
- Berapa rentang date untuk set data? Petunjuk: Lihat kolom date
Jawaban: 8/1/2017 (data satu hari)
- Anda mungkin melihat bar merah di bawah kolom
productSKU
. Jika ya, apa artinya itu?
Jawaban: Bar merah menunjukkan ketidakcocokan nilai. Saat mengambil sampel data, Cloud Dataprep berusaha mengidentifikasi jenis masing-masing kolom secara otomatis. Jika Anda tidak melihat bar merah untuk kolom productSKU
, ini artinya Cloud Dataprep mengidentifikasi jenis kolom dengan benar (misalnya, jenis String). Jika Anda melihat bar merah, ini artinya Cloud Dataprep menemukan cukup banyak nilai angka di dalam sampel untuk menentukan (secara keliru) bahwa tipenya adalah Bilangan bulat. Cloud Dataprep juga mendeteksi beberapa nilai yang bukan merupakan bilangan bulat dan oleh sebab itu menandai nilai tersebut sebagai ketidakcocokan. Padahal, productSKU
tidak selalu berupa bilangan bulat (contohnya, nilai yang benar dapat berupa "GGOEGOCD078399"). Jadi dalam kasus ini, Cloud Dataprep mengidentifikasi jenis kolom secara keliru: seharusnya string, bukan bilangan bulat. Anda akan memperbaikinya nanti di lab ini.
- Dengan melihat kolom
v2ProductName
, produk apa yang paling populer?
Jawaban: Produk Nest
- Dengan melihat kolom
v2ProductCategory
, kategori produk apa saja yang paling populer?
Jawaban:
Kategori produk paling populer adalah:
-
Nest
-
Bags
-
(not set) (artinya beberapa sesi tidak berasosiasi dengan sebuah kategori)
-
Benar atau Salah?
productVariant
paling umum adalahCOLOR
.
Jawaban: Salah. Jawabannya adalah (not set) karena mayoritas produk tidak memiliki varian (80%+)
- Apa dua nilai di dalam kolom type?
Jawaban: PAGE
dan EVENT
Pengguna dapat memiliki banyak jenis interaksi yang berbeda saat menjelajahi situs Anda. Jenisnya mencakup pencatatan data sesi saat melihat PAGE atau EVENT khusus (seperti "mengklik produk") dan jenis lainnya. Jenis hit yang berbeda dapat dipicu pada waktu yang bersamaan, sehingga Anda akan sering memfilter jenisnya untuk menghindari penghitungan ganda. Kita akan mempelajari hal ini lebih lanjut di lab analisis selanjutnya.
- Berapa
productQuantity
maksimum?
Jawaban: 100 (jawaban Anda dapat berbeda)
productQuantity
menunjukkan jumlah unit produk yang ditambahkan ke keranjang. 100 berarti 100 unit dari suatu produk telah ditambahkan.
- Apa
currencyCode
dominan untuk transaksi?
Jawaban: USD (Dolar Amerika Serikat)
- Apakah ada nilai valid untuk
itemQuantity
atauitemRevenue
?
Jawaban: Tidak, semuanya bernilai NULL
(atau kosong).
- Berapa persentase nilai
transactionId
yang valid? Apa artinya hal ini bagi set dataecommerce
kita?
- Jawaban: Sekitar 4,6% ID transaksi memiliki nilai yang valid, yang merepresentasikan rata-rata rasio konversi situs (4,6% pengunjung melakukan transaksi).
- Berapa banyak nilai
eCommerceAction_type
yang ada, dan berapa nilai yang paling umum?
Jawaban: Ada tujuh nilai yang ditemukan dalam sampel kita. Nilai paling umum adalah nol 0
yang mengindikasikan bahwa tipenya tidak diketahui. Hal ini wajar karena mayoritas sesi web pada situs kita tidak akan melakukan tindakan e-commerce karena sesi web hanya melakukan penjelajahan.
- Dengan menggunakan skema,
eCommerceAction_type = 6
merepresentasikan apa?
eCommerceAction
dan baca deskripsi untuk pemetaan
Jawaban: 6 dipetakan pada "Completed purchase". Dalam lab ini, nanti kita akan menyerap pemetaan ini sebagai bagian dari pipeline data kita.
Tugas 5. Membersihkan data
Di dalam tugas ini, Anda akan membersihkan data dengan menghapus kolom yang tidak digunakan, mengeliminasi duplikat, membuat kolom kalkulasi, dan memfilter baris yang tidak diinginkan.
Mengonversi jenis data kolom productSKU
- Untuk memastikan bahwa jenis kolom productSKU adalah jenis data string, buka menu di sebelah kanan kolom productSKU dengan mengklik , lalu klik Change type > String.
- Verifikasi bahwa langkah pertama dalam pipeline transformasi data Anda dibuat dengan mengklik ikon Recipe:
Menghapus kolom yang tidak digunakan
Seperti yang dibahas sebelumnya, kita akan menghapus kolom itemQuantity dan itemRevenue karena mereka hanya memiliki nilai NULL dan tidak berguna untuk tujuan lab ini.
- Buka menu untuk kolom itemQuantity, lalu klik Delete.
- Ulangi proses untuk menghapus kolom itemRevenue.
Menghapus duplikat baris
Tim Anda telah memberi tahu Anda bahwa mungkin ada nilai sesi duplikat yang disertakan dalam set data sumber. Mari kita hapus ini dengan langkah penghapusan duplikat yang baru.
- Klik ikon Filter rows di toolbar, lalu klik Remove duplicate rows.
-
Klik Add di panel sebelah kanan.
-
Tinjau urutan langkah yang Anda buat sejauh ini, tampilannya akan seperti ini:
Memfilter sesi tanpa pendapatan
Tim Anda telah meminta Anda untuk membuat tabel yang berisi sesi semua pengguna yang setidaknya membeli satu item dari situs. Filter sesi pengguna dengan pendapatan NULL.
- Pada bagian kolom totalTransactionRevenue, klik bar Missing values yang berwarna abu-abu. Semua baris dengan nilai kosong untuk totalTransactionRevenue kini disorot dengan warna merah.
- Di panel Suggestions, di Delete rows, klik Add.
Langkah ini memfilter set data Anda untuk hanya mencakup transaksi dengan pendapatan (di mana totalTransactionRevenue tidak bernilai NULL).
Memfilter sesi untuk tayangan PAGE
Set data berisi sesi dengan jenis yang berbeda, contohnya PAGE (untuk tayangan halaman) atau EVENT (untuk peristiwa yang dipicu seperti "kategori produk yang dilihat" atau "ditambahkan ke keranjang"). Untuk menghindari penghitungan ganda tayangan halaman sesi, tambahkan filter untuk hanya mencakup hit tayangan halaman.
-
Di histogram, di kolom type, klik bar untuk PAGE. Semua baris dengan tipe PAGE sekarang disorot dengan warna hijau.
-
Di panel Suggestions, di Keep rows, lalu klik Add.
Tugas 6. Memperkaya data
Lihat dokumentasi skema Anda untuk mencari visitId dan baca deskripsinya untuk menentukan apakah hal tersebut bersifat unik untuk semua sesi pengguna atau hanya satu pengguna.
-
visitId
: ID untuk sesi ini. Ini adalah bagian dari nilai yang biasanya disimpan sebagai cookieutmb
. Ini hanya bersifat unik untuk pengguna. Untuk ID yang benar-benar unik, Anda harus menggunakan kombinasi fullVisitorId dan visitId.
Seperti yang diketahui, visitId
tidak bersifat unik untuk semua pengguna. Kita perlu membuat ID unik.
Membuat kolom baru untuk ID sesi unik
Seperti yang Anda ketahui, seta data tidak memiliki kolom tunggal untuk sesi pengunjung unik. Buat ID unik untuk masing-masing sesi dengan menyambungkan kolom fullVisitorId dan visitId.
- Klik ikon Merge columns di toolbar.
-
Untuk Columns, pilih
fullVisitorId
danvisitId
. -
Untuk Separator masukkan karakter tanda hubung tunggal:
-
. -
Untuk New column name, masukkan
unique_session_id
.
- Klik Add.
Sekarang, unique_session_id
adalah kombinasi dari fullVisitorId
dan visitId
. Kita akan mempelajari di lab berikutnya apakah masing-masing baris di set data ini berada pada level sesi unik (satu baris per sesi pengguna) atau lebih terperinci.
Membuat pernyataan kasus untuk jenis tindakan e-commerce
Seperti yang Anda lihat sebelumnya, nilai di kolom eCommerceAction_type
merupakan bilangan bulat yang merujuk ke tindakan e-commerce aktual yang dilakukan di sesi itu. Contohnya, 3 = "Add to Cart" atau 5 = "Check out". Pemetaan ini tidak akan langsung terlihat oleh pengguna akhir kita. Oleh karena itu, mari kita buat kolom kalkulasi yang memiliki nama nilai.
- Klik Conditions di toolbar, lalu klik Case on single column.
-
Untuk Column to evaluate, tentukan
eCommerceAction_type
. -
Di sebelah Cases (1), klik Add 8 kali untuk total 9 kasus.
- Untuk masing-masing Case, tentukan nilai pemetaan berikut ini (termasuk karakter tanda petik tunggal):
Perbandingan |
Nilai baru |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
Untuk New column name, masukkan
eCommerceAction_label
. Biarkan kolom lain tetap pada nilai defaultnya. -
Klik Add.
Menyesuaikan nilai di kolom totalTransactionRevenue
Seperti yang disebutkan dalam skema, kolom totalTransactionRevenue berisi nilai yang diteruskan ke Analytics dan dikali dengan 10^6 (contohnya, 2,40 akan ditampilkan sebagai 2400000). Sekarang Anda membagi isi kolom itu dengan 10^6 untuk mendapatkan nilai aslinya.
- Buka menu di sebelah kanan kolom totalTransactionRevenue dengan mengklik , kemudian pilih Calculate > Custom formula.
- Untuk Formula, masukkan:
DIVIDE(totalTransactionRevenue,1000000)
dan untuk New column name, masukkan:totalTransactionRevenue1
. Perhatikan pratinjau untuk transformasi:
- Klik Add.
totalTransactionRevenue1
. Buka menu di sebelah kanan kolom totalTransactionRevenue1
dengan mengklik , kemudian klik Change type > Decimal.- Tinjau daftar lengkap langkah-langkah di urutan langkah Anda:
- Sekarang Anda dapat mengklik Run.
Tugas 7. Menjalankan tugas Cloud Dataprep ke BigQuery
-
Di halaman Run Job, pilih Dataflow + BigQuery untuk Running Environment Anda.
-
Pada bagian Publishing Actions, klik Edit di sebelah kanan Create-CSV.
-
Di halaman berikutnya, pilih BigQuery dari menu di sebelah kiri.
-
Pilih set data ecommerce Anda.
-
Klik Create a New Table dari panel di sebelah kanan.
-
Gunakan revenue_reporting sebagai nama tabel Anda.
-
Pilih Drop the Table every run.
-
Klik Update.
-
Klik RUN.
Saat tugas Cloud Dataprep Anda selesai, refresh halaman BigQuery dan konfirmasi keberadaan tabel output revenue_reporting.
Klik Check my progress untuk memverifikasi tujuan.
Selamat!
Anda berhasil mempelajari set data e-commerce Anda dan membuat pipeline transformasi data dengan Cloud Dataprep.
Langkah berikutnya/Pelajari lebih lanjut
- Jelajahi Alteryx di Google Cloud Marketplace.
- Punya akun Google Analytics dan ingin melakukan kueri set data Anda sendiri di BigQuery? Ikuti panduan ekspor ini.
- Lihat lab ini:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 11 Februari 2024
Lab Terakhir Diuji pada 20 September 2023
Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.