
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Run Cloud Dataprep jobs to BigQuery
/ 100
Lab ini dikembangkan dengan partner kami, Alteryx. Jika Anda memilih untuk menerima info terbaru terkait produk, pengumuman, dan penawaran di Profil Akun Anda, informasi pribadi Anda mungkin akan dibagikan kepada Alteryx, yang merupakan sponsor dari lab ini.
Cloud Dataprep dari Trifacta adalah layanan data cerdas untuk secara visual mempelajari, membersihkan, dan menyiapkan data terstruktur maupun tidak terstruktur untuk analisis. Dalam lab ini, Anda akan mengeksplorasi antarmuka pengguna (UI) Dataprep untuk membuat pipeline transformasi data yang menghasilkan output ke dalam BigQuery.
Set data untuk lab ini adalah set data e-commerce yang memiliki jutaan data sesi Google Analytics untuk Google Merchandise Store yang dimuat ke BigQuery. Di dalam lab, Anda akan mempelajari kolom dan baris yang tersedia serta menyiapkan data untuk analisis.
Di lab ini, Anda akan mempelajari cara melakukan tugas berikut:
Anda dianjurkan untuk menyelesaikan lab Bekerja dengan Cloud Dataprep pada Google Cloud sebelum mencoba lab ini.
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
Anda juga dapat menemukan Username di panel Lab Details.
Klik Next.
Salin Password di bawah dan tempel ke dialog Welcome.
Anda juga dapat menemukan Password di panel Lab Details.
Klik Next.
Klik halaman berikutnya:
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Anda akan melihat pesan yang menyatakan bahwa identitas layanan telah dibuat.
Di Konsol Cloud, buka Navigation menu, dan pada bagian Analytics pilih Dataprep.
Untuk masuk ke Dataprep, pastikan Anda menyetujui Persyaratan Layanan Google Dataprep dan kemudian klik Accept.
Klik kotak centang dan kemudian klik Agree and Continue saat diminta untuk membagikan informasi akun dengan Alteryx.
Klik Allow untuk memberikan Alteryx akses ke project Anda.
Pilih kredensial Qwiklabs anda untuk login dan klik Allow.
Centang kotak dan klik Accept untuk menyetujui Persyaratan Layanan Alteryx.
Jika diminta untuk menggunakan lokasi default untuk bucket penyimpanan, klik Continue.
Meskipun fokus utama lab ini ada pada Cloud Dataprep, Anda memerlukan BigQuery sebagai endpoint untuk penyerapan set data ke pipeline dan sebagai destinasi untuk output saat pipeline selesai.
Di Konsol Cloud, pilih Navigation menu > BigQuery.
Kotak pesan Welcome to BigQuery in the Cloud Console akan terbuka. Kotak pesan ini menyediakan link ke panduan memulai dan membuat daftar update UI.
Klik Done.
Di panel Explorer, pilih nama project Anda:
ecommerce
.Klik CREATE DATASET. Kini Anda akan melihat set data pada bagian project di panel sebelah kiri.
Salin dan tempel kueri SQL berikut ini ke Editor Kueri:
Klik RUN. Kueri ini akan menyalin subset set data e-commerce publik yang mentah (data sesi dalam satu hari, atau sekitar 56 ribu kumpulan data) ke dalam tabel baru bernama all_sessions_raw_dataprep
, yang telah ditambahkan ke set data e-commerce Anda untuk dieksplorasi dan dibersihkan di Cloud Dataprep.
Konfirmasi bahwa tabel baru tersebut ada di dalam set data ecommerce
Anda:
Di dalam tugas ini, Anda akan menghubungkan Cloud Dataprep ke sumber data BigQuery Anda. Pada halaman Cloud Dataprep:
Klik Create a flow di sudut kanan.
Namakan ulang Untitled Flow dan masukkan detail-detail berikut:
Ecommerce Analytics Pipeline
Revenue reporting table
Klik Ok.
Jika jendela pop-up What's a flow?
muncul, pilih Don't show me any helpers.
Klik Add Icon di kotak Dataset.
Di kotak dialog Add Datasets to Flow, pilih Import Datasets.
Di panel sebelah kiri, klik BigQuery.
Saat set data ecommerce Anda dimuat, klik set data tersebut.
Klik ikon Create dataset (tanda +) di sebelah kiri tabel all_sessions_raw_dataprep
.
Klik Import & Add to Flow di sudut kanan bawah.
Sumber data diperbarui secara otomatis. Anda siap untuk melanjutkan ke tugas berikutnya.
Di tugas ini, Anda akan memuat dan mempelajari sampel set data di dalam Cloud Dataprep.
Cloud Dataprep memuat sampel set data Anda ke dalam tampilan Transformer. Proses ini mungkin membutuhkan waktu beberapa detik. Sekarang Anda siap mempelajari datanya!
Jawablah pertanyaan berikut:
Jawaban: 32 kolom.
Jawaban: Sekitar 12 ribu baris.
channelGrouping
?channelGrouping
.
Jawaban: Rujukan. Situs rujukan biasanya berupa situs lain yang memiliki link untuk mengakses ke konten Anda. Contohnya di sini adalah situs berbeda yang mengulas produk di situs e-commerce kita dan menautkannya. Ini dianggap sebagai saluran akuisisi yang berbeda dibandingkan jika pengunjung mengakses situs dari mesin telusur.
Jawaban: Amerika Serikat, India, Britania Raya
Jawaban: Nilai tidak ada untuk kolom totalTransactionRevenue
. Artinya, banyak sesi dalam sampel ini tidak menghasilkan pendapatan. Nanti, kita akan memfilter nilai-nilai ini agar tabel akhir hanya berisi transaksi pelanggan dan pendapatan terkait.
timeOnSite
maksimum dalam detik, pageviews
maksimum, dan sessionQualityDim
maksimum untuk sampel data? (Petunjuk: Buka menu di sebelah kanan kolom timeOnSite
dengan mengklik Untuk menutup jendela detail, klik tombol (X) Close Column Details di sudut kanan atas. Kemudian ulangi proses guna melihat detail untuk kolom pageviews
dan sessionQualityDim
.
Jawaban:
timeOnSite
hanya dihitung sekali per sesi. Kita akan mempelajari keunikan pengunjung dan data sesi di lab selanjutnya.
sessionQualityDim
, apakah nilai data terdistribusi secara merata?Jawaban: Tidak, nilai data lebih condong ke nilai yang lebih rendah (sesi berkualitas rendah), dan hal ini normal.
Jawaban: 8/1/2017 (data satu hari)
productSKU
. Jika ya, apa artinya itu?Jawaban: Bar merah menunjukkan ketidakcocokan nilai. Saat mengambil sampel data, Cloud Dataprep berusaha mengidentifikasi jenis masing-masing kolom secara otomatis. Jika Anda tidak melihat bar merah untuk kolom productSKU
, ini artinya Cloud Dataprep mengidentifikasi jenis kolom dengan benar (misalnya, jenis String). Jika Anda melihat bar merah, ini artinya Cloud Dataprep menemukan cukup banyak nilai angka di dalam sampel untuk menentukan (secara keliru) bahwa tipenya adalah Bilangan bulat. Cloud Dataprep juga mendeteksi beberapa nilai yang bukan merupakan bilangan bulat dan oleh sebab itu menandai nilai tersebut sebagai ketidakcocokan. Padahal, productSKU
tidak selalu berupa bilangan bulat (contohnya, nilai yang benar dapat berupa "GGOEGOCD078399"). Jadi dalam kasus ini, Cloud Dataprep mengidentifikasi jenis kolom secara keliru: seharusnya string, bukan bilangan bulat. Anda akan memperbaikinya nanti di lab ini.
v2ProductName
, produk apa yang paling populer?Jawaban: Produk Nest
v2ProductCategory
, kategori produk apa saja yang paling populer?Jawaban:
Kategori produk paling populer adalah:
Nest
Bags
(not set) (artinya beberapa sesi tidak berasosiasi dengan sebuah kategori)
Benar atau Salah? productVariant
paling umum adalah COLOR
.
Jawaban: Salah. Jawabannya adalah (not set) karena mayoritas produk tidak memiliki varian (80%+)
Jawaban: PAGE
dan EVENT
Pengguna dapat memiliki banyak jenis interaksi yang berbeda saat menjelajahi situs Anda. Jenisnya mencakup pencatatan data sesi saat melihat PAGE atau EVENT khusus (seperti "mengklik produk") dan jenis lainnya. Jenis hit yang berbeda dapat dipicu pada waktu yang bersamaan, sehingga Anda akan sering memfilter jenisnya untuk menghindari penghitungan ganda. Kita akan mempelajari hal ini lebih lanjut di lab analisis selanjutnya.
productQuantity
maksimum?Jawaban: 100 (jawaban Anda dapat berbeda)
productQuantity
menunjukkan jumlah unit produk yang ditambahkan ke keranjang. 100 berarti 100 unit dari suatu produk telah ditambahkan.
currencyCode
dominan untuk transaksi?Jawaban: USD (Dolar Amerika Serikat)
itemQuantity
atau itemRevenue
?Jawaban: Tidak, semuanya bernilai NULL
(atau kosong).
transactionId
yang valid? Apa artinya hal ini bagi set data ecommerce
kita?eCommerceAction_type
yang ada, dan berapa nilai yang paling umum?Jawaban: Ada tujuh nilai yang ditemukan dalam sampel kita. Nilai paling umum adalah nol 0
yang mengindikasikan bahwa tipenya tidak diketahui. Hal ini wajar karena mayoritas sesi web pada situs kita tidak akan melakukan tindakan e-commerce karena sesi web hanya melakukan penjelajahan.
eCommerceAction_type = 6
merepresentasikan apa?eCommerceAction
dan baca deskripsi untuk pemetaan
Jawaban: 6 dipetakan pada "Completed purchase". Dalam lab ini, nanti kita akan menyerap pemetaan ini sebagai bagian dari pipeline data kita.
Di dalam tugas ini, Anda akan membersihkan data dengan menghapus kolom yang tidak digunakan, mengeliminasi duplikat, membuat kolom kalkulasi, dan memfilter baris yang tidak diinginkan.
Seperti yang dibahas sebelumnya, kita akan menghapus kolom itemQuantity dan itemRevenue karena mereka hanya memiliki nilai NULL dan tidak berguna untuk tujuan lab ini.
Tim Anda telah memberi tahu Anda bahwa mungkin ada nilai sesi duplikat yang disertakan dalam set data sumber. Mari kita hapus ini dengan langkah penghapusan duplikat yang baru.
Klik Add di panel sebelah kanan.
Tinjau urutan langkah yang Anda buat sejauh ini, tampilannya akan seperti ini:
Tim Anda telah meminta Anda untuk membuat tabel yang berisi sesi semua pengguna yang setidaknya membeli satu item dari situs. Filter sesi pengguna dengan pendapatan NULL.
Langkah ini memfilter set data Anda untuk hanya mencakup transaksi dengan pendapatan (di mana totalTransactionRevenue tidak bernilai NULL).
Set data berisi sesi dengan jenis yang berbeda, contohnya PAGE (untuk tayangan halaman) atau EVENT (untuk peristiwa yang dipicu seperti "kategori produk yang dilihat" atau "ditambahkan ke keranjang"). Untuk menghindari penghitungan ganda tayangan halaman sesi, tambahkan filter untuk hanya mencakup hit tayangan halaman.
Di histogram, di kolom type, klik bar untuk PAGE. Semua baris dengan tipe PAGE sekarang disorot dengan warna hijau.
Di panel Suggestions, di Keep rows, lalu klik Add.
Lihat dokumentasi skema Anda untuk mencari visitId dan baca deskripsinya untuk menentukan apakah hal tersebut bersifat unik untuk semua sesi pengguna atau hanya satu pengguna.
visitId
: ID untuk sesi ini. Ini adalah bagian dari nilai yang biasanya disimpan sebagai cookie utmb
. Ini hanya bersifat unik untuk pengguna. Untuk ID yang benar-benar unik, Anda harus menggunakan kombinasi fullVisitorId dan visitId.Seperti yang diketahui, visitId
tidak bersifat unik untuk semua pengguna. Kita perlu membuat ID unik.
Seperti yang Anda ketahui, seta data tidak memiliki kolom tunggal untuk sesi pengunjung unik. Buat ID unik untuk masing-masing sesi dengan menyambungkan kolom fullVisitorId dan visitId.
Untuk Columns, pilih fullVisitorId
dan visitId
.
Untuk Separator masukkan karakter tanda hubung tunggal: -
.
Untuk New column name, masukkan unique_session_id
.
Sekarang, unique_session_id
adalah kombinasi dari fullVisitorId
dan visitId
. Kita akan mempelajari di lab berikutnya apakah masing-masing baris di set data ini berada pada level sesi unik (satu baris per sesi pengguna) atau lebih terperinci.
Seperti yang Anda lihat sebelumnya, nilai di kolom eCommerceAction_type
merupakan bilangan bulat yang merujuk ke tindakan e-commerce aktual yang dilakukan di sesi itu. Contohnya, 3 = "Add to Cart" atau 5 = "Check out". Pemetaan ini tidak akan langsung terlihat oleh pengguna akhir kita. Oleh karena itu, mari kita buat kolom kalkulasi yang memiliki nama nilai.
Untuk Column to evaluate, tentukan eCommerceAction_type
.
Di sebelah Cases (1), klik Add 8 kali untuk total 9 kasus.
Perbandingan |
Nilai baru |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Untuk New column name, masukkan eCommerceAction_label
. Biarkan kolom lain tetap pada nilai defaultnya.
Klik Add.
Seperti yang disebutkan dalam skema, kolom totalTransactionRevenue berisi nilai yang diteruskan ke Analytics dan dikali dengan 10^6 (contohnya, 2,40 akan ditampilkan sebagai 2400000). Sekarang Anda membagi isi kolom itu dengan 10^6 untuk mendapatkan nilai aslinya.
DIVIDE(totalTransactionRevenue,1000000)
dan untuk New column name, masukkan: totalTransactionRevenue1
. Perhatikan pratinjau untuk transformasi:totalTransactionRevenue1
. Buka menu di sebelah kanan kolom totalTransactionRevenue1
dengan mengklik Di halaman Run Job, pilih Dataflow + BigQuery untuk Running Environment Anda.
Pada bagian Publishing Actions, klik Edit di sebelah kanan Create-CSV.
Di halaman berikutnya, pilih BigQuery dari menu di sebelah kiri.
Pilih set data ecommerce Anda.
Klik Create a New Table dari panel di sebelah kanan.
Gunakan revenue_reporting sebagai nama tabel Anda.
Pilih Drop the Table every run.
Klik Update.
Klik RUN.
Saat tugas Cloud Dataprep Anda selesai, refresh halaman BigQuery dan konfirmasi keberadaan tabel output revenue_reporting.
Klik Check my progress untuk memverifikasi tujuan.
Anda berhasil mempelajari set data e-commerce Anda dan membuat pipeline transformasi data dengan Cloud Dataprep.
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 11 Februari 2024
Lab Terakhir Diuji pada 20 September 2023
Hak cipta 2025 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.
Konten ini tidak tersedia untuk saat ini
Kami akan memberi tahu Anda melalui email saat konten tersedia
Bagus!
Kami akan menghubungi Anda melalui email saat konten tersedia
One lab at a time
Confirm to end all existing labs and start this one