arrow_back

Membuat Pipeline Transformasi Data dengan Cloud Dataprep

Login Gabung
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Membuat Pipeline Transformasi Data dengan Cloud Dataprep

Lab 1 jam 15 menit universal_currency_alt 5 Kredit show_chart Menengah
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Lab ini dikembangkan dengan partner kami, Alteryx. Jika Anda memilih untuk menerima info terbaru terkait produk, pengumuman, dan penawaran di Profil Akun Anda, informasi pribadi Anda mungkin akan dibagikan kepada Alteryx, yang merupakan sponsor dari lab ini.

GSP430

Lab Mandiri Google Cloud

Ringkasan

Cloud Dataprep dari Trifacta adalah layanan data cerdas untuk secara visual mempelajari, membersihkan, dan menyiapkan data terstruktur maupun tidak terstruktur untuk analisis. Dalam lab ini, Anda akan mengeksplorasi antarmuka pengguna (UI) Dataprep untuk membuat pipeline transformasi data yang menghasilkan output ke dalam BigQuery.

Set data untuk lab ini adalah set data e-commerce yang memiliki jutaan data sesi Google Analytics untuk Google Merchandise Store yang dimuat ke BigQuery. Di dalam lab, Anda akan mempelajari kolom dan baris yang tersedia serta menyiapkan data untuk analisis.

Yang akan Anda lakukan

Di lab ini, Anda akan mempelajari cara melakukan tugas berikut:

  • Menghubungkan set data BigQuery ke Dataprep
  • Mengeksplorasi kualitas set data dengan Dataprep
  • Membuat pipeline transformasi data dengan Dataprep
  • Menjalankan tugas transformasi dan mengirimkan output ke BigQuery

Penyiapan dan persyaratan

Catatan: untuk menjalankan lab ini, Anda harus menggunakan Google Chrome. Untuk saat ini, browser lain tidak didukung oleh Dataprep.

Anda dianjurkan untuk menyelesaikan lab Bekerja dengan Cloud Dataprep pada Google Cloud sebelum mencoba lab ini.

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan berikut ini:

    • Tombol Open Google Console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Console. Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Login.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username dari panel Lab Details dan tempel ke dialog Sign in. Klik Next.

  4. Salin Password dari panel Lab Details dan tempel ke dialog Welcome. Klik Next.

    Penting: Anda harus menggunakan kredensial dari panel sebelah kiri. Jangan menggunakan kredensial Google Cloud Skills Boost. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  5. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan daftar uji coba gratis.

Setelah beberapa saat, Cloud Console akan terbuka di tab ini.

Catatan: Anda dapat melihat menu dengan daftar Produk dan Layanan Google Cloud dengan mengklik Menu navigasi di kiri atas. Ikon menu navigasi

Tugas 1. Buka Dataprep di Konsol Google Cloud

  1. Buka Cloud Shell dan jalankan perintah berikut:
gcloud beta services identity create --service=dataprep.googleapis.com

Anda akan melihat pesan yang menyatakan bahwa identitas layanan telah dibuat.

  1. Di Konsol Cloud, buka Navigation menu, dan pada bagian Analytics pilih Dataprep.

  2. Untuk masuk ke Dataprep, pastikan Anda menyetujui Persyaratan Layanan Google Dataprep dan kemudian klik Accept.

  3. Klik kotak centang dan kemudian klik Agree and Continue saat diminta untuk membagikan informasi akun dengan Alteryx.

  4. Klik Allow untuk memberikan Alteryx akses ke project Anda.

  5. Pilih kredensial Qwiklabs anda untuk login dan klik Allow.

  6. Centang kotak dan klik Accept untuk menyetujui Persyaratan Layanan Alteryx.

  7. Jika diminta untuk menggunakan lokasi default untuk bucket penyimpanan, klik Continue.

Tugas 2. Membuat set data BigQuery

Meskipun fokus utama lab ini ada pada Cloud Dataprep, Anda memerlukan BigQuery sebagai endpoint untuk penyerapan set data ke pipeline dan sebagai destinasi untuk output saat pipeline selesai.

Pipeline aliran data

  1. Di Konsol Cloud, pilih Navigation menu > BigQuery.

  2. Kotak pesan Welcome to BigQuery in the Cloud Console akan terbuka. Kotak pesan ini menyediakan link ke panduan memulai dan membuat daftar update UI.

  3. Klik Done.

  4. Di panel Explorer, pilih nama project Anda:

Panel Explorer

  1. Di panel sebelah kiri, pada bagian Explorer, klik ikon View actions (Ikon View actions) di sebelah kanan Project ID Anda, kemudian klik Create dataset.
  • Untuk Dataset ID, masukkan ecommerce.
  • Biarkan nilai lain tetap pada nilai defaultnya.
  1. Klik CREATE DATASET. Kini Anda akan melihat set data pada bagian project di panel sebelah kiri.

  2. Salin dan tempel kueri SQL berikut ini ke Editor Kueri:

#standardSQL CREATE OR REPLACE TABLE ecommerce.all_sessions_raw_dataprep OPTIONS( description="Raw data from analyst team to ingest into Cloud Dataprep" ) AS SELECT * FROM `data-to-insights.ecommerce.all_sessions_raw` WHERE date = '20170801'; # limiting to one day of data 56k rows for this lab
  1. Klik RUN. Kueri ini akan menyalin subset set data e-commerce publik yang mentah (data sesi dalam satu hari, atau sekitar 56 ribu kumpulan data) ke dalam tabel baru bernama all_sessions_raw_dataprep, yang telah ditambahkan ke set data e-commerce Anda untuk dieksplorasi dan dibersihkan di Cloud Dataprep.

  2. Konfirmasi bahwa tabel baru tersebut ada di dalam set data ecommerce Anda:

Tugas 3. Menghubungkan data BigQuery ke Cloud Dataprep

Di dalam tugas ini, Anda akan menghubungkan Cloud Dataprep ke sumber data BigQuery Anda. Pada halaman Cloud Dataprep:

  1. Klik Create a flow di sudut kanan.

  2. Namakan ulang Untitled Flow dan masukkan detail-detail berikut:

  • Untuk Flow Name, masukkan Ecommerce Analytics Pipeline
  • Untuk Flow Description, masukkan Revenue reporting table
  1. Klik Ok.

  2. Jika jendela pop-up What's a flow? muncul, pilih Don't show me any helpers.

  3. Klik Add Icon di kotak Dataset.

Ikon Add disorot

  1. Di kotak dialog Add Datasets to Flow, pilih Import Datasets.

  2. Di panel sebelah kiri, klik BigQuery.

  3. Saat set data ecommerce Anda dimuat, klik set data tersebut.

set data e-commerce disorot

  1. Klik ikon Create dataset (tanda +) di sebelah kiri tabel all_sessions_raw_dataprep.

  2. Klik Import & Add to Flow di sudut kanan bawah.

Sumber data diperbarui secara otomatis. Anda siap untuk melanjutkan ke tugas berikutnya.

Tugas 4. Mempelajari kolom data e-commerce dengan UI

Di tugas ini, Anda akan memuat dan mempelajari sampel set data di dalam Cloud Dataprep.

  • Klik Recipe icon, lalu pilih Edit Recipe.

Ikon Recipe dan tombol Edit Recipe disorot

Cloud Dataprep memuat sampel set data Anda ke dalam tampilan Transformer. Proses ini mungkin membutuhkan waktu beberapa detik. Sekarang Anda siap mempelajari datanya!

Jawablah pertanyaan berikut:

  • Berapa jumlah kolom di set data?

Set data

Jawaban: 32 kolom.

  • Berapa jumlah baris yang ada di dalam sampel?

Set data

Jawaban: Sekitar 12 ribu baris.

  • Apa nilai yang paling umum di kolom channelGrouping?
Petunjuk: Cari tahu dengan mengarahkan kursor mouse Anda ke histogram di bawah judul kolom channelGrouping.

Kolom channelGrouping

Jawaban: Rujukan. Situs rujukan biasanya berupa situs lain yang memiliki link untuk mengakses ke konten Anda. Contohnya di sini adalah situs berbeda yang mengulas produk di situs e-commerce kita dan menautkannya. Ini dianggap sebagai saluran akuisisi yang berbeda dibandingkan jika pengunjung mengakses situs dari mesin telusur.

Catatan: Saat mencari kolom tertentu, klik ikon Find column (Ikon Find column) di sudut kanan atas, kemudian ketik nama kolom di kolom teks Find column, lalu klik nama kolom tersebut. Tindakan ini akan membuat grid menampilkan kolom tersebut pada layar secara otomatis.
  • Apa saja tiga negara teratas tempat sesi berasal?

Set data negara

Jawaban: Amerika Serikat, India, Britania Raya

  • Apa arti dari bar berwarna abu-abu pada bagian totalTransactionRevenue?

Bar totalTransactionRevenue

Jawaban: Nilai tidak ada untuk kolom totalTransactionRevenue. Artinya, banyak sesi dalam sampel ini tidak menghasilkan pendapatan. Nanti, kita akan memfilter nilai-nilai ini agar tabel akhir hanya berisi transaksi pelanggan dan pendapatan terkait.

  • Berapa timeOnSite maksimum dalam detik, pageviews maksimum, dan sessionQualityDim maksimum untuk sampel data? (Petunjuk: Buka menu di sebelah kanan kolom timeOnSite dengan mengklik Panah dropdownmenu Column Details)

Set data timeOnSite dan pageviews maksimum

Halaman dengan tab Ringkasan timeOnSite

Untuk menutup jendela detail, klik tombol (X) Close Column Details di sudut kanan atas. Kemudian ulangi proses guna melihat detail untuk kolom pageviews dan sessionQualityDim.

Tombol tutup

Jawaban:

  • Waktu di Situs Maksimum: 5,561 detik (atau 92 menit)
  • Tayangan Halaman Maksimum: 155 halaman
  • Dimensi Kualitas Sesi Maksimum: 97
Catatan: Jawaban Anda terkait jumlah maksimum mungkin sedikit berbeda karena sampel data yang digunakan oleh Cloud Dataprep. Catatan mengenai rata-rata: Waspadalah saat melakukan agregasi seperti rata-rata pada kolom data. Pertama-tama, pastikan bahwa kolom seperti timeOnSite hanya dihitung sekali per sesi. Kita akan mempelajari keunikan pengunjung dan data sesi di lab selanjutnya.
  • Dengan merujuk pada histogram untuk sessionQualityDim, apakah nilai data terdistribusi secara merata?

Histogram sessionQualityDim

Jawaban: Tidak, nilai data lebih condong ke nilai yang lebih rendah (sesi berkualitas rendah), dan hal ini normal.

  • Berapa rentang date untuk set data? Petunjuk: Lihat kolom date

Jawaban: 8/1/2017 (data satu hari)

  • Anda mungkin melihat bar merah di bawah kolom productSKU. Jika ya, apa artinya itu?

Kolom productSKU

Jawaban: Bar merah menunjukkan ketidakcocokan nilai. Saat mengambil sampel data, Cloud Dataprep berusaha mengidentifikasi jenis masing-masing kolom secara otomatis. Jika Anda tidak melihat bar merah untuk kolom productSKU, ini artinya Cloud Dataprep mengidentifikasi jenis kolom dengan benar (misalnya, jenis String). Jika Anda melihat bar merah, ini artinya Cloud Dataprep menemukan cukup banyak nilai angka di dalam sampel untuk menentukan (secara keliru) bahwa tipenya adalah Bilangan bulat. Cloud Dataprep juga mendeteksi beberapa nilai yang bukan merupakan bilangan bulat dan oleh sebab itu menandai nilai tersebut sebagai ketidakcocokan. Padahal, productSKU tidak selalu berupa bilangan bulat (contohnya, nilai yang benar dapat berupa "GGOEGOCD078399"). Jadi dalam kasus ini, Cloud Dataprep mengidentifikasi jenis kolom secara keliru: seharusnya string, bukan bilangan bulat. Anda akan memperbaikinya nanti di lab ini.

  • Dengan melihat kolom v2ProductName, produk apa yang paling populer?

Kolom v2ProductName

Jawaban: Produk Nest

  • Dengan melihat kolom v2ProductCategory, kategori produk apa saja yang paling populer?

Kolom v2ProductCategory

Jawaban:

Kategori produk paling populer adalah:

  • Nest

  • Bags

  • (not set) (artinya beberapa sesi tidak berasosiasi dengan sebuah kategori)

  • Benar atau Salah? productVariant paling umum adalah COLOR.

Jawaban: Salah. Jawabannya adalah (not set) karena mayoritas produk tidak memiliki varian (80%+)

  • Apa dua nilai di dalam kolom type?

Jawaban: PAGE dan EVENT

Pengguna dapat memiliki banyak jenis interaksi yang berbeda saat menjelajahi situs Anda. Jenisnya mencakup pencatatan data sesi saat melihat PAGE atau EVENT khusus (seperti "mengklik produk") dan jenis lainnya. Jenis hit yang berbeda dapat dipicu pada waktu yang bersamaan, sehingga Anda akan sering memfilter jenisnya untuk menghindari penghitungan ganda. Kita akan mempelajari hal ini lebih lanjut di lab analisis selanjutnya.

  • Berapa productQuantity maksimum?

Jawaban: 100 (jawaban Anda dapat berbeda)

productQuantity menunjukkan jumlah unit produk yang ditambahkan ke keranjang. 100 berarti 100 unit dari suatu produk telah ditambahkan.

  • Apa currencyCode dominan untuk transaksi?

Jawaban: USD (Dolar Amerika Serikat)

  • Apakah ada nilai valid untuk itemQuantity atau itemRevenue?

Jawaban: Tidak, semuanya bernilai NULL (atau kosong).

Catatan: Setelah mempelajari lebih lanjut, Anda mungkin menemukan kolom duplikat atau kolom yang sudah tidak lagi digunakan di beberapa set data. Kita akan menggunakan kolom `productQuantity` dan `productRevenue` dan meniadakan kolom `itemQuantity` dan `itemRevenue` di dalam lab ini nanti untuk mencegah kebingungan bagi pengguna laporan kita.
  • Berapa persentase nilai transactionId yang valid? Apa artinya hal ini bagi set data ecommerce kita?

Halaman Ringkasan transactionId

  • Jawaban: Sekitar 4,6% ID transaksi memiliki nilai yang valid, yang merepresentasikan rata-rata rasio konversi situs (4,6% pengunjung melakukan transaksi).
  • Berapa banyak nilai eCommerceAction_type yang ada, dan berapa nilai yang paling umum?
Petunjuk: Hitung nomor unik kolom histogram.

Nilai eCommerceAction_type

Jawaban: Ada tujuh nilai yang ditemukan dalam sampel kita. Nilai paling umum adalah nol 0 yang mengindikasikan bahwa tipenya tidak diketahui. Hal ini wajar karena mayoritas sesi web pada situs kita tidak akan melakukan tindakan e-commerce karena sesi web hanya melakukan penjelajahan.

  • Dengan menggunakan skema, eCommerceAction_type = 6 merepresentasikan apa?
Petunjuk: Cari jenis eCommerceAction dan baca deskripsi untuk pemetaan

Jawaban: 6 dipetakan pada "Completed purchase". Dalam lab ini, nanti kita akan menyerap pemetaan ini sebagai bagian dari pipeline data kita.

STRING commerceAction.action_type

Tugas 5. Membersihkan data

Di dalam tugas ini, Anda akan membersihkan data dengan menghapus kolom yang tidak digunakan, mengeliminasi duplikat, membuat kolom kalkulasi, dan memfilter baris yang tidak diinginkan.

Mengonversi jenis data kolom productSKU

  1. Untuk memastikan bahwa jenis kolom productSKU adalah jenis data string, buka menu di sebelah kanan kolom productSKU dengan mengklik Panah dropdown, lalu klik Change type > String.

productSKU > Change type > String

  1. Verifikasi bahwa langkah pertama dalam pipeline transformasi data Anda dibuat dengan mengklik ikon Recipe:

Ikon Recipe

Catatan: Jika Anda melihat urutan langkah (recipe) Dikunci, pilih urutan langkah, klik edit dan hapus centang opsi untuk mengunci jenis kolom.

Menghapus kolom yang tidak digunakan

Seperti yang dibahas sebelumnya, kita akan menghapus kolom itemQuantity dan itemRevenue karena mereka hanya memiliki nilai NULL dan tidak berguna untuk tujuan lab ini.

  1. Buka menu untuk kolom itemQuantity, lalu klik Delete.

Kolom itemQuantity dengan opsi menu Hapus disorot

  1. Ulangi proses untuk menghapus kolom itemRevenue.

Menghapus duplikat baris

Tim Anda telah memberi tahu Anda bahwa mungkin ada nilai sesi duplikat yang disertakan dalam set data sumber. Mari kita hapus ini dengan langkah penghapusan duplikat yang baru.

  1. Klik ikon Filter rows di toolbar, lalu klik Remove duplicate rows.

Filter menu dropdown baris dengan opsi Remove duplicate disorot

  1. Klik Add di panel sebelah kanan.

  2. Tinjau urutan langkah yang Anda buat sejauh ini, tampilannya akan seperti ini:

Urutan langkah empat tahap

Memfilter sesi tanpa pendapatan

Tim Anda telah meminta Anda untuk membuat tabel yang berisi sesi semua pengguna yang setidaknya membeli satu item dari situs. Filter sesi pengguna dengan pendapatan NULL.

  1. Pada bagian kolom totalTransactionRevenue, klik bar Missing values yang berwarna abu-abu. Semua baris dengan nilai kosong untuk totalTransactionRevenue kini disorot dengan warna merah.
  2. Di panel Suggestions, di Delete rows, klik Add.

Panel Suggestions

Langkah ini memfilter set data Anda untuk hanya mencakup transaksi dengan pendapatan (di mana totalTransactionRevenue tidak bernilai NULL).

Memfilter sesi untuk tayangan PAGE

Set data berisi sesi dengan jenis yang berbeda, contohnya PAGE (untuk tayangan halaman) atau EVENT (untuk peristiwa yang dipicu seperti "kategori produk yang dilihat" atau "ditambahkan ke keranjang"). Untuk menghindari penghitungan ganda tayangan halaman sesi, tambahkan filter untuk hanya mencakup hit tayangan halaman.

  1. Di histogram, di kolom type, klik bar untuk PAGE. Semua baris dengan tipe PAGE sekarang disorot dengan warna hijau.

  2. Di panel Suggestions, di Keep rows, lalu klik Add.

Tugas 6. Memperkaya data

Lihat dokumentasi skema Anda untuk mencari visitId dan baca deskripsinya untuk menentukan apakah hal tersebut bersifat unik untuk semua sesi pengguna atau hanya satu pengguna.

  • visitId: ID untuk sesi ini. Ini adalah bagian dari nilai yang biasanya disimpan sebagai cookie utmb. Ini hanya bersifat unik untuk pengguna. Untuk ID yang benar-benar unik, Anda harus menggunakan kombinasi fullVisitorId dan visitId.

Seperti yang diketahui, visitId tidak bersifat unik untuk semua pengguna. Kita perlu membuat ID unik.

Membuat kolom baru untuk ID sesi unik

Seperti yang Anda ketahui, seta data tidak memiliki kolom tunggal untuk sesi pengunjung unik. Buat ID unik untuk masing-masing sesi dengan menyambungkan kolom fullVisitorId dan visitId.

  1. Klik ikon Merge columns di toolbar.

Ikon Merge columns

  1. Untuk Columns, pilih fullVisitorId dan visitId.

  2. Untuk Separator masukkan karakter tanda hubung tunggal: -.

  3. Untuk New column name, masukkan unique_session_id.

Panel Merge columns

  1. Klik Add.

Sekarang, unique_session_id adalah kombinasi dari fullVisitorId dan visitId. Kita akan mempelajari di lab berikutnya apakah masing-masing baris di set data ini berada pada level sesi unik (satu baris per sesi pengguna) atau lebih terperinci.

Membuat pernyataan kasus untuk jenis tindakan e-commerce

Seperti yang Anda lihat sebelumnya, nilai di kolom eCommerceAction_type merupakan bilangan bulat yang merujuk ke tindakan e-commerce aktual yang dilakukan di sesi itu. Contohnya, 3 = "Add to Cart" atau 5 = "Check out". Pemetaan ini tidak akan langsung terlihat oleh pengguna akhir kita. Oleh karena itu, mari kita buat kolom kalkulasi yang memiliki nama nilai.

  1. Klik Conditions di toolbar, lalu klik Case on single column.

Menu dropdown Conditions dengan opsi Case on single column disorot

  1. Untuk Column to evaluate, tentukan eCommerceAction_type.

  2. Di sebelah Cases (1), klik Add 8 kali untuk total 9 kasus.

Bagian Conditions

  1. Untuk masing-masing Case, tentukan nilai pemetaan berikut ini (termasuk karakter tanda petik tunggal):

Perbandingan

Nilai baru

0

'Unknown'

1

'Click through of product lists'

2

'Product detail views'

3

'Add product(s) to cart'

4

'Remove product(s) from cart'

5

'Check out'

6

'Completed purchase'

7

'Refund of purchase'

8

'Checkout options'

Panel kondisi dengan pratinjau kolom yang dievaluasi, eCommerceAction_type dievaluasi

  1. Untuk New column name, masukkan eCommerceAction_label. Biarkan kolom lain tetap pada nilai defaultnya.

  2. Klik Add.

Menyesuaikan nilai di kolom totalTransactionRevenue

Seperti yang disebutkan dalam skema, kolom totalTransactionRevenue berisi nilai yang diteruskan ke Analytics dan dikali dengan 10^6 (contohnya, 2,40 akan ditampilkan sebagai 2400000). Sekarang Anda membagi isi kolom itu dengan 10^6 untuk mendapatkan nilai aslinya.

  1. Buka menu di sebelah kanan kolom totalTransactionRevenue dengan mengklik Panah dropdown, kemudian pilih Calculate > Custom formula.

Rumus kustom disorot

  1. Untuk Formula, masukkan: DIVIDE(totalTransactionRevenue,1000000) dan untuk New column name, masukkan: totalTransactionRevenue1. Perhatikan pratinjau untuk transformasi:

Pratinjau

  1. Klik Add.
Catatan: Anda mungkin melihat bar merah di bawah kolom totalTransactionRevenue1. Buka menu di sebelah kanan kolom totalTransactionRevenue1 dengan mengklik 93c14cbf1f70a561.png, kemudian klik Change type > Decimal.
  1. Tinjau daftar lengkap langkah-langkah di urutan langkah Anda:

Urutan Langkah Lengkap

  1. Sekarang Anda dapat mengklik Run.

Tugas 7. Menjalankan tugas Cloud Dataprep ke BigQuery

  1. Di halaman Run Job, pilih Dataflow + BigQuery untuk Running Environment Anda.

  2. Pada bagian Publishing Actions, klik Edit di sebelah kanan Create-CSV.

  3. Di halaman berikutnya, pilih BigQuery dari menu di sebelah kiri.

  4. Pilih set data ecommerce Anda.

  5. Klik Create a New Table dari panel di sebelah kanan.

  6. Gunakan revenue_reporting sebagai nama tabel Anda.

  7. Pilih Drop the Table every run.

  8. Klik Update.

  9. Klik RUN.

Saat tugas Cloud Dataprep Anda selesai, refresh halaman BigQuery dan konfirmasi keberadaan tabel output revenue_reporting.

Catatan: Jika tugas gagal, coba tunggu beberapa saat, klik tombol kembali pada browser Anda, dan jalankan kembali tugas dengan setelan yang sama.

Klik Check my progress untuk memverifikasi tujuan. Memverifikasi bahwa tugas Cloud Dataprep menghasilkan output data ke BigQuery

Selamat!

Anda berhasil mempelajari set data e-commerce Anda dan membuat pipeline transformasi data dengan Cloud Dataprep.

Langkah berikutnya/Pelajari lebih lanjut

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 11 Februari 2024

Lab Terakhir Diuji pada 20 September 2023

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.