arrow_back

Rekayasa Data untuk Pembuatan Model Prediktif dengan BigQuery ML: Challenge Lab

Login Gabung
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Rekayasa Data untuk Pembuatan Model Prediktif dengan BigQuery ML: Challenge Lab

Lab 1 jam universal_currency_alt 5 Kredit show_chart Menengah
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Lab Mandiri Google Cloud

Ringkasan

Dalam challenge lab, Anda diberi sebuah skenario dan serangkaian tugas. Tidak ada petunjuk langkah demi langkah. Anda akan menggunakan keahlian yang dipelajari dari lab dalam kursus untuk mencari cara menyelesaikan sendiri tugas-tugas tersebut. Sistem pemberian skor otomatis (ditampilkan pada halaman ini) akan memberikan masukan tentang apakah Anda telah menyelesaikan tugas dengan benar atau tidak.

Saat mengikuti challenge lab, Anda tidak akan diajari konsep-konsep baru Google Cloud. Anda diharapkan dapat memperluas keahlian yang dipelajari, seperti mengubah nilai default dan membaca serta mengkaji pesan error untuk memperbaiki kesalahan Anda sendiri.

Untuk meraih skor 100%, Anda harus berhasil menyelesaikan semua tugas dalam jangka waktu tertentu.

Lab ini direkomendasikan bagi siswa yang sudah mengikuti badge keahlian Engineer Data for Predictive Modeling with BigQuery ML. Apakah Anda siap menghadapi tantangan ini?

Penyiapan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Skenario tantangan

Anda punya jabatan baru sebagai Data Engineer untuk TaxiCab Inc. Anda diminta mengimpor beberapa data historis ke set data BigQuery yang berfungsi, dan membuat model dasar yang memprediksi tarif berdasarkan informasi yang tersedia saat perjalanan baru dimulai. Pimpinan Anda tertarik untuk membuat aplikasi yang memperkirakan ongkos perjalanan bagi pengguna. Data sumber akan diberikan dalam project Anda.

Anda dianggap sudah memiliki kemampuan dan pengetahuan untuk menyelesaikan tugas ini, jadi panduan langkah demi langkah tidak akan disediakan.

Tantangan Anda

Begitu Anda duduk di meja kerja dan membuka laptop, Anda menerima tugas pertama, yaitu membuat model prediksi tarif dasar BQML untuk pimpinan. Lakukan tugas berikut untuk mengimpor dan membersihkan data, lalu buat model dan jalankan prediksi batch dengan data baru, sehingga pimpinan dapat meninjau performa model dan mengambil keputusan go/no-go dalam men-deploy fungsi aplikasi.

Tugas 1. Membersihkan data pelatihan

Anda sudah menyelesaikan langkah pertama, serta membuat set data taxirides dan mengimpor data historis ke tabel, historical_taxi_rides_raw. Ini adalah data perjalanan hingga tahun 2015.

Catatan: Anda mungkin perlu menunggu 1-3 menit agar data dapat sepenuhnya diisi dalam project Anda.

Untuk menyelesaikan tugas ini, Anda perlu:

  • Membersihkan data di historical_taxi_rides_raw dan membuat salinan ke di set data yang sama. Anda dapat menggunakan BigQuery, Dataprep, Dataflow, dan lain-lain untuk membuat tabel ini dan membersihkan data. Pastikan kolom target Anda bernama .

Petunjuk yang dapat membantu:

  • Anda dapat melihat set data sumber di UI BQ - pahami skema sumber terlebih dahulu.
  • Sebagai petunjuk untuk data yang tersedia pada waktu prediksi, pahami tabel taxirides.report_prediction_data yang menunjukkan format data yang akan datang pada waktu prediksi.

Tugas pembersihan data:

  • Pastikan trip_distance lebih besar dari .
  • Hapus baris dengan nilai fare_amount yang sangat sedikit (misalnya, yang bernilai kurang dari $).
  • Pastikan garis lintang dan garis bujur masuk akal untuk kasus penggunaan.
  • Pastikan passenger_count lebih besar dari .
  • Pastikan untuk menambahkan tolls_amount dan fare_amount ke sebagai variabel target karena total_amount mencakup tip.
  • Karena set data sumber berjumlah besar (>1 Miliar baris), buat sampel set data yang berjumlah kurang dari 1 Juta baris.
  • Hanya salin kolom yang akan digunakan di model Anda (report_prediction_data adalah panduan yang bagus).

Klik Check my progress untuk memverifikasi tujuan. Membuat salinan data yang telah dibersihkan di

Tugas 2. Membuat model BigQuery ML

  1. Berdasarkan data yang Anda miliki di , buat model BigQuery ML yang memprediksi .

  2. Panggil model .

Catatan: Model Anda akan memerlukan RMSE berjumlah 10 atau kurang untuk menyelesaikan tugas.

Petunjuk yang dapat membantu:

  • Anda dapat mengenkapsulasi transformasi data lainnya di klausa TRANSFORM()
  • Harap diperhatikan, fitur yang akan diteruskan ke model hanyalah fitur di klausa TRANSFORM(). Anda dapat menggunakan * EXCEPT(feature_to_leave_out) untuk meneruskan sebagian atau semua fitur tanpa memanggilnya secara eksplisit
  • Fungsi GIS ST_distance() dan ST_GeogPoint() di BigQuery dapat digunakan untuk menghitung jarak euclidean dengan mudah (yakni jarak yang ditempuh taksi dari menjemput hingga menurunkan penumpang):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

Klik Check my progress untuk memverifikasi tujuan. Membuat model BigQuery ML dengan RMSE berjumlah 10 atau kurang

Tugas 3. Melakukan prediksi batch pada data baru

Pimpinan Anda ingin tahu seberapa baik performa model dalam mengolah data baru, yakni semua data yang telah dikumpulkan pada tahun 2015. Data ini berada di taxirides.report_prediction_data. Nilai yang disertakan dalam tabel hanyalah nilai yang diketahui pada waktu prediksi.

  • Gunakan ML.PREDICT dan model Anda untuk memprediksi , lalu simpan hasilnya di tabel bernama 2015_fare_amount_predictions.

Klik Check my progress untuk memverifikasi tujuan. Melakukan prediksi batch dan menyimpan hasil di tabel baru 2015_fare_amount_predictions

Selamat!

Badge Engineer Data for Predictive Modeling with BigQuery ML

Mendapatkan badge keahlian Anda berikutnya

Lab mandiri ini merupakan bagian dari badge keahlian Engineer Data for Predictive Modeling with BigQuery ML. Dengan menyelesaikan badge keahlian ini, Anda akan mendapatkan badge di atas sebagai pengakuan atas pencapaian Anda. Tampilkan badge di resume atau platform media sosial Anda, dan umumkan pencapaian Anda menggunakan hashtag #GoogleCloudBadge.

Badge keahlian ini merupakan bagian dari jalur pembelajaran Data Engineer Google Cloud. Jika Anda sudah menyelesaikan badge keahlian lain di jalur pembelajaran ini, telusuri katalog untuk badge keahlian lainnya yang dapat Anda ikuti.

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 25 Maret 2024

Lab Terakhir Diuji pada 11 September 2023

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.