
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Calculate trips taken by Yellow taxi in each month of 2015
/ 10
Calculate average speed of Yellow taxi trips in 2015
/ 10
Test whether fields are good inputs to your fare forecasting model
/ 20
Create a BigQuery dataset to store models
/ 10
Create a taxifare model
/ 20
Evaluate classification model performance
/ 10
Predict taxi fare amount
/ 20
BigQuery adalah database analisis berbiaya rendah dan NoOps yang dikelola sepenuhnya oleh Google. Dengan BigQuery, Anda dapat melakukan kueri pada data berukuran terabyte tanpa harus memiliki administrator database atau infrastruktur apa pun untuk mengelolanya.
BigQuery ML memberi analis data kemampuan untuk membuat, melatih, mengevaluasi, dan memprediksi model machine learning dengan coding minimal.
Di lab ini, Anda akan menangani jutaan perjalanan taksi kuning New York City yang tersedia di Set Data Publik BigQuery. Anda akan menggunakan data ini untuk membuat model machine learning di dalam BigQuery untuk memprediksi tarif perjalanan taksi berdasarkan input model Anda dan mengevaluasi performa model Anda serta membuat prediksi dengannya.
Di lab ini, Anda akan mempelajari cara melakukan tugas berikut:
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
Anda juga dapat menemukan Username di panel Lab Details.
Klik Next.
Salin Password di bawah dan tempel ke dialog Welcome.
Anda juga dapat menemukan Password di panel Lab Details.
Klik Next.
Klik halaman berikutnya:
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Kotak pesan Welcome to BigQuery in the Cloud Console akan terbuka. Kotak pesan ini menyediakan link ke panduan memulai dan catatan rilis.
Konsol BigQuery terbuka.
Pertanyaan: Berapa banyak perjalanan yang dilakukan taksi kuning tiap bulan pada tahun 2015?
Anda akan menerima hasil berikut:
Seperti terlihat, tiap bulan pada tahun 2015 terdapat lebih dari 10 juta perjalanan taksi NYC. Jumlah ini tidak sedikit!
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Pertanyaan: Berapa kecepatan rata-rata perjalanan taksi kuning pada tahun 2015?
Anda akan menerima hasil berikut:
Pada siang hari, kecepatan rata-rata taksi sekitar 17-19 km per jam, tetapi pada pukul 05.00 kecepatan rata-rata meningkat hampir dua kali lipat menjadi 33 km per jam. Secara naluriah, hal ini masuk akal karena kemungkinan lalu lintas di jalan akan lebih sepi pada pukul 05.00.
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Sekarang Anda akan membuat model Machine Learning di BigQuery untuk memprediksi harga perjalanan taksi di New York City berdasarkan set data historis perjalanan dan data perjalanan. Memprediksi tarif sebelum perjalanan dapat sangat berguna untuk perencanaan perjalanan, baik bagi penumpang maupun perusahaan taksi.
Set data Taksi Kuning New York City adalah set data publik yang disediakan oleh pemerintah kota dan telah dimuat ke BigQuery untuk kebutuhan Anda.
Jelajahi daftar lengkap kolom, kemudian pratinjau set data untuk menemukan fitur yang berguna yang akan membantu model machine learning memahami hubungan antara data terkait perjalanan taksi secara historis dan harga tarifnya.
Tim Anda memutuskan untuk menguji apakah kolom di bawah ini adalah input yang baik untuk model perkiraan tarif Anda:
Perhatikan beberapa hal tentang kueri ini:
SELECT * from taxitrips
).taxitrips
melakukan sebagian besar ekstraksi untuk set data NYC, dengan SELECT
berisi fitur dan label pelatihan Anda.WHERE
menghapus data yang tidak ingin Anda gunakan untuk pelatihan.WHERE
juga mencakup klausa pengambilan sampel untuk mengambil hanya 1/1000 data.TRAIN
sehingga Anda dapat dengan cepat membuat set EVAL
independen.Anda akan melihat hasil seperti ini:
Apa nama labelnya (jawaban yang benar)?
total_fare
adalah labelnya (yang akan Anda prediksi). Anda membuat kolom ini dari tolls_amount
dan fare_amount
, sehingga Anda dapat mengabaikan tip pelanggan sebagai bagian dari model karena bersifat diskresi.
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Di bagian ini, Anda akan membuat set data BigQuery baru yang akan menyimpan model ML Anda.
Di panel Explorer sebelah kiri, klik ikon View actions di sebelah Project ID, lalu klik Create dataset.
Dalam dialog Create Dataset, masukkan yang berikut:
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Setelah memilih fitur awal, sekarang Anda siap untuk membuat model ML pertama Anda di BigQuery.
Ada beberapa jenis model yang dapat dipilih:
Selanjutnya, klik Run untuk melatih model Anda.
Tunggu sampai model tersebut selesai dilatih (5-10 menit).
Setelah model dilatih, Anda akan melihat pesan yang berbunyi "This statement will create a new model named qwiklabs-gcp-03-xxxxxxxx:taxi.taxifare_model." yang menunjukkan bahwa model Anda telah berhasil dilatih.
Selanjutnya, Anda akan mengevaluasi performa model terhadap data evaluasi baru yang belum pernah dilihat sebelumnya.
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Untuk model regresi linear, gunakan metrik kerugian seperti Root Mean Square Error (RMSE). Tetaplah melatih dan meningkatkan kualitas model hingga model memiliki GARK terendah.
Di BQML, mean_squared_error
adalah sebuah bidang yang dapat dikueri ketika mengevaluasi model ML terlatih. Tambahkan kode SQRT()
untuk mendapatkan GARK.
Setelah pelatihan selesai, Anda dapat mengevaluasi seberapa baik performa model dengan kueri ini menggunakan ML.EVALUATE
.
Anda sekarang mengevaluasi model terhadap serangkaian perjalanan taksi yang berbeda dengan filter params.EVAL
.
Baris |
gark |
1 |
9,477056435999074 |
Setelah mengevaluasi model, Anda akan mendapatkan GARK sebesar 9,47. Karena kita mengambil Akar dari Rataan Kuadrat Galat (GARK), error 9,47 dapat dievaluasi dalam satuan yang sama dengan total_fare sehingga menjadi +-$9,47.
Untuk mengetahui apakah metrik kerugian ini dapat diterima atau tidak untuk memproduksi model Anda sepenuhnya, Anda harus melihat kriteria tolok ukurnya, yang ditetapkan sebelum pelatihan model dimulai. Menentukan tolok ukur adalah menetapkan tingkat minimum performa dan akurasi model yang dapat diterima.
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Selanjutnya, tulis kueri untuk menggunakan model baru Anda dalam membuat prediksi.
Sekarang Anda akan melihat prediksi model untuk tarif taksi beserta tarif aktual dan fitur lainnya untuk perjalanan tersebut. Hasil Anda akan terlihat seperti di bawah ini:
Klik Check my progress untuk memverifikasi tugas yang telah dijalankan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.
Membangun model Machine Learning adalah proses berulang. Setelah mengevaluasi performa model awal, kita sering kali kembali dan memangkas fitur dan baris untuk melihat apakah kita bisa mendapatkan model yang lebih baik lagi.
Sekarang lihat statistik umum untuk tarif taksi.
Anda akan melihat output seperti ini:
Seperti yang Anda lihat, ada beberapa pencilan aneh dalam set data kita (tarif negatif atau tarif di atas $50.000). Terapkan keahlian kita dalam bidang ini untuk membantu model menghindari pembelajaran pada pencilan yang aneh.
Batasi data hanya pada tarif antara $$6 dan $$200.
Anda akan melihat output seperti ini:
Hasil ini sedikit lebih baik. Sambil mengerjakan hal ini, batasi juga jarak yang ditempuh sehingga Anda benar-benar berfokus pada New York City.
Anda akan melihat output seperti ini:
Anda masih memiliki set data pelatihan besar yang berisi lebih dari 800 juta perjalanan untuk dipelajari model baru kita. Latih kembali model dengan batasan baru ini, lalu lihat seberapa baik performanya.
Panggil model baru taxi.taxifare_model_2
dan latih kembali model regresi linear ini untuk memprediksi total tarif. Anda akan melihat bahwa Anda juga telah menambahkan beberapa fitur terhitung untuk jarak Euclidean (garis lurus) antara penjemputan dan pengantaran.
Mungkin diperlukan waktu beberapa menit untuk melatih ulang model tersebut. Anda dapat melanjutkan ke langkah berikutnya ketika menerima pesan berikut di Konsol:
Setelah model regresi linear dioptimalkan, evaluasi set data dengannya dan lihat bagaimana performanya.
Anda akan melihat output seperti ini:
Seperti yang Anda lihat, GARK turun menjadi: +-$$5,12 yang jauh lebih baik daripada +-$$9,47 untuk model pertama Anda.
Karena GARK menentukan deviasi standar kesalahan prediksi, terlihat bahwa regresi linear yang dilatih ulang membuat model kita jadi jauh lebih akurat.
Di bawah ini terdapat pertanyaan pilihan ganda untuk memperkuat pemahaman Anda tentang konsep lab ini. Jawab pertanyaan tersebut sebaik mungkin.
Anda dapat menggunakan project bigquery-public-data jika ingin mempelajari pemodelan pada set data lain seperti memperkirakan tarif perjalanan taksi Chicago.
Untuk membuka set data bigquery-public-data, klik +Add > Star a project by name > Enter Project Name, lalu tulis nama bigquery-public-data
.
Klik Star.
Project bigquery-public-data
tercantum di bagian Explorer.
Anda telah berhasil membuat model machine learning di BigQuery untuk memperkirakan tarif taksi untuk taksi New York City.
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 07 Februari 2024
Lab terakhir diuji pada 24 Agustus 2023
Hak cipta 2025 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.
Konten ini tidak tersedia untuk saat ini
Kami akan memberi tahu Anda melalui email saat konten tersedia
Bagus!
Kami akan menghubungi Anda melalui email saat konten tersedia
One lab at a time
Confirm to end all existing labs and start this one