检查点
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Engineer Data for Predictive Modeling with BigQuery ML:挑戰研究室
GSP327
總覽
在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。
在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。
若想滿分達標,就必須在時限內成功完成所有任務!
這個研究室適合已參加 Engineer Data for Predictive Modeling with BigQuery ML 技能徽章課程的學員。準備好迎接挑戰了嗎?
設定
點選「Start Lab」按鈕前的須知事項
請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。
您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。
如要完成這個研究室活動,請先確認:
- 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
- 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
挑戰情境
您是 TaxiCab Inc. 新上任的資料工程師,職責是將歷來資料匯入使用中的 BigQuery 資料集並建立基礎模型,根據可用資訊預測新行程的車資。公司主管有意建構應用程式,為使用者預估行程費用。您的專案會收到相關來源資料。
公司預期您具備執行這些工作所需的技能與知識,因此不會提供逐步指南。
您的挑戰
您坐在桌前開啟新筆電時,收到了第一項任務:為主管建構基礎 BQML 車資預測模型。在下列工作中,您將匯入及清理資料,然後建構模型,並使用新資料執行批次預測,方便主管審視模型成效,決定是否部署應用程式功能。
工作 1:清理訓練資料
您已完成第一個步驟,建立了 taxirides
資料集,並將歷來資料匯入 historical_taxi_rides_raw
資料表。這是 2015 年之前的行程資料。
請進行下列操作來完成這項工作:
- 清理
historical_taxi_rides_raw
中的資料,然後在該資料集中建立副本。您可以使用 BigQuery、Dataprep、Dataflow 等工具,建立這份資料表及清理資料。務必確認目標資料欄名稱為 。
實用提示:
- 您可以先在 BQ 使用者介面查看來源資料集,熟悉來源結構定義。
- 如想知道預測時有哪些可用資料,請熟悉
taxirides.report_prediction_data
資料表,其中顯示預測時呈現的格式資料。
資料清理工作:
- 確認
trip_distance
大於。 - 移除
fare_amount
值極小的資料列 (例如小於$
)。 - 確認應用情境的經緯度合理。
- 確認
passenger_count
大於。 - 由於 total_amount 包含小費,因此務必將
tolls_amount
和fare_amount
新增至做為目標變數。 - 由於來源資料集相當龐大 (超過 10 億列資料),擷取樣本時請勿超過 100 萬列。
- 只複製模型會使用的欄位 (可以參考
report_prediction_data
)。
點選「Check my progress」,確認目標已達成。
工作 2:建立 BigQuery 機器學習模型
-
請根據
資料,建立 BigQuery 機器學習模型來預測 。 -
呼叫模型
。
實用提示:
- 您可以在 TRANSFORM() 子句中封裝任何額外資料轉換作業。
- 請注意,只有
TRANSFORM()
子句中的特徵會傳遞至模型。您可以直接使用* EXCEPT(feature_to_leave_out)
傳遞部分或所有特徵,不必明確呼叫。 - 使用 BigQuery 中的
ST_distance()
和ST_GeogPoint()
GIS 函式,可以輕鬆計算歐幾里得距離 (也就是從上車到下車,計程車所行經的距離):
點選「Check my progress」,確認目標已達成。
工作 3:使用新資料執行批次預測
主管想瞭解使用新資料執行模型的成效如何。在這個情境中,使用的是 2015 年收集的所有資料,存放在 taxirides.report_prediction_data
中。資料表只納入預測時已知的值。
- 請使用
ML.PREDICT
和您的模型預測,然後將結果儲存至名稱為 2015_fare_amount_predictions
的資料表。
點選「Check my progress」,確認目標已達成。2015_fare_amount_predictions
恭喜!
取得下一枚技能徽章
這個自修研究室屬於 Engineer Data for Predictive Modeling with BigQuery ML 技能徽章課程的一部分。完成這個技能徽章課程即可獲得上方的徽章,表彰您的成就。您可以在履歷表和社群平台張貼徽章,並加上 #GoogleCloudBadge 公開這項成就。
這個技能徽章課程是 Google Cloud 資料工程師學習路徑的一部分。如果您已完成這個學習路徑中的其他技能徽章課程,歡迎瀏覽目錄,找出其他可以參加的技能徽章課程。
Google Cloud 教育訓練與認證
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2024 年 3 月 25 日
研究室上次測試日期:2023 年 9 月 11 日
Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。