arrow_back

Engineer Data for Predictive Modeling with BigQuery ML:挑戰研究室

登录 加入
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engineer Data for Predictive Modeling with BigQuery ML:挑戰研究室

Lab 1 小时 universal_currency_alt 5 积分 show_chart 中级
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Google Cloud 自修研究室標誌

總覽

在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。

在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。

若想滿分達標,就必須在時限內成功完成所有任務!

這個研究室適合已參加 Engineer Data for Predictive Modeling with BigQuery ML 技能徽章課程的學員。準備好迎接挑戰了嗎?

設定

點選「Start Lab」按鈕前的須知事項

請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。

您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。

如要完成這個研究室活動,請先確認:

  • 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意:請使用無痕模式或私密瀏覽視窗執行此研究室。這可以防止個人帳戶和學生帳戶之間的衝突,避免個人帳戶產生額外費用。
  • 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
注意:如果您擁有個人 Google Cloud 帳戶或專案,請勿用於本研究室,以免產生額外費用。

挑戰情境

您是 TaxiCab Inc. 新上任的資料工程師,職責是將歷來資料匯入使用中的 BigQuery 資料集並建立基礎模型,根據可用資訊預測新行程的車資。公司主管有意建構應用程式,為使用者預估行程費用。您的專案會收到相關來源資料。

公司預期您具備執行這些工作所需的技能與知識,因此不會提供逐步指南。

您的挑戰

您坐在桌前開啟新筆電時,收到了第一項任務:為主管建構基礎 BQML 車資預測模型。在下列工作中,您將匯入及清理資料,然後建構模型,並使用新資料執行批次預測,方便主管審視模型成效,決定是否部署應用程式功能。

工作 1:清理訓練資料

您已完成第一個步驟,建立了 taxirides 資料集,並將歷來資料匯入 historical_taxi_rides_raw 資料表。這是 2015 年之前的行程資料。

注意:系統可能需要 1 至 3 分鐘,才能將資料全部填入專案,請稍候片刻。

請進行下列操作來完成這項工作:

  • 清理 historical_taxi_rides_raw 中的資料,然後在該資料集中建立 副本。您可以使用 BigQuery、Dataprep、Dataflow 等工具,建立這份資料表及清理資料。務必確認目標資料欄名稱為

實用提示:

  • 您可以先在 BQ 使用者介面查看來源資料集,熟悉來源結構定義。
  • 如想知道預測時有哪些可用資料,請熟悉 taxirides.report_prediction_data 資料表,其中顯示預測時呈現的格式資料。

資料清理工作:

  • 確認 trip_distance 大於
  • 移除 fare_amount 值極小的資料列 (例如小於 $)。
  • 確認應用情境的經緯度合理。
  • 確認 passenger_count 大於
  • 由於 total_amount 包含小費,因此務必將 tolls_amountfare_amount 新增至 做為目標變數。
  • 由於來源資料集相當龐大 (超過 10 億列資料),擷取樣本時請勿超過 100 萬列。
  • 只複製模型會使用的欄位 (可以參考 report_prediction_data)。

點選「Check my progress」,確認目標已達成。清理 資料並建立副本

工作 2:建立 BigQuery 機器學習模型

  1. 請根據 資料,建立 BigQuery 機器學習模型來預測

  2. 呼叫模型

注意:模型的均方根誤差必須在 10 以下,才能完成這項工作。

實用提示:

  • 您可以在 TRANSFORM() 子句中封裝任何額外資料轉換作業。
  • 請注意,只有 TRANSFORM() 子句中的特徵會傳遞至模型。您可以直接使用 * EXCEPT(feature_to_leave_out) 傳遞部分或所有特徵,不必明確呼叫。
  • 使用 BigQuery 中的 ST_distance()ST_GeogPoint() GIS 函式,可以輕鬆計算歐幾里得距離 (也就是從上車到下車,計程車所行經的距離):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

點選「Check my progress」,確認目標已達成。建立均方根誤差為 10 以下的 BigQuery 機器學習模型

工作 3:使用新資料執行批次預測

主管想瞭解使用新資料執行模型的成效如何。在這個情境中,使用的是 2015 年收集的所有資料,存放在 taxirides.report_prediction_data 中。資料表只納入預測時已知的值。

  • 請使用 ML.PREDICT 和您的模型預測 ,然後將結果儲存至名稱為 2015_fare_amount_predictions 的資料表。

點選「Check my progress」,確認目標已達成。執行批次預測,並將結果儲存至新資料表 2015_fare_amount_predictions

恭喜!

「Engineer Data for Predictive Modeling with BigQuery ML」技能徽章

取得下一枚技能徽章

這個自修研究室屬於 Engineer Data for Predictive Modeling with BigQuery ML 技能徽章課程的一部分。完成這個技能徽章課程即可獲得上方的徽章,表彰您的成就。您可以在履歷表和社群平台張貼徽章,並加上 #GoogleCloudBadge 公開這項成就。

這個技能徽章課程是 Google Cloud 資料工程師學習路徑的一部分。如果您已完成這個學習路徑中的其他技能徽章課程,歡迎瀏覽目錄,找出其他可以參加的技能徽章課程。

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期:2024 年 3 月 25 日

研究室上次測試日期:2023 年 9 月 11 日

Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。