チェックポイント
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ
GSP327
概要
チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。
チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。
100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。
このラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。
設定
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
チャレンジ シナリオ
あなたは TaxiCab Inc. のデータ エンジニアという新たな役割を担うことになり、そこで過去のデータを BigQuery の作業データセットにインポートして、入手可能な情報に基づいて乗車時に運賃を予測する基本モデルを構築することを求められています。経営陣は、乗客向けに運賃を予測するアプリの構築に関心を持っています。プロジェクトにはソースデータが用意されます。
これらのタスクのスキルや知識があるという前提のため、手順ガイドは提供されません。
チャレンジ
席に着いてノートパソコンを開くと、経営陣のために BQML の基本的な運賃予測モデルを構築するよう求める最初のアサインメントを受け取ります。次のタスクを実行して、データをインポート、クリーニングしてから、モデルを構築します。経営陣がこのモデルのパフォーマンスを確認して、このアプリの機能のデプロイを許可できるかどうかを判断できるように、新しいデータでバッチ予測を実行してください。
タスク 1. トレーニング データをクリーニングする
最初のステップはすでに完了しています。データセット taxirides
を作成して、過去のデータをテーブル historical_taxi_rides_raw
にインポートしました。これは 2015 年より前の乗車データです。
このタスクでは、次の作業が必要です。
-
historical_taxi_rides_raw
のデータをクリーニングして、同じデータセット内のにコピーします。このテーブルの作成とデータのクリーニングには、BigQuery、DataPrep、DataFlow などを使用できます。ターゲット列の名前は必ず にしてください。
役に立つヒント:
- BQ UI でソース データセットを確認できます。最初にソースのスキーマを理解しておきましょう。
- 予測時に使用可能なデータに関するヒントとして、テーブル
taxirides.report_prediction_data
をよく確認しておいてください。予測時にどのような形式のデータが得られるかがわかります。
データ クリーニングのタスク:
-
trip_distance
がより大きいことを確認します。 -
fare_amount
が非常に小さい行(たとえば、$
未満)を削除します。 - このユースケースで妥当な緯度と経度であるかどうかを確認します。
-
passenger_count
がより大きいことを確認します。 -
tolls_amount
とfare_amount
をターゲット変数としてに追加してください。total_amount にはチップが含まれるからです。 - ソース データセットが大きい(10 億行を超える)場合は、サンプリングして 100 万行未満のデータセットにしてください。
- モデルで使用されるフィールドのみをコピーします(
report_prediction_data
を参考にしてください)。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 2. BigQuery ML モデルを作成する
-
のデータに基づいて を予測する BigQuery ML モデルを構築します。 -
モデルの名前を
にします。
役に立つヒント:
- 追加のデータ変換は TRANSFORM() 句にカプセル化することができます。
-
TRANSFORM()
句に含まれる特徴量のみがモデルに渡されることに注意してください。* EXCEPT(feature_to_leave_out)
を使用して、明示的に呼び出すことなくすべての特徴量またはその一部を渡すことができます。 - BigQuery の GIS 関数
ST_distance()
とST_GeogPoint()
を使用して、ユークリッド距離を簡単に計算できます(乗車から降車までのタクシーの走行距離など)。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 3. 新しいデータに対してバッチ予測を実行する
経営陣は、作成されたモデルが新しいデータ(この場合は、2015 年に収集されたすべてのデータ)に対してうまく機能するかどうか確認することを希望しています。このデータは taxirides.report_prediction_data
に含まれます。予測時に既知の値のみがテーブルに含まれます。
-
ML.PREDICT
と作成したモデルを使用して、を予測し、結果を 2015_fare_amount_predictions
というテーブルに格納します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。2015_fare_amount_predictions
に格納する
お疲れさまでした
次のスキルバッジを獲得する
このセルフペース ラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジの一部です。このスキルバッジを完了すると成果が認められて、上のようなバッジが贈られます。獲得したバッジを履歴書やソーシャル プラットフォームに記載し、#GoogleCloudBadge を使用して成果を公表しましょう。
このスキルバッジは、Google Cloud のデータ エンジニア向け学習プログラムの一部です。この学習プログラムの他のスキルバッジを獲得済みの場合は、他の登録可能なスキルバッジをカタログで検索してみてください。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 3 月 25 日
ラボの最終テスト日: 2023 年 9 月 11 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。