知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 中級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP327
概要
チャレンジシナリオ
タスク 1. トレーニングデータをクリーニングする
タスク 2. BigQuery ML モデルを作成する
タスク 3. 新しいデータに対してバッチ予測を実行する
お疲れさまでした

知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

GSP327

Google Cloud セルフペースラボ

概要

チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリングシステムで確認できます。

チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラーメッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。

100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。

このラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。

設定

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモードまたはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。

ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。

注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

チャレンジシナリオ

あなたは TaxiCab Inc. のデータエンジニアという新たな役割を担うことになり、そこで過去のデータを BigQuery の作業データセットにインポートして、入手可能な情報に基づいて乗車時に運賃を予測する基本モデルを構築することを求められています。経営陣は、乗客向けに運賃を予測するアプリの構築に関心を持っています。プロジェクトにはソースデータが用意されます。

これらのタスクのスキルや知識があるという前提のため、手順ガイドは提供されません。

チャレンジ

席に着いてノートパソコンを開くと、経営陣のために BQML の基本的な運賃予測モデルを構築するよう求める最初のアサインメントを受け取ります。次のタスクを実行して、データをインポート、クリーニングしてから、モデルを構築します。経営陣がこのモデルのパフォーマンスを確認して、このアプリの機能のデプロイを許可できるかどうかを判断できるように、新しいデータでバッチ予測を実行してください。

タスク 1. トレーニングデータをクリーニングする

最初のステップはすでに完了しています。データセット taxirides を作成して、過去のデータをテーブル historical_taxi_rides_raw にインポートしました。これは 2015 年より前の乗車データです。

注: プロジェクトにすべてのデータが入力されるまでに 1～3 分かかることがあります。

このタスクでは、次の作業が必要です。

historical_taxi_rides_raw のデータをクリーニングして、同じデータセット内のにコピーします。このテーブルの作成とデータのクリーニングには、BigQuery、DataPrep、DataFlow などを使用できます。ターゲット列の名前は必ずにしてください。

役に立つヒント:

BQ UI でソースデータセットを確認できます。最初にソースのスキーマを理解しておきましょう。
予測時に使用可能なデータに関するヒントとして、テーブル taxirides.report_prediction_data をよく確認しておいてください。予測時にどのような形式のデータが得られるかがわかります。

データクリーニングのタスク:

trip_distance がより大きいことを確認します。
fare_amount が非常に小さい行（たとえば、$ 未満）を削除します。
このユースケースで妥当な緯度と経度であるかどうかを確認します。
passenger_count がより大きいことを確認します。
tolls_amount と fare_amount をターゲット変数としてに追加してください。total_amount にはチップが含まれるからです。
ソースデータセットが大きい（10 億行を超える）場合は、サンプリングして 100 万行未満のデータセットにしてください。
モデルで使用されるフィールドのみをコピーします（report_prediction_data を参考にしてください）。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。データをクリーニングしてにコピーを作成する

タスク 2. BigQuery ML モデルを作成する

のデータに基づいてを予測する BigQuery ML モデルを構築します。
モデルの名前をにします。

注: このタスクでは、モデルの RMSE が 10 以下である必要があります。

役に立つヒント:

追加のデータ変換は TRANSFORM() 句にカプセル化することができます。
TRANSFORM() 句に含まれる特徴量のみがモデルに渡されることに注意してください。* EXCEPT(feature_to_leave_out) を使用して、明示的に呼び出すことなくすべての特徴量またはその一部を渡すことができます。
BigQuery の GIS 関数 ST_distance() と ST_GeogPoint() を使用して、ユークリッド距離を簡単に計算できます（乗車から降車までのタクシーの走行距離など）。

ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。RMSE が 10 未満の BigQuery ML モデルを作成する

タスク 3. 新しいデータに対してバッチ予測を実行する

経営陣は、作成されたモデルが新しいデータ（この場合は、2015 年に収集されたすべてのデータ）に対してうまく機能するかどうか確認することを希望しています。このデータは taxirides.report_prediction_data に含まれます。予測時に既知の値のみがテーブルに含まれます。

ML.PREDICT と作成したモデルを使用して、を予測し、結果を 2015_fare_amount_predictions というテーブルに格納します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。バッチ予測を実行して新しいテーブル 2015_fare_amount_predictions に格納する

お疲れさまでした

「Engineer Data for Predictive Modeling with BigQuery ML」バッジ

次のスキルバッジを獲得する

このセルフペースラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジの一部です。このスキルバッジを完了すると成果が認められて、上のようなバッジが贈られます。獲得したバッジを履歴書やソーシャルプラットフォームに記載し、#GoogleCloudBadge を使用して成果を公表しましょう。

このスキルバッジは、Google Cloud のデータエンジニア向け学習プログラムの一部です。この学習プログラムの他のスキルバッジを獲得済みの場合は、他の登録可能なスキルバッジをカタログで検索してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 3 月 25 日

ラボの最終テスト日: 2023 年 9 月 11 日

Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ

Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ

GSP327

概要

設定

[ラボを開始] ボタンをクリックする前に

チャレンジ シナリオ

チャレンジ

タスク 1. トレーニング データをクリーニングする

タスク 2. BigQuery ML モデルを作成する

タスク 3. 新しいデータに対してバッチ予測を実行する

お疲れさまでした

次のスキルバッジを獲得する

Google Cloud トレーニングと認定資格

チャレンジシナリオ

タスク 1. トレーニングデータをクリーニングする