arrow_back

利用 BigQuery ML 构建预测模型时的数据工程处理:实验室挑战赛

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

利用 BigQuery ML 构建预测模型时的数据工程处理:实验室挑战赛

实验 1 小时 universal_currency_alt 5 个积分 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

GSP327

Google Cloud 自定进度实验

概览

在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。

在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。

要想获得满分,您必须在该时间段内成功完成所有任务!

我们建议已注册参加利用 BigQuery ML 构建预测模型时的数据工程处理技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?

设置

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:如果您已有自己的个人 Google Cloud 账号或项目,请不要在此实验中使用,以避免您的账号产生额外的费用。

挑战场景

您开始担任 TaxiCab Inc. 的数据工程师这一新职务。您需要将部分历史数据导入有效的 BigQuery 数据集,并在新行程开始时,基于现有信息构建预测机票价格的基础模型。领导团队计划着手构建一款应用,用于为用户估计行程成本。您的项目将可以获得源数据。

您应该已经掌握了完成这些任务所需的技能和知识,所以我们不会提供分步指南。

您的挑战

当您在办公桌前坐下,打开新笔记本电脑后,您发现自己收到了第一个任务:为领导团队构建一个基础版 BQML 机票价格预测模型。执行以下任务,导入并清理数据,然后构建模型,使用新数据执行批量预测,以方便领导团队查看模型性能,并就部署应用功能做出决策。

任务 1.清理训练数据

您已经完成了第一步,创建了数据集 taxirides 并将历史数据导入到了表 historical_taxi_rides_raw 中。这是 2015 年之前的行程数据。

注意:为了让数据完全填充到项目中,您可能需要等待 1-3 分钟。

要完成此任务,您需要执行以下操作:

  • 清理 historical_taxi_rides_raw 中的数据,并在同一数据集中创建 的副本。您可以使用 BigQuery、Dataprep、Dataflow 等创建此表并清理数据。确保您的目标列名为

一些有用提示:

  • 您可以在 BQ UI 中看到源数据集 - 首先要熟悉源架构。
  • 作为对预测时可用数据的提示,请务必熟悉表 taxirides.report_prediction_data,其中显示了预测时将接收的数据格式。

数据清理任务:

  • 确保 trip_distance 大于
  • 移除 fare_amount 极低(例如,小于 $)的行。
  • 确保应用场景中出现的经纬度是合理的。
  • 确保 passenger_count 大于
  • 请务必将 tolls_amountfare_amount 作为目标变量添加到 中,因为 total_amount 还包含小费。
  • 由于源数据集十分庞大(>10 亿行),数据集抽样量应少于 1 百万行。
  • 仅复制将在模型中使用的字段(参考 report_prediction_data 获取指导)。

点击“检查我的进度”以验证是否完成了以下目标: 中创建已清理的数据副本

任务 2.创建 BigQuery ML 模型

  1. 基于您在 中的数据,构建用于预测 的 BigQuery ML 模型。

  2. 将此模型命名为

注意:模型需要将 RMSE 控制在不超过 10 才能完成此任务。

一些有用提示:

  • 您可以在 TRANSFORM() 子句中封装任何其他数据转换。
  • 请记住,只有 TRANSFORM() 子句中的特征才能传递到模型中。您可以使用 * EXCEPT(feature_to_leave_out) 传递部分或全部特征,而无需显式调用它们
  • 您可以使用 BigQuery 中的 ST_distance()ST_GeogPoint() GIS 函数轻松计算欧几里得距离(即出租车行程中,上车点与下车点之间的距离):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

点击“检查我的进度”以验证是否完成了以下目标: 创建 BigQuery ML 模型 (RMSE 不超过 10)

任务 3.利用新数据执行批量预测

领导团队很想知道模型在新数据上的表现如何,这里的新数据是指在 2015 年收集的全部数据。数据位于 taxirides.report_prediction_data 中。表中仅纳入了预测时已知的数值。

  • 使用 ML.PREDICT 和模型预测 ,并将结果存储在名为 2015_fare_amount_predictions 的表中。

点击“检查我的进度”以验证是否完成了以下目标: 执行批量预测,并将结果存储在新表 2015_fare_amount_predictions

恭喜!

“利用 BigQuery ML 构建预测模型时的数据工程处理”徽章

赢得您的下一个技能徽章

本自学实验是利用 BigQuery ML 构建预测模型时的数据工程处理技能徽章课程的组成部分。完成此技能徽章挑战任务可赢得上面的徽章,以表彰您取得的成就。您可以在简历和社交平台中分享自己的徽章,并使用 #GoogleCloudBadge 让大家知道您取得的这一成就。

此技能徽章课程是 Google Cloud 的数据工程师学习路线的组成部分。如果您已完成此学习路线中的其他技能徽章挑战任务,可在目录中进行搜索,找出您可以注册参加的其他技能徽章挑战任务。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2024 年 3 月 25 日

上次测试实验的时间:2023 年 9 月 11 日

版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您