arrow_back

通过 BigQuery ML 创建机器学习模型:实验室挑战赛

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!

通过 BigQuery ML 创建机器学习模型:实验室挑战赛

实验 1 小时 30 分钟 universal_currency_alt 5 个积分 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!

GSP341

概览

在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。

在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。

要想获得满分,您必须在该时间段内成功完成所有任务!

我们建议已报名参加通过 BigQuery ML 创建机器学习模型技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?

设置

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

挑战场景

您新近加入了数据科学部。您的团队正在开展多个项目,其中包含多项机器学习计划。您需要帮助开发并评估数据集和机器学习模型,以帮助提供基于实际工作数据集的分析洞见。

您应该已经掌握了完成这些任务所需的技能和知识,所以我们不会提供分步指南。

本实验室挑战赛中的以下任务会检查您在 BigQuery 和机器学习方面的知识。

任务 1. 创建新数据集和机器学习模型

您参与的一个项目需要提供基于实际数据的分析。您在这个项目中的职责是开发和评估机器学习模型。

  • 在这个任务中,您需要创建一个 ID 为 ecommerce 的数据集,用于存储机器学习模型。

  • 现在,创建机器学习模型 customer_classification_model,稍后将评估该模型的性能。运行以下查询,创建 customer_classification_model

    CREATE OR REPLACE MODEL `ecommerce.customer_classification_model` OPTIONS ( model_type='logistic_reg', labels = ['will_buy_on_return_visit'] ) AS #standardSQL SELECT * EXCEPT(fullVisitorId) FROM # features (SELECT fullVisitorId, IFNULL(totals.bounces, 0) AS bounces, IFNULL(totals.timeOnSite, 0) AS time_on_site FROM `data-to-insights.ecommerce.web_analytics` WHERE totals.newVisits = 1 AND date BETWEEN '20160801' AND '20170430') # train on first 9 months JOIN (SELECT fullvisitorid, IF(COUNTIF(totals.transactions > 0 AND totals.newVisits IS NULL) > 0, 1, 0) AS will_buy_on_return_visit FROM `data-to-insights.ecommerce.web_analytics` GROUP BY fullvisitorid) USING (fullVisitorId);

点击检查我的进度以验证是否完成了以下目标:

已创建了新数据集和模型

任务 2. 评估分类模型性能

在此任务中,您需要使用未曾见过的全新评估数据评估 customer_classification_model 模型的性能。

在 BigQuery ML 中,roc_auc 只是评估经训练的机器学习模型时可查询的一个字段。运行该查询,使用 ML.EVALUATE 评估该模型的性能。

评估完模型后,注意观察该模型的预测能力。

点击检查我的进度以验证是否完成了以下目标:

两个机器学习模型均已评估。

任务 3. 通过特征工程提升模型性能,然后评估模型是否具有更好的预测能力

在此任务中,您要使用数据集特征来帮助 customer_classification_model 模型更好地理解访问者的首次访问与其在后续访问时购买产品的概率之间的联系。

现在,添加一些新特征,并创建另一个名为 improved_customer_classification_model 的机器学习模型。

  • 访问者首次访问时在结账流程中进行到了哪一步
  • 访问者的来源(流量来源:自然搜索、引荐网站等)
  • 设备类别(移动设备、平板电脑、桌面设备)
  • 地理位置信息(国家/地区)

现在,评估新创建的模型 improved_customer_classification_model,看看其预测能力是否优于 customer_classification_model

点击检查我的进度以验证是否完成了以下目标:

提升模型性能并评估模型。

任务 4. 预测哪些新访问者会再次访问并购物

现在,创建机器学习模型 finalized_classification_model,稍后将评估该模型的性能。运行以下查询,创建 finalized_classification_model

CREATE OR REPLACE MODEL `ecommerce.finalized_classification_model` OPTIONS (model_type="logistic_reg", labels = ["will_buy_on_return_visit"]) AS WITH all_visitor_stats AS ( SELECT fullvisitorid, IF(COUNTIF(totals.transactions > 0 AND totals.newVisits IS NULL) > 0, 1, 0) AS will_buy_on_return_visit FROM `data-to-insights.ecommerce.web_analytics` GROUP BY fullvisitorid ) # add in new features SELECT * EXCEPT(unique_session_id) FROM ( SELECT CONCAT(fullvisitorid, CAST(visitId AS STRING)) AS unique_session_id, # labels will_buy_on_return_visit, MAX(CAST(h.eCommerceAction.action_type AS INT64)) AS latest_ecommerce_progress, # behavior on the site IFNULL(totals.bounces, 0) AS bounces, IFNULL(totals.timeOnSite, 0) AS time_on_site, IFNULL(totals.pageviews, 0) AS pageviews, # where the visitor came from trafficSource.source, trafficSource.medium, channelGrouping, # mobile or desktop device.deviceCategory, # geographic IFNULL(geoNetwork.country, "") AS country FROM `data-to-insights.ecommerce.web_analytics`, UNNEST(hits) AS h JOIN all_visitor_stats USING(fullvisitorid) WHERE 1=1 # only predict for new visits AND totals.newVisits = 1 AND date BETWEEN "20160801" AND "20170430" # train 9 months GROUP BY unique_session_id, will_buy_on_return_visit, bounces, time_on_site, totals.pageviews, trafficSource.source, trafficSource.medium, channelGrouping, device.deviceCategory, country );
  1. 撰写新的查询,以预测哪些新访问者会再次访问并购物。
  2. 该查询使用 finalized_classification_model 模型来预测 Google Merchandise Store 初访者在后续访问中进行购买的概率。
  3. 您需要对数据集的最后 1 个月(共 12 个月)进行预测。

点击检查我的进度以验证是否完成了以下目标:

预测哪些新访问者会再次访问并购物

恭喜!

您已通过 BigQuery ML 创建了机器学习模型!

赢得您的下一个技能徽章

本自学实验是通过 BigQuery ML 创建机器学习模型技能徽章课程的组成部分。完成此技能徽章课程可赢得上面的徽章,以表彰您取得的成就。您可以在简历和社交平台中分享自己的徽章,并使用 #GoogleCloudBadge 让大家知道您取得的这一成就。

此技能徽章课程是 Google Cloud 的数据分析师学习路线的组成部分。如果您已完成此学习路线中的其他技能徽章课程,可在目录中搜索您可以报名参加的其他技能徽章课程。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间:2025 年 2 月 13 日

本实验的最后测试时间:2025 年 2 月 13 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.