检查点
Run a simple Dataflow job
/ 25
Run a simple Dataproc job
/ 25
Use the Google Cloud Speech API
/ 25
Use the Cloud Natural Language API
/ 25
在 Google Cloud 上为机器学习 API 准备数据:实验室挑战赛
GSP323
概览
在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。
在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。
要想获得满分,您必须在该时间段内成功完成所有任务!
我们建议已报名参加在 Google Cloud 上为机器学习 API 准备数据技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?
测试的主题:
- 创建简单的 Dataproc 作业
- 创建简单的 DataFlow 作业
- 完成基于 Google 机器学习的两项 API 任务
设置
点击“开始实验”按钮前的注意事项
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。
为完成此实验,您需要:
- 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
- 完成实验的时间 - 请注意,实验开始后无法暂停。
如何开始实验并登录 Google Cloud 控制台
-
点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息(如果需要)
-
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示登录页面。
提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。
注意:如果您看见选择账号对话框,请点击使用其他账号。 -
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}} 您也可以在实验详细信息面板中找到用户名。
-
点击下一步。
-
复制下面的密码,然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}} 您也可以在实验详细信息面板中找到密码。
-
点击下一步。
重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。 -
继续在后续页面中点击以完成相应操作:
- 接受条款及条件。
- 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
检查项目权限
开始在 Google Cloud 中工作前,您需要确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。
-
在 Google Cloud 控制台的导航菜单中,依次选择 IAM 和管理 > IAM。
-
确认默认计算服务账号
{project-number}-compute@developer.gserviceaccount.com
已存在且已授予Editor
和storage.admin
角色。账号前缀是项目编号,您可以在导航菜单 > Cloud 概览 > 信息中心中找到此编号。
storage.admin
角色,请按以下步骤授予所需的角色。- 在 Google Cloud 控制台的导航菜单中,依次点击 Cloud 概览 > 信息中心。
- 复制项目编号(例如
729328892908
)。 - 在导航菜单中,依次点击 IAM 和管理 > IAM。
- 在角色表顶部的按主账号查看下方,点击授予访问权限。
- 在新的主账号字段中,输入:
- 将
{project-number}
替换为您的项目编号。 - 对于角色,选择 Storage Admin。
- 点击保存。
挑战场景
您是 Jooli Inc. 的初级数据工程师,最近参加了 Google Cloud 和一些数据服务方面的培训,现在您需要向大家展示自己学到的新技能。团队要求您完成以下任务。
您应该掌握了完成这些任务所需的技能和知识,所以我们不会提供分步指南。
任务 1. 运行一个简单的 Dataflow 作业
在此任务中,您将使用“批量处理数据(批处理)”下的 Dataflow 批处理模板 Text Files on Cloud Storage to BigQuery,传输 Cloud Storage 存储桶 (gs://cloud-training/gsp323/lab.csv
) 中的数据。下表列出了正确配置 Dataflow 作业所需的值。
请确保您进行以下操作:
- 创建一个名为
的 BigQuery 数据集,其中包含名为 的表。 - 创建一个名为
的 Cloud Storage 存储桶。
字段 | 值 |
---|---|
Cloud Storage 输入文件 | gs://cloud-training/gsp323/lab.csv |
BigQuery 架构文件的 Cloud Storage 位置 | gs://cloud-training/gsp323/lab.schema |
BigQuery 输出表 |
|
BigQuery 加载过程的临时目录 |
|
临时位置 |
|
可选参数 > Cloud Storage 中的 JavaScript UDF 路径 | gs://cloud-training/gsp323/lab.js |
可选参数 > JavaScript UDF 名称 | transform |
可选参数 > 机器类型 | e2-standard-2 |
等到作业完成后,再尝试检查您的进度。
点击检查我的进度以验证是否完成了以下目标。
任务 2. 运行一个简单的 Dataproc 作业
在此任务中,您将使用 Dataproc 运行 Spark 作业示例。
在运行该作业之前,请登录其中一个集群节点,并将 /data.txt 文件复制到 hdfs(使用命令 hdfs dfs -cp gs://cloud-training/gsp323/data.txt /data.txt
)。
使用以下值运行 Dataproc 作业。
字段 | 值 |
---|---|
区域 |
|
作业类型 | Spark |
主类或 jar 文件 | org.apache.spark.examples.SparkPageRank |
Jar 文件 | file:///usr/lib/spark/examples/jars/spark-examples.jar |
参数 | /data.txt |
每小时重启次数上限 | 1 |
Dataproc 集群 | Compute Engine |
区域 |
|
机器系列 | E2 |
管理器节点 | 将机器类型设置为 e2-standard-2 |
工作器节点 | 将机器类型设置为 e2-standard-2 |
工作器节点数上限 | 2 |
主磁盘大小 | 100 GB |
仅限内部 IP | 取消选中“将所有实例配置为只有内部 IP 地址” |
等到作业完成后,再尝试检查您的进度。
点击检查我的进度以验证是否完成了以下目标。
任务 3. 使用 Google Cloud Speech-to-Text API
- 使用 Google Cloud Speech-to-Text API 来分析音频文件(地址:
gs://cloud-training/gsp323/task3.flac
)。文件内容分析完毕后,请将生成的文件上传到:
点击检查我的进度以验证是否完成了以下目标。
任务 4. 使用 Cloud Natural Language API
- 使用 Cloud Natural Language API 来分析有关 Odin 的文本中的语句。 您需要分析的文本是“Old Norse texts portray Odin as one-eyed and long-bearded, frequently wielding a spear named Gungnir and wearing a cloak and a broad hat”。文本分析完毕后,请将生成的文件上传到:
点击检查我的进度以验证是否完成了以下目标。
恭喜!
恭喜!在本实验室挑战赛中,您运行了一个简单的 Dataflow 作业、一个简单的 Dataproc 作业,并使用了 Google Cloud Speech-to-Text API 和 Cloud Natural Language API,以此展示了自己的技能。
本自学实验是在 Google Cloud 上为机器学习 API 准备数据技能徽章课程的组成部分。完成此技能徽章挑战任务可赢得上面的徽章,以表彰您取得的成就。您可以在简历和社交平台中分享自己的徽章,并使用 #GoogleCloudBadge 让大家知道您取得的这一成就。
此技能徽章挑战任务是 Google Cloud 的数据分析师和数据工程师学习路线的组成部分。
Google Cloud 培训和认证
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 3 月 25 日
上次测试实验的时间:2024 年 1 月 15 日
版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。