
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Dataproc cluster
/ 50
Submit a job
/ 30
Update a cluster
/ 20
Dataproc 是一项快捷易用的全托管式云服务,让您能以更简单、更经济实惠的方式来运行 Apache Spark 和 Apache Hadoop 集群。有了这项服务,过去需要数小时乃至数天才能完成的操作,现在几秒钟或几分钟就可以完成。您可以快速创建 Dataproc 集群并随时调整其规模,而不必担心不断增长的数据流水线负载超过集群处理能力。
本实验向您介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行简单的 Apache Spark 作业,以及修改该集群中的工作器数量。
在本实验中,您将学习如何完成以下操作:
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
要在 Google Cloud 中创建 Dataproc 集群,必须启用 Cloud Dataproc API。要确认该 API 是否已启用,请执行以下操作:
依次点击导航菜单 > API 和服务 > 库。
在搜索 API 和服务对话框中输入 Cloud Dataproc。控制台会在搜索结果中显示 Cloud Dataproc API。
点击 Cloud Dataproc API 即可显示该 API 的状态。如果该 API 尚未启用,请点击启用按钮。
启用该 API 后,按照实验说明继续操作。
要想创建集群,就必须为服务账号分配存储权限。为此,请执行以下操作:
依次点击导航菜单 > IAM 和管理 > IAM。
点击 compute@developer.gserviceaccount.com
服务账号中的铅笔图标。
点击 + 添加其他角色按钮,然后选择角色 Storage Admin。
选择 Storage Admin 角色后,点击保存。
在 Cloud Platform 控制台中,依次选择导航菜单 > Dataproc > 集群,然后点击创建集群。
针对 Compute Engine 上的集群点击创建。
为集群设置以下字段,其他所有字段均使用默认值:
字段 | 值 |
---|---|
名称 | example-cluster |
区域 | |
可用区 | |
机器系列(管理器节点) | E2 |
机器类型(管理器节点) | e2-standard-2 |
主磁盘大小(管理器节点) | 30 GB |
工作器节点数量 | 2 |
机器系列(工作器节点) | E2 |
机器类型(工作器节点) | e2-standard-2 |
主磁盘大小(工作器节点) | 30 GB |
仅限内部 IP | 取消选择“将所有实例配置为只有内部 IP 地址” |
us-central1
或 europe-west1
),以在用户指定的区域内隔离 Cloud Dataproc 使用的资源(包括虚拟机实例和 Cloud Storage)和元数据存储位置。您的新集群将会显示在“集群”列表中。创建集群可能需要几分钟时间,在此期间,集群状态会显示为正在预配,直到集群可供使用,届时状态会变为正在运行。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
要运行示例 Spark 作业,请执行以下操作:
点击左侧窗格中的作业切换到 Dataproc 的作业视图,然后点击提交作业。
设置以下字段以更新作业。其他所有字段均使用默认值:
字段 | 值 |
---|---|
区域 | |
集群 | example-cluster |
作业类型 | Spark |
主类或 jar 文件 | org.apache.spark.examples.SparkPi |
Jar 文件 | file:///usr/lib/spark/examples/jars/spark-examples.jar |
参数 | 1000(该参数用于设置任务数量) |
您的作业应该会出现在作业列表中,该列表显示了您的项目的作业以及它们的集群、类型和当前状态。此时作业状态会显示为正在运行,当作业完成后,状态即会显示为已成功。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
要查看已完成作业的输出结果,请执行以下操作:
点击作业列表中的作业 ID。
针对换行选择开启
,或者一直向右滚动,直到看到计算出的 Pi 值。换行设为开启
时的输出应如下所示:
您的作业已经成功计算了一个粗略的 Pi 值!
要更改集群中的工作器实例数量,请执行以下操作:
在左侧导航窗格中选择集群,返回 Dataproc 集群视图。
点击集群列表中的 example-cluster。默认情况下,该页面会显示集群 CPU 使用率的概览。
点击配置显示集群的当前设置。
点击修改。工作器节点数现在变为可修改状态。
在工作器节点数字段中输入 4。
点击保存。
您的集群现已更新。请查看集群中虚拟机实例的数量。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
要在更新后的集群中重新运行作业,请点击左侧窗格中的作业,然后点击提交作业。
将所有字段设置为您在提交作业这一部分中所设置的值:
字段 | 值 |
---|---|
区域 | |
集群 | example-cluster |
作业类型 | Spark |
主类或 jar 文件 | org.apache.spark.examples.SparkPi |
Jar 文件 | file:///usr/lib/spark/examples/jars/spark-examples.jar |
参数 | 1000(该参数用于设置任务数量) |
我们在下方准备了一些单选题,以加强您对本实验所涉概念的理解。请尽您所能回答。
您现在已经知道如何使用 Google Cloud 控制台创建和更新 Dataproc 集群,以及如何在该集群中提交作业了。
本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 7 月 2 日
上次测试实验的时间:2024 年 7 月 2 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
One lab at a time
Confirm to end all existing labs and start this one