检查点
Create a Dataproc cluster
/ 50
Submit a job
/ 30
Update a cluster
/ 20
Dataproc:Qwik Start - 控制台
GSP103
概览
Dataproc 是一项快捷易用的全托管式云服务,让您能以更简单、更经济实惠的方式来运行 Apache Spark 和 Apache Hadoop 集群。有了这项服务,过去需要数小时乃至数天才能完成的操作,现在几秒钟或几分钟就可以完成。您可以快速创建 Dataproc 集群并随时调整其规模,而不必担心不断增长的数据流水线负载超过集群处理能力。
本实验向您介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行简单的 Apache Spark 作业,以及修改该集群中的工作器数量。
您将执行的操作
在本实验中,您将学习如何完成以下操作:
- 在 Google Cloud 控制台中创建 Dataproc 集群
- 运行一个简单的 Apache Spark 作业
- 修改集群中的工作器数量
设置和要求
点击“开始实验”按钮前的注意事项
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。
为完成此实验,您需要:
- 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
- 完成实验的时间 - 请注意,实验开始后无法暂停。
如何开始实验并登录 Google Cloud 控制台
-
点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息(如果需要)
-
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示登录页面。
提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。
注意:如果您看见选择账号对话框,请点击使用其他账号。 -
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}} 您也可以在实验详细信息面板中找到用户名。
-
点击下一步。
-
复制下面的密码,然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}} 您也可以在实验详细信息面板中找到密码。
-
点击下一步。
重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。 -
继续在后续页面中点击以完成相应操作:
- 接受条款及条件。
- 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
确认已启用 Cloud Dataproc API
要在 Google Cloud 中创建 Dataproc 集群,必须启用 Cloud Dataproc API。要确认该 API 是否已启用,请执行以下操作:
-
依次点击导航菜单 > API 和服务 > 库。
-
在搜索 API 和服务对话框中输入 Cloud Dataproc。控制台会在搜索结果中显示 Cloud Dataproc API。
-
点击 Cloud Dataproc API 即可显示该 API 的状态。如果该 API 尚未启用,请点击启用按钮。
启用该 API 后,按照实验说明继续操作。
为服务账号分配权限
要想创建集群,就必须为服务账号分配存储权限。为此,请执行以下操作:
-
依次点击导航菜单 > IAM 和管理 > IAM。
-
点击
compute@developer.gserviceaccount.com
服务账号中的铅笔图标。 -
点击 + 添加其他角色按钮,然后选择角色 Storage Admin。
选择 Storage Admin 角色后,点击保存。
任务 1. 创建集群
-
在 Cloud Platform 控制台中,依次选择导航菜单 > Dataproc > 集群,然后点击创建集群。
-
针对 Compute Engine 上的集群点击创建。
-
为集群设置以下字段,其他所有字段均使用默认值:
字段 | 值 |
---|---|
名称 | example-cluster |
区域 | |
可用区 | |
机器系列(管理器节点) | E2 |
机器类型(管理器节点) | e2-standard-2 |
主磁盘大小(管理器节点) | 30 GB |
工作器节点数量 | 2 |
机器系列(工作器节点) | E2 |
机器类型(工作器节点) | e2-standard-2 |
主磁盘大小(工作器节点) | 30 GB |
仅限内部 IP | 取消选择“将所有实例配置为只有内部 IP 地址” |
us-central1
或 europe-west1
),以在用户指定的区域内隔离 Cloud Dataproc 使用的资源(包括虚拟机实例和 Cloud Storage)和元数据存储位置。- 点击创建以创建集群。
您的新集群将会显示在“集群”列表中。创建集群可能需要几分钟时间,在此期间,集群状态会显示为正在预配,直到集群可供使用,届时状态会变为正在运行。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
任务 2. 提交作业
要运行示例 Spark 作业,请执行以下操作:
-
点击左侧窗格中的作业切换到 Dataproc 的作业视图,然后点击提交作业。
-
设置以下字段以更新作业。其他所有字段均使用默认值:
字段 | 值 |
---|---|
区域 | |
集群 | example-cluster |
作业类型 | Spark |
主类或 jar 文件 | org.apache.spark.examples.SparkPi |
Jar 文件 | file:///usr/lib/spark/examples/jars/spark-examples.jar |
参数 | 1000(该参数用于设置任务数量) |
- 点击提交。
您的作业应该会出现在作业列表中,该列表显示了您的项目的作业以及它们的集群、类型和当前状态。此时作业状态会显示为正在运行,当作业完成后,状态即会显示为已成功。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
任务 3. 查看作业的输出结果
要查看已完成作业的输出结果,请执行以下操作:
-
点击作业列表中的作业 ID。
-
针对换行选择
开启
,或者一直向右滚动,直到看到计算出的 Pi 值。换行设为开启
时的输出应如下所示:
您的作业已经成功计算了一个粗略的 Pi 值!
任务 4. 更新集群以修改工作器数量
要更改集群中的工作器实例数量,请执行以下操作:
-
在左侧导航窗格中选择集群,返回 Dataproc 集群视图。
-
点击集群列表中的 example-cluster。默认情况下,该页面会显示集群 CPU 使用率的概览。
-
点击配置显示集群的当前设置。
-
点击修改。工作器节点数现在变为可修改状态。
-
在工作器节点数字段中输入 4。
-
点击保存。
您的集群现已更新。请查看集群中虚拟机实例的数量。
验证您已完成的任务
点击检查我的进度以验证您已完成的任务。
-
要在更新后的集群中重新运行作业,请点击左侧窗格中的作业,然后点击提交作业。
-
将所有字段设置为您在提交作业这一部分中所设置的值:
字段 | 值 |
---|---|
区域 | |
集群 | example-cluster |
作业类型 | Spark |
主类或 jar 文件 | org.apache.spark.examples.SparkPi |
Jar 文件 | file:///usr/lib/spark/examples/jars/spark-examples.jar |
参数 | 1000(该参数用于设置任务数量) |
- 点击提交。
任务 5. 检验您的掌握情况
我们在下方准备了一些单选题,以加强您对本实验所涉概念的理解。请尽您所能回答。
恭喜!
您现在已经知道如何使用 Google Cloud 控制台创建和更新 Dataproc 集群,以及如何在该集群中提交作业了。
后续步骤/了解详情
本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!
Google Cloud 培训和认证
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 7 月 2 日
上次测试实验的时间:2024 年 7 月 2 日
版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。