arrow_back

Dataproc:Qwik Start - 控制台

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!

Dataproc:Qwik Start - 控制台

实验 30 分钟 universal_currency_alt 1 个积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!

GSP103

概览

Dataproc 是一项快捷易用的全托管式云服务,让您能以更简单、更经济实惠的方式来运行 Apache SparkApache Hadoop 集群。有了这项服务,过去需要数小时乃至数天才能完成的操作,现在几秒钟或几分钟就可以完成。您可以快速创建 Dataproc 集群并随时调整其规模,而不必担心不断增长的数据流水线负载超过集群处理能力。

本实验向您介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行简单的 Apache Spark 作业,以及修改该集群中的工作器数量。

您将执行的操作

在本实验中,您将学习如何完成以下操作:

  • 在 Google Cloud 控制台中创建 Dataproc 集群
  • 运行一个简单的 Apache Spark 作业
  • 修改集群中的工作器数量

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:

    • “打开 Google Cloud 控制台”按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示“登录”页面。

    提示:将这些标签页安排在不同的窗口中,并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在“实验详细信息”窗格中找到“用户名”。

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在“实验详细信息”窗格中找到“密码”。

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于这是临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需访问 Google Cloud 产品和服务,请点击导航菜单,或在搜索字段中输入服务或产品的名称。

确认已启用 Cloud Dataproc API

要在 Google Cloud 中创建 Dataproc 集群,必须启用 Cloud Dataproc API。要确认该 API 是否已启用,请执行以下操作:

  1. 依次点击导航菜单 > API 和服务 >

  2. 搜索 API 和服务对话框中输入 Cloud Dataproc。控制台会在搜索结果中显示 Cloud Dataproc API。

  3. 点击 Cloud Dataproc API 即可显示该 API 的状态。如果该 API 尚未启用,请点击启用按钮。

启用该 API 后,按照实验说明继续操作。

为服务账号分配权限

要想创建集群,就必须为服务账号分配存储权限。为此,请执行以下操作:

  1. 依次点击导航菜单 > IAM 和管理 > IAM

  2. 点击 compute@developer.gserviceaccount.com 服务账号中的铅笔图标。

  3. 点击 + 添加其他角色按钮,然后选择角色 Storage Admin

选择 Storage Admin 角色后,点击保存

任务 1. 创建集群

  1. 在 Cloud Platform 控制台中,依次选择导航菜单 > Dataproc > 集群,然后点击创建集群

  2. 针对 Compute Engine 上的集群点击创建

  3. 为集群设置以下字段,其他所有字段均使用默认值:

注意: 在“配置节点”部分,确保主节点和工作器节点均设置为正确的机器系列和机器类型
字段
名称 example-cluster
区域
可用区
机器系列(管理器节点) E2
机器类型(管理器节点) e2-standard-2
主磁盘大小(管理器节点) 30 GB
工作器节点数量 2
机器系列(工作器节点) E2
机器类型(工作器节点) e2-standard-2
主磁盘大小(工作器节点) 30 GB
仅限内部 IP 取消选择“将所有实例配置为只有内部 IP 地址”
注意:可用区是一个特殊的多区域命名空间,它能够将实例部署到全球所有 Google 计算可用区。您还可以指定不同的区域(如 us-central1europe-west1),以在用户指定的区域内隔离 Cloud Dataproc 使用的资源(包括虚拟机实例和 Cloud Storage)和元数据存储位置。
  1. 点击创建以创建集群。

您的新集群将会显示在“集群”列表中。创建集群可能需要几分钟时间,在此期间,集群状态会显示为正在预配,直到集群可供使用,届时状态会变为正在运行

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

创建 Dataproc 集群

任务 2. 提交作业

要运行示例 Spark 作业,请执行以下操作:

  1. 点击左侧窗格中的作业切换到 Dataproc 的作业视图,然后点击提交作业

  2. 设置以下字段以更新作业。其他所有字段均使用默认值:

字段
区域
集群 example-cluster
作业类型 Spark
主类或 jar 文件 org.apache.spark.examples.SparkPi
Jar 文件 file:///usr/lib/spark/examples/jars/spark-examples.jar
参数 1000(该参数用于设置任务数量)
  1. 点击提交
注意作业计算 Pi 的方式:Spark 作业使用 Monte Carlo 方法估算 Pi 的值。它会在坐标平面上生成 x,y 点,该坐标平面可对由单位正方形包围的圆建模。输入参数 (1000) 决定要生成的 x,y 对的数量;生成的数量越多,估算的准确性就越高。估算过程利用 Cloud Dataproc 工作器节点执行并行计算。如需了解详情,请参阅使用 Monte Carlo 方法估算 Pi 以及 GitHub 上的 JavaSparkPi.java

您的作业应该会出现在作业列表中,该列表显示了您的项目的作业以及它们的集群、类型和当前状态。此时作业状态会显示为正在运行,当作业完成后,状态即会显示为已成功

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

提交作业

任务 3. 查看作业的输出结果

要查看已完成作业的输出结果,请执行以下操作:

  1. 点击作业列表中的作业 ID。

  2. 针对换行选择开启,或者一直向右滚动,直到看到计算出的 Pi 值。换行设为开启时的输出应如下所示:

您的作业已经成功计算了一个粗略的 Pi 值!

任务 4. 更新集群以修改工作器数量

要更改集群中的工作器实例数量,请执行以下操作:

  1. 在左侧导航窗格中选择集群,返回 Dataproc 集群视图。

  2. 点击集群列表中的 example-cluster。默认情况下,该页面会显示集群 CPU 使用率的概览。

  3. 点击配置显示集群的当前设置。

  4. 点击修改。工作器节点数现在变为可修改状态。

  5. 工作器节点数字段中输入 4

  6. 点击保存

您的集群现已更新。请查看集群中虚拟机实例的数量。

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

更新集群
  1. 要在更新后的集群中重新运行作业,请点击左侧窗格中的作业,然后点击提交作业

  2. 将所有字段设置为您在提交作业这一部分中所设置的值:

字段
区域
集群 example-cluster
作业类型 Spark
主类或 jar 文件 org.apache.spark.examples.SparkPi
Jar 文件 file:///usr/lib/spark/examples/jars/spark-examples.jar
参数 1000(该参数用于设置任务数量)
  1. 点击提交

任务 5. 检验您的掌握情况

我们在下方准备了一些单选题,以加强您对本实验所涉概念的理解。请尽您所能回答。

恭喜!

您现在已经知道如何使用 Google Cloud 控制台创建和更新 Dataproc 集群,以及如何在该集群中提交作业了。

后续步骤/了解详情

本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2024 年 7 月 2 日

上次测试实验的时间:2024 年 7 月 2 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.