arrow_back

Dataproc:Qwik Start - 控制台

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

Dataproc:Qwik Start - 控制台

实验 30 分钟 universal_currency_alt 1 个积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

GSP103

Google Cloud 自定进度实验

概览

Dataproc 是一项快捷易用的全托管式云服务,让您能以更简单、更经济实惠的方式来运行 Apache SparkApache Hadoop 集群。有了这项服务,过去需要数小时乃至数天才能完成的操作,现在几秒钟或几分钟就可以完成。您可以快速创建 Dataproc 集群并随时调整其规模,而不必担心不断增长的数据流水线负载超过集群处理能力。

本实验向您介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行简单的 Apache Spark 作业,以及修改该集群中的工作器数量。

您将执行的操作

在本实验中,您将学习如何完成以下操作:

  • 在 Google Cloud 控制台中创建 Dataproc 集群
  • 运行一个简单的 Apache Spark 作业
  • 修改集群中的工作器数量

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:如果您已有自己的个人 Google Cloud 账号或项目,请不要在此实验中使用,以避免您的账号产生额外的费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:

    • 打开 Google Cloud 控制台按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示登录页面。

    提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在实验详细信息面板中找到用户名

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在实验详细信息面板中找到密码

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需查看列有 Google Cloud 产品和服务的菜单,请点击左上角的导航菜单导航菜单图标

确认已启用 Cloud Dataproc API

要在 Google Cloud 中创建 Dataproc 集群,必须启用 Cloud Dataproc API。要确认该 API 是否已启用,请执行以下操作:

  1. 依次点击导航菜单 > API 和服务 >

  2. 搜索 API 和服务对话框中输入 Cloud Dataproc。控制台会在搜索结果中显示 Cloud Dataproc API。

  3. 点击 Cloud Dataproc API 即可显示该 API 的状态。如果该 API 尚未启用,请点击启用按钮。

启用该 API 后,按照实验说明继续操作。

为服务账号分配权限

要想创建集群,就必须为服务账号分配存储权限。为此,请执行以下操作:

  1. 依次点击导航菜单 > IAM 和管理 > IAM

  2. 点击 compute@developer.gserviceaccount.com 服务账号中的铅笔图标。

  3. 点击 + 添加其他角色按钮,然后选择角色 Storage Admin

选择 Storage Admin 角色后,点击保存

任务 1. 创建集群

  1. 在 Cloud Platform 控制台中,依次选择导航菜单 > Dataproc > 集群,然后点击创建集群

  2. 针对 Compute Engine 上的集群点击创建

  3. 为集群设置以下字段,其他所有字段均使用默认值:

注意: 在“配置节点”部分,确保主节点和工作器节点均设置为正确的机器系列和机器类型
字段
名称 example-cluster
区域
可用区
机器系列(管理器节点) E2
机器类型(管理器节点) e2-standard-2
主磁盘大小(管理器节点) 30 GB
工作器节点数量 2
机器系列(工作器节点) E2
机器类型(工作器节点) e2-standard-2
主磁盘大小(工作器节点) 30 GB
仅限内部 IP 取消选择“将所有实例配置为只有内部 IP 地址”
注意:可用区是一个特殊的多区域命名空间,它能够将实例部署到全球所有 Google 计算可用区。您还可以指定不同的区域(如 us-central1europe-west1),以在用户指定的区域内隔离 Cloud Dataproc 使用的资源(包括虚拟机实例和 Cloud Storage)和元数据存储位置。
  1. 点击创建以创建集群。

您的新集群将会显示在“集群”列表中。创建集群可能需要几分钟时间,在此期间,集群状态会显示为正在预配,直到集群可供使用,届时状态会变为正在运行

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

创建 Dataproc 集群

任务 2. 提交作业

要运行示例 Spark 作业,请执行以下操作:

  1. 点击左侧窗格中的作业切换到 Dataproc 的作业视图,然后点击提交作业

  2. 设置以下字段以更新作业。其他所有字段均使用默认值:

字段
区域
集群 example-cluster
作业类型 Spark
主类或 jar 文件 org.apache.spark.examples.SparkPi
Jar 文件 file:///usr/lib/spark/examples/jars/spark-examples.jar
参数 1000(该参数用于设置任务数量)
  1. 点击提交
注意作业计算 Pi 的方式:Spark 作业使用 Monte Carlo 方法估算 Pi 的值。它会在坐标平面上生成 x,y 点,该坐标平面可对由单位正方形包围的圆建模。输入参数 (1000) 决定要生成的 x,y 对的数量;生成的数量越多,估算的准确性就越高。估算过程利用 Cloud Dataproc 工作器节点执行并行计算。如需了解详情,请参阅使用 Monte Carlo 方法估算 Pi 以及 GitHub 上的 JavaSparkPi.java

您的作业应该会出现在作业列表中,该列表显示了您的项目的作业以及它们的集群、类型和当前状态。此时作业状态会显示为正在运行,当作业完成后,状态即会显示为已成功

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

提交作业

任务 3. 查看作业的输出结果

要查看已完成作业的输出结果,请执行以下操作:

  1. 点击作业列表中的作业 ID。

  2. 针对换行选择开启,或者一直向右滚动,直到看到计算出的 Pi 值。换行设为开启时的输出应如下所示:

输出

您的作业已经成功计算了一个粗略的 Pi 值!

任务 4. 更新集群以修改工作器数量

要更改集群中的工作器实例数量,请执行以下操作:

  1. 在左侧导航窗格中选择集群,返回 Dataproc 集群视图。

  2. 点击集群列表中的 example-cluster。默认情况下,该页面会显示集群 CPU 使用率的概览。

  3. 点击配置显示集群的当前设置。

  4. 点击修改。工作器节点数现在变为可修改状态。

  5. 工作器节点数字段中输入 4

  6. 点击保存

您的集群现已更新。请查看集群中虚拟机实例的数量。

验证您已完成的任务

点击检查我的进度以验证您已完成的任务。

更新集群
  1. 要在更新后的集群中重新运行作业,请点击左侧窗格中的作业,然后点击提交作业

  2. 将所有字段设置为您在提交作业这一部分中所设置的值:

字段
区域
集群 example-cluster
作业类型 Spark
主类或 jar 文件 org.apache.spark.examples.SparkPi
Jar 文件 file:///usr/lib/spark/examples/jars/spark-examples.jar
参数 1000(该参数用于设置任务数量)
  1. 点击提交

任务 5. 检验您的掌握情况

我们在下方准备了一些单选题,以加强您对本实验所涉概念的理解。请尽您所能回答。

恭喜!

您现在已经知道如何使用 Google Cloud 控制台创建和更新 Dataproc 集群,以及如何在该集群中提交作业了。

后续步骤/了解详情

本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2024 年 7 月 2 日

上次测试实验的时间:2024 年 7 月 2 日

版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您