
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Disable and re-enable the Dataflow API
/ 20
Create a BigQuery Dataset (name: taxirides)
/ 20
Create a table in BigQuery Dataset
/ 20
Create a Cloud Storage bucket
/ 20
Run the Pipeline
/ 20
在本实验中,您将学习如何使用 Google 的 Dataflow 模板之一创建流处理流水线。具体来说,您将使用 Pub/Sub to BigQuery 模板,该模板会从 Pub/Sub 主题中读取以 JSON 格式编写的消息,并将其推送到 BigQuery 表。您可以在有关 Google 提供的模板的入门指南中找到关于此模板的文档。
您可以选择使用 Cloud Shell 命令行或 Cloud 控制台来创建 BigQuery 数据集和表。请选择一种方法,然后在本实验的后续操作中始终使用该方法。如果您两种方法都想体验,可以再次挑战本实验。
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
Cloud Shell 是一种装有开发者工具的虚拟机。它提供了一个永久性的 5GB 主目录,并且在 Google Cloud 上运行。Cloud Shell 提供可用于访问您的 Google Cloud 资源的命令行工具。
点击 Google Cloud 控制台顶部的激活 Cloud Shell 。
在弹出的窗口中执行以下操作:
如果您连接成功,即表示您已通过身份验证,且项目 ID 会被设为您的 Project_ID
gcloud
是 Google Cloud 的命令行工具。它已预先安装在 Cloud Shell 上,且支持 Tab 自动补全功能。
输出:
输出:
gcloud
的完整文档,请参阅 gcloud CLI 概览指南。
为了确保能访问这个必要的 API,请重新启动与 Dataflow API 的连接。
在 Cloud 控制台的顶部搜索栏中输入“Dataflow API”。点击 Dataflow API 的搜索结果。
点击管理。
点击停用 API。
如果系统要求您确认,请点击停用。
该 API 再次启用后,页面将显示停用选项。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。
我们首先创建一个 BigQuery 数据集和表。
bq
命令行工具。如果您想使用 Cloud 控制台完成这些步骤,请跳转至任务 3。
taxirides
的数据集:您的输出应如下所示:
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功创建了 BigQuery 数据集,系统会显示一个评估分数。
创建好数据集后,您将在后面的步骤中使用该数据集来实例化一个 BigQuery 表。
您的输出应如下所示:
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您在 BigQuery 数据集中成功创建了表,系统会显示一个评估分数。
bq mk
命令看起来有点复杂。不过,借助 BigQuery 命令行文档,您可以分解此处的操作。例如,该文档会帮助我们稍微深入地了解架构:
[FIELD]
:[DATA_TYPE]
, [FIELD]
:[DATA_TYPE]
。在本实验中,我们将使用后者,即逗号分隔列表。
完成表的实例化后,我们来创建一个存储桶。
使用项目 ID 作为存储桶名称,以确保该名称是全局唯一的:
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功创建了 Cloud Storage 存储桶,系统会显示一个评估分数。
创建完存储桶后,向下滚动到运行流水线部分。
在左侧菜单的“大数据”部分,点击 BigQuery。
然后,点击完成。
在探索器部分下,点击您的项目名称旁边的三个点,然后点击创建数据集。
输入 taxirides
作为您的数据集 ID:
在“数据位置”中选择 us(美国的多个区域)。
保留所有其他默认设置,然后点击创建数据集。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功创建了 BigQuery 数据集,系统会显示一个评估分数。
您现在应该在左侧控制台的项目 ID 下方看到 taxirides
数据集。
点击 taxirides
数据集旁边的三个点,选择打开。
然后选择控制台右侧的创建表。
在目标位置 > 表名称字段中,输入 realtime
。
在“架构”下方,切换以文本形式修改滑块,并输入以下内容:
您的控制台应如下图所示:
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您在 BigQuery 数据集中成功创建了表,系统会显示一个评估分数。
返回 Cloud 控制台,然后依次访问 Cloud Storage > 存储桶 > 创建存储桶。
使用项目 ID 作为存储桶名称,以确保该名称是全局唯一的:
保留所有其他默认设置,然后点击创建。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功创建了 Cloud Storage 存储桶,系统会显示一个评估分数。
部署 Dataflow 模板:
在 Google Cloud 控制台的导航菜单中,点击 Dataflow > 作业,您就会看到自己的 Dataflow 作业。
如需了解详情,请参阅此文档。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功运行了 Dataflow 流水线,系统会显示一个评估分数。
您将看到您的资源创建成功,可供使用。
现在,点击导航菜单中的 BigQuery,查看写入 BigQuery 的数据。
您可以使用标准 SQL 提交查询。
如果您遇到任何问题或错误,请再次运行该查询(流水线需要几分钟才能启动)。
太棒了!您刚刚从一个 Pub/Sub 主题中拉取了 1000 条出租车行程并推送至一个 BigQuery 表。如您亲眼所见,模板是运行 Dataflow 作业的一种简单实用的方法。请务必查阅 Dataflow 文档,在有关 Google 提供的模板的入门指南中,了解其他的一些 Google 模板。
下面的选择题可加强您对本实验所涉概念的理解。请尽您所能回答问题。
您已使用 Pub/Sub to BigQuery Dataflow 模板创建了一个流处理流水线,该模板会从 Pub/Sub 主题中读取以 JSON 格式编写的消息,并将其推送到 BigQuery 表。
本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在 Google Cloud Skills Boost 目录中搜索“Qwik Starts”,找到您要参与的下一项实验!
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 2 月 4 日
上次测试实验的时间:2023 年 11 月 10 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
One lab at a time
Confirm to end all existing labs and start this one