检查点
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep:Qwik Start
本实验由 Google 与我们的合作伙伴 Trifacta 共同开发。如果您在账号个人资料中选择接收产品动态、通知和优惠信息,那么您的个人信息可能会分享给实验赞助商 Trifacta。
GSP105
概览
Cloud Dataprep by Trifacta 是一项智能的数据服务,让您可以直观地探索、清理和准备数据,以备分析之用。Cloud Dataprep 是一款无服务器工具,能够处理任意规模的数据,而无需部署或管理任何基础设施。点点鼠标即可轻松准备数据,无需编写任何代码!
在本实验中,您将使用 Dataprep 处理数据集。您将导入数据集、更正不匹配的数据、转换数据以及联接数据。如果您还没有接触过以上这些方面,那么在本实验结束时,您将会了解到所有这些知识。
您将执行的操作
在本实验中,您将学习如何使用 Dataprep 完成以下任务:
- 导入数据
- 更正错误匹配的数据
- 转换数据
- 联接数据
设置和要求
点击“开始实验”按钮前的注意事项
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。
为完成此实验,您需要:
- 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
- 完成实验的时间 - 请注意,实验开始后无法暂停。
如何开始实验并登录 Google Cloud 控制台
-
点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息(如果需要)
-
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示登录页面。
提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。
注意:如果您看见选择账号对话框,请点击使用其他账号。 -
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}} 您也可以在实验详细信息面板中找到用户名。
-
点击下一步。
-
复制下面的密码,然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}} 您也可以在实验详细信息面板中找到密码。
-
点击下一步。
重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。 -
继续在后续页面中点击以完成相应操作:
- 接受条款及条件。
- 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
激活 Cloud Shell
Cloud Shell 是一种装有开发者工具的虚拟机。它提供了一个永久性的 5GB 主目录,并且在 Google Cloud 上运行。Cloud Shell 提供可用于访问您的 Google Cloud 资源的命令行工具。
- 点击 Google Cloud 控制台顶部的激活 Cloud Shell 。
如果您连接成功,即表示您已通过身份验证,且当前项目会被设为您的 PROJECT_ID 环境变量所指的项目。输出内容中有一行说明了此会话的 PROJECT_ID:
gcloud
是 Google Cloud 的命令行工具。它已预先安装在 Cloud Shell 上,且支持 Tab 自动补全功能。
- (可选)您可以通过此命令列出活跃账号名称:
-
点击授权。
-
现在,输出的内容应如下所示:
输出:
- (可选)您可以通过此命令列出项目 ID:
输出:
输出示例:
gcloud
, in Google Cloud, refer to the gcloud CLI overview guide.
任务 1. 在项目中创建 Cloud Storage 存储桶
-
在 Cloud 控制台中,依次选择导航菜单 () > Cloud Storage > 存储桶。
-
点击创建存储桶。
-
在创建存储桶对话框中,为该存储桶指定一个唯一名称。将其他设置保留为默认值。
-
针对
选择如何控制对对象的访问权限
取消勾选禁止公开访问此存储桶。 -
点击创建。
您已创建存储桶,请记下存储桶名称,后面的步骤会用到。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您成功创建了 Cloud Storage 存储桶,系统会显示一个评估分数。
任务 2. 初始化 Cloud Dataprep
- 打开 Cloud Shell 并运行以下命令:
您应该会看到提示已创建服务实体的消息。
-
依次选择导航菜单 > Dataprep。
-
勾选接受 Google Dataprep 服务条款的复选框,然后点击 Accept(接受)。
-
勾选授权向 Trifacta 分享您账号信息的复选框,然后点击 Agree and Continue(同意并继续)。
-
点击 Allow(允许)以准许 Trifacta 访问项目数据。
-
点击您作为学员的用户名,登录到 Cloud Dataprep by Trifacta。您可以在实验左侧面板的 Username(用户名)中找到自己的用户名。
-
点击 Allow(允许)以授权 Cloud Dataprep 访问您的 Google Cloud 实验账号。
-
勾选同意 Trifacta 服务条款的复选框,然后点击 Accept(接受)。
-
点击 First time setup(首次设置)屏幕上的 Continue(继续),创建默认存储位置。
Dataprep 即会打开。
验证您已完成的任务
点击检查我的进度,验证您已完成的任务。如果您通过创建默认存储位置成功初始化了 Cloud Dataprep,系统会显示一个评估分数。
任务 3. 创建流
Cloud Dataprep 使用流
工作区来访问和处理数据集。
- 依次点击 Flows(流)图标和 Create(创建)按钮,然后选择 Blank Flow(空白流):
- 点击 Untitled Flow(未命名的流),然后为其命名并添加说明。由于本实验使用了2016 年美国联邦选举委员会的数据,请将该流命名为“FEC-2016”,然后为其添加说明“United States Federal Elections Commission 2016”。
- 点击 OK(确定)。
FEC-2016 流页面即会打开。
任务 4. 导入数据集
在此部分中,您将向 FEC-2016 流导入并添加数据。
-
点击 Add Datasets(添加数据集),然后选择 Import Datasets(导入数据集)链接。
-
在左侧菜单窗格中,选择 Cloud Storage 以从 Cloud Storage 导入数据集,然后点击铅笔图标修改文件路径。
- 在 Choose a file or folder(选择文件或文件夹)文本框中输入
gs://spls/gsp105
,然后点击 Go(前往)。
您可能需要将浏览器窗口拉宽才能看到 Go(前往)和 Cancel(取消)按钮。
-
点击 us-fec/。
-
点击
cn-2016.txt
旁边的 + 图标创建数据集,该数据集将会显示在右侧窗格中。点击右侧窗格中数据集的名称,然后将其重命名为“Candidate Master 2016”。 -
以相同方式添加
itcont-2016-orig.txt
数据集,并将其重命名为“Campaign Contributions 2016”。 -
右侧窗格会列出这两个数据集;点击 Import & Add to Flow(导入并添加到流)。
这两个数据集即显示为流。
任务 5. 准备 Candidate 文件
- 系统会默认选择 Candidate Master 2016 数据集。在右侧窗格中,点击 Edit Recipe(修改配方)。
“Candidate Master 2016”Transformer 页面即会以网格视图形式打开。
您可以在 Transformer 页面构建转换配方,并查看配方在示例中的应用结果。如果您对结果感到满意,请针对您的数据集执行该作业。
- 每一列的标题都包含一个名称和用于指定数据类型的值。要查看数据类型,请点击列图标:
-
请注意,当您点击列名称时,Details(详细信息)面板会在右侧打开。
-
点击 Details(详细信息)面板右上方的 X,即可关闭此面板。
在下列步骤中,您将在网格视图中探索数据,并针对自己的配方应用转换步骤。
- Column5 提供 1990-2064 年的数据。拉宽 column5(就像在电子表格中一样)可显示每一年的数据。点击以选择最高的分箱(代表 2016 年)。
此操作会创建一个步骤,在该步骤中,将会选择这些相应的值。
- 在右侧 Suggestions(建议)面板的 Keep rows(保留行)部分,点击 Add(添加)将此步骤添加到您的配方中。
右侧的“Recipe”(配方)面板中现在包含以下步骤:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- 将光标悬停在 Column6(“State”)标题的不匹配(红色)部分,并点击此部分以选择不匹配的行。
向下滚动到底部(以红色突出显示),找到不匹配的值。请注意大多数的这些记录的第 7 列值为“P”,而第 6 列值为“US”。出现不匹配是因为 column6 被标记为“State”列(通过旗帜图标指明),但该列还包含非 State 值(例如“US”)。
- 若要更正不匹配项,可点击“Suggestions”(建议)面板顶部的 X 取消转换,然后点击 Column6 中的旗帜图标,将其更改为“String”列。
如此便不再存在不匹配项,且该列标记现在变为绿色。
- 仅过滤出总统候选人,即 column7 中值为“P”的记录。在 column7 的直方图中,将光标悬停在两个分箱上,以查看哪个是“H”,哪个是“P”。点击“P”分箱。
- 在右侧的“Suggestions”(建议)面板上,点击 Add(添加)接受将该步骤添加到配方中。
任务 6. 整理 Contributions 文件,并将它与 Candidates 文件联接
在“Join”(联接)页面上,您可以将当前数据集添加到另一个数据集或基于两个数据集的共同信息创建的配方中。
您需要先清理 Contributions 文件,再将其联接到 Candidates 文件。
- 点击网格视图页面顶部的 FEC-2016(数据集选择器)。
-
点击以选择灰显的 Campaign Contributions 2016。
-
在右侧窗格中,依次点击Add(添加)> Recipe(配方),然后点击 Edit Recipe(修改配方)。
-
点击页面右上方的 Recipe(配方)图标,然后点击 Add New Step(添加新步骤)。
移除数据集中多余的分隔符。
- 在搜索框中插入以下 Wrangle 语言命令:
转换构建器会解析 Wrangle 命令并填充“Find and Replace”(查找并替换)转换字段。
-
点击 Add(添加)将该转换添加到配方中。
-
向配方中添加另一个新步骤。点击 New Step(新步骤),然后在搜索框中输入“Join”。
-
点击 Join datasets(联接数据集)打开“Joins”(联接)页面。
-
点击“Candidate Master 2016”以与“Campaign Contributions 2016”联接,然后点击底部右侧的 Accept(接受)。
- 在右侧,将光标悬停在“Join keys”(联接键)部分,然后点击铅笔图标(“Edit”[修改] 图标)。
Dataprep 会推理出共同的键。根据 Dataprep 的建议,许多共同值都可作为联接键。
- 在“Add Key”(添加键)面板内“Suggested join keys”(建议的联接键)部分,点击 column2 = column11。
- 点击 Save and Continue(保存并继续)。
列 2 和列 11 即会打开,供您检查。
- 点击 Next(下一步),然后勾选“Column”(列)标签左侧的复选框,将两个数据集的所有列都添加到已联接的数据集。
- 点击 Review(查看),然后点击 Add to Recipe(添加到配方)以返回网格视图。
任务 7. 数据摘要
对数据进行以下操作生成有用的摘要:对列 16 中的捐款进行汇总、求平均值和计数,并分别按列 2、24、8 中的 ID、姓名和党派关系对候选人进行分组。
- 在右侧“Recipe”(配方)面板的顶部,点击 New Step(新步骤),并在 Transformation(转换)搜索框中输入以下公式,以预览汇总数据。
已联接和已汇总数据的初始样本即会显示,提供美国总统候选人及其 2016 年竞选捐款指标的摘要表。
- 点击 Add(添加),打开美国主要总统候选人及其 2016 年竞选捐款指标的摘要表。
任务 8. 重命名列
您可以重命名相关列,使数据更易于解读。
- 点击 New Step(新步骤)并输入以下内容,以将每个重命名步骤和取整步骤分别添加到配方中:
-
然后,点击 Add(添加)。
-
添加最后一个新步骤,以将平均捐款金额取整:
- 然后,点击 Add(添加)。
您的结果将如下所示:
恭喜!
您使用 Dataprep 添加了数据集,创建了配方来整理数据,从而获得了有意义的结果。
后续步骤/了解详情
本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!
Google Cloud 培训和认证
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 6 月 6 日
上次测试实验的时间:2024 年 6 月 6 日
版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。