arrow_back

Dataprep:Qwik Start

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

Dataprep:Qwik Start

实验 1 小时 universal_currency_alt 1 积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

本實驗室是我們與合作夥伴 Trifacta 攜手開發而成。如果您在帳戶個人資料中選擇接收產品最新消息、公告和優惠資訊,您的個人資訊可能會提供給本實驗室的贊助者 Trifacta。

GSP105

Google Cloud 自修研究室標誌

總覽

Cloud Dataprep by Trifacta 是一項智慧型資料服務,您可以透過當中的視覺化介面來探索、清理及準備資料,以用於數據分析。Cloud Dataprep 採用無伺服器架構,能處理任何規模的資料。您不必部署或管理基礎架構,輕鬆點選即可準備資料,不會編寫程式碼也沒問題!

在本實驗室中,您會使用 Dataprep 進行各種資料集操作,包含匯入資料集、修正不相符的資料、轉換及彙整資料。如果這是您第一次接觸上述操作,完成實驗室後,您將掌握這些操作的所有相關資訊。

學習內容

本實驗室將說明如何使用 Dataprep 完成下列工作:

  • 匯入資料
  • 修正不相符的資料
  • 轉換資料
  • 彙整資料

設定和需求

點選「Start Lab」按鈕前的須知事項

請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。

您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。

如要完成這個研究室活動,請先確認:

  • 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意:請使用無痕模式或私密瀏覽視窗執行此研究室。這可以防止個人帳戶和學生帳戶之間的衝突,避免個人帳戶產生額外費用。
  • 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
注意:如果您擁有個人 Google Cloud 帳戶或專案,請勿用於本研究室,以免產生額外費用。

如何開始研究室及登入 Google Cloud 控制台

  1. 按一下「Start Lab」(開始研究室) 按鈕。如果研究室會產生費用,畫面中會出現選擇付款方式的彈出式視窗。左側的「Lab Details」窗格會顯示下列項目:

    • 「Open Google Cloud console」按鈕
    • 剩餘時間
    • 必須在這個研究室中使用的暫時憑證
    • 完成這個實驗室所需的其他資訊 (如有)
  2. 點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,然後選取「在無痕式視窗中開啟連結」

    接著,實驗室會啟動相關資源並開啟另一個分頁,當中顯示「登入」頁面。

    提示:您可以在不同的視窗中並排開啟分頁。

    注意:如果頁面中顯示「選擇帳戶」對話方塊,請點選「使用其他帳戶」
  3. 如有必要,請將下方的 Username 貼到「登入」對話方塊。

    {{{user_0.username | "Username"}}}

    您也可以在「Lab Details」窗格找到 Username

  4. 點選「下一步」

  5. 複製下方的 Password,並貼到「歡迎使用」對話方塊。

    {{{user_0.password | "Password"}}}

    您也可以在「Lab Details」窗格找到 Password

  6. 點選「下一步」

    重要事項:請務必使用實驗室提供的憑證,而非自己的 Google Cloud 帳戶憑證。 注意:如果使用自己的 Google Cloud 帳戶來進行這個實驗室,可能會產生額外費用。
  7. 按過後續的所有頁面:

    • 接受條款及細則。
    • 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
    • 請勿申請免費試用。

Google Cloud 控制台稍後會在這個分頁開啟。

注意:如要查看列出 Google Cloud 產品和服務的選單,請點選左上角的「導覽選單」「導覽選單」圖示

啟動 Cloud Shell

Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。

  1. 點按 Google Cloud 控制台上方的「啟用 Cloud Shell」圖示 「啟動 Cloud Shell」圖示

連線完成即代表已通過驗證,且專案已設為您的 PROJECT_ID。輸出內容中有一行宣告本工作階段 PROJECT_ID 的文字:

您在本工作階段中的 Cloud Platform 專案會設為「YOUR_PROJECT_ID」

gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。

  1. (選用) 您可以執行下列指令來列出使用中的帳戶:
gcloud auth list
  1. 點按「授權」

  2. 輸出畫面應如下所示:

輸出內容:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (選用) 您可以使用下列指令來列出專案 ID:
gcloud config list project

輸出內容:

[core] project = <project_ID>

輸出內容範例:

[core] project = qwiklabs-gcp-44776a13dea667a6 附註:如需有關 gcloud 的完整說明,請前往 Google Cloud 並參閱「gcloud CLI overview guide」(gcloud CLI 總覽指南)。

工作 1:在專案中建立 Cloud Storage bucket

  1. 在 Cloud 控制台中,請依序選取「導覽選單」圖示 (「導覽選單」圖示) >「Cloud Storage」>「值區」

  2. 點選「建立值區」

  3. 在「建立值區」對話方塊中,為 bucket 指定不重複的名稱,其餘設定則保留預設值。

注意: 如要進一步瞭解 bucket 命名方式,請參閱 bucket 命名指南
  1. 在「選取如何控制物件的存取權」部分,取消勾選「強制禁止公開存取這個值區」

  2. 點選「建立」

您已建立 bucket,請記下 bucket 名稱供後續步驟使用。

測試已完成的工作

請點選「Check my progress」,確認工作已完成。如果已成功建立 Cloud Storage bucket,您就會看見評估分數。

建立 Cloud Storage bucket

工作 2:初始化 Cloud Dataprep

  1. 開啟 Cloud Shell 並執行下列指令:
gcloud beta services identity create --service=dataprep.googleapis.com

畫面上應會顯示訊息,表示您已建立服務身分。

  1. 依序點選「導覽選單」>「Dataprep」

  2. 勾選方塊表示您接受《Google Dataprep 服務條款》,接著點選「接受」

  3. 勾選方塊授權與 Trifacta 分享您的帳戶資訊,接著點選「同意並繼續」

  4. 點選「允許」,同意讓 Trifacta 存取專案資料。

  5. 點選學員使用者名稱,登入 Cloud Dataprep by Trifacta。您的使用者名稱是實驗室左側面板中的使用者名稱

  6. 點選「允許」,同意讓 Cloud Dataprep 存取您的 Google Cloud 實驗室帳戶。

  7. 勾選方塊表示您接受《Trifacta 服務條款》,接著點選「接受」

  8. 點選「First time setup」畫面中的「繼續」,建立預設的儲存空間位置。

Dataprep 隨即會開啟。

測試已完成的工作

請點選「Check my progress」,確認工作已完成。如果已成功將 Cloud Dataprep 初始化並建立預設的儲存空間位置,您就會看見評估分數。

初始化 Cloud Dataprep

工作 3:建立流程

Cloud Dataprep 使用 flow 工作區來存取和控管資料集。

  1. 依序點選「Flows」圖示與「Create」按鈕,接著選取「Blank Flow」

「Flows」圖示、「Create」按鈕、「Blank Flow」選項

  1. 點選「Untitled Flow」,為流程命名並提供說明。由於本實驗室使用 2016 美國聯邦選舉委員會提供的 2016 年資料,您可以將流程命名為「FEC-2016」,並輸入「United States Federal Elections Commission 2016」做為說明。
  2. 點選「OK」

FEC-2016 流程頁面隨即會開啟。

工作 4:匯入資料集

在本節中,您將匯入資料並新增至 FEC-2016 流程。

  1. 點選「Add Datasets」並選取「Import Datasets」連結。

  2. 在左側選單窗格中選取「Cloud Storage」,從 Cloud Storage 匯入資料集,接著點選鉛筆圖示來編輯檔案路徑。

Cloud Storage 頁面

  1. 在「Choose a file or folder」文字方塊中輸入 gs://spls/gsp105,接著點選「Go」

您可能需要拉寬瀏覽器視窗,才能看到「Go」和「Cancel」按鈕。

  1. 點選「us-fec/」

  2. 點選 cn-2016.txt 旁邊的「+」圖示,建立右側窗格中顯示的資料集。點選右側窗格中的資料集標題,重新命名為「Candidate Master 2016」。

  3. 以同樣的方式新增 itcont-2016-orig.txt 資料集,並重新命名為「Campaign Contributions 2016」。

  4. 這兩個資料集都會列在右側窗格中,接著點選「Import & Add to Flow」

兩個資料集列在右側窗格中

您會看見兩個資料集已列為一個流程。

工作 5:準備候選人檔案

  1. 根據預設,系統會選取「Candidate Master 2016」資料集。點選右側窗格中的「Edit Recipe」

Candidate Master 2016 資料集頁面

「Candidate Master 2016」轉換頁面隨即開啟,並以格狀檢視方式顯示。

Candidate Master 2016 轉換頁面,以格狀檢視方式顯示。

透過轉換頁面,您可以建構轉換方案,並在對樣本套用方案後查看結果。如果對結果感到滿意,請對資料集執行工作。

  1. 每個資料欄標題都有名稱與指明資料類型的值,點選資料欄圖示即可查看資料類型:

column6

  1. 此外,點選資料欄名稱時,畫面右側會顯示「Details」面板

  2. 點選「Details」面板右上角的「X」即可關閉面板

在接下來的步驟中,您會以格狀檢視模式探索資料,並將轉換步驟套用至方案。

  1. column5 提供 1990 至 2064 年的資料。拉寬 column5 (就像在試算表中操作一樣) 來顯示各年份的資料。選取最高的特徵分塊,這個分塊代表 2016 年。

column5

這項操作可選取值並建立步驟。

  1. 在右側的「Suggestions」面板中找出「Keep rows」專區,點選「Add」將這個步驟加入方案。

 「Suggestions」面板

右側的「Recipe」面板現在包含下列步驟:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. 在 column6 (州) 中,將滑鼠游標懸停在標頭中不相符的部分 (以紅色醒目顯示) 並點選,以選取不相符的資料列。

column6

往下捲動至底部 (以紅色醒目顯示) 並找出不相符的值,您會發現大部分記錄在 column7 中包含值「P」,在 column6 中則包含「US」。不相符的原因是 column6 標示為「State」(州) 資料欄 (以旗標圖示表示),但卻含有「US」等不是州名的值。

  1. 如要修正不相符的問題,請點選「Suggestions」面板上方的「X」來取消轉換,接著按一下 column6 中的旗標圖示,變更為「String」(字串) 資料欄。

column6

不相符的資料已修正,資料欄標記現在為綠色。

  1. 僅篩選總統候選人,也就是 column7 包含「P」這個值的記錄。在 column7 直方圖中,將滑鼠游標懸停在兩個特徵分塊上,查看哪個是「H」,哪個是「P」。點選「P」特徵分塊。

column7

  1. 在右側「Suggestions」面板中,點選「Add」將步驟加入方案。

「Keep rows」方塊

工作 6:對獻金檔案進行 Wrangling 並彙整至候選人檔案

在「Join」頁面中,您可以根據兩個資料集共有的資訊,彙整目前的資料集與另一個資料集或方案。

彙整獻金檔案和候選人檔案前,請先清理獻金檔案。

  1. 點選格狀檢視頁面上方的「FEC-2016」(資料集選取器)。

FEC-2016 顯示於格狀檢視頁面上方

  1. 點選來選取顯示為灰色的「Campaign Contributions 2016」

  2. 依序點選右側窗格中的「Add」>「Recipe」,接著按一下「Edit Recipe」

  3. 依序點選畫面右上方的「recipe」圖示和「Add New Step」

「recipe」圖示和「Add New Step」按紐

移除資料集中額外的分隔符號。

  1. 在搜尋框中插入下列 Wrangle 語言指令:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

「轉換製作工具」會剖析 Wrangle 指令並填入「Find」和「Replace With」轉換欄位。

轉換製作工具

  1. 點選「Add」,將轉換作業加入方案。

  2. 將另一個步驟加入方案。點選「New Step」,在搜尋框中輸入「Join」。

搜尋轉換框

  1. 點選「Join datasets」來開啟「Joins」頁面。

  2. 點選「Candidate Master 2016」來彙整至「Campaign Contributions 2016」,接著按一下右下角的「Accept」

Candidate Master 2016 資料列

  1. 將滑鼠游標懸停在畫面右側的「Join keys」專區,點選鉛筆 (「Edit」圖示)。

「Join conditions」方塊

Dataprep 會推測出共同鍵。畫面上會顯示 Dataprep 建議可做為彙整鍵的共同值。

  1. 在「Add Key」面板中,點選「Suggested join keys」專區裡的「column2 = column11」

「Add Key」面板

  1. 點選「Save and Continue」

column 2 和 11 隨即會開啟供您檢視。

  1. 點選「Next」,勾選「Column」標籤左邊的方塊,將兩個資料集的所有欄位加入已彙整的資料集。

「Column」標籤清單

  1. 依序點選「Review」和「Add to Recipe」,返回格狀檢視畫面。

工作 7:資料摘要

匯總、平均及計算 column 16 中的獻金金額,並分別按 column 2、24、8 的 ID、姓名及黨派為候選人進行分組,就能產生實用的摘要資訊。

  1. 在右側的「Recipe」面板上方,點選「New Step」,並在「Transformation」搜尋框中輸入下列公式,即可預覽匯總資料。
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

系統會顯示已彙整和匯總的資料初始樣本,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。

「Campaign Contributions - 2」頁面

  1. 點選「Add」,開啟美國主要總統候選人及其 2016 年選舉獻金指標的摘要資料表。

工作 8:重新命名資料欄

您可以重新命名資料欄,以更輕鬆的方式解讀資料。

  1. 點選「New Step」並輸入下列指令,將重新命名及捨入步驟逐一加入方案
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. 接著點選「Add」

  2. 加入最後一個新步驟,捨入平均獻金金額:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. 接著點選「Add」

結果應如下所示:

結果資料表,其中包含 Candidate_Id、Candidate_Name、Part_Affiliation, 及 Total_Contribution_Sum 資料欄

恭喜!

您已使用 Dataprep 新增資料集並建立方案,將資料轉換為具參考價值的結果。

後續步驟/瞭解詳情

本實驗室屬於 Qwik Start 實驗室系列,旨在帶您一窺 Google Cloud 的眾多功能。在實驗室目錄中搜尋「Qwik Start」,看看接下來要參加哪個實驗室!

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

手冊上次更新日期:2024 年 6 月 6 日

實驗室上次測試日期:2024 年 6 月 6 日

Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您