检查点
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep:Qwik Start
本實驗室是我們與合作夥伴 Trifacta 攜手開發而成。如果您在帳戶個人資料中選擇接收產品最新消息、公告和優惠資訊,您的個人資訊可能會提供給本實驗室的贊助者 Trifacta。
GSP105
總覽
Cloud Dataprep by Trifacta 是一項智慧型資料服務,您可以透過當中的視覺化介面來探索、清理及準備資料,以用於數據分析。Cloud Dataprep 採用無伺服器架構,能處理任何規模的資料。您不必部署或管理基礎架構,輕鬆點選即可準備資料,不會編寫程式碼也沒問題!
在本實驗室中,您會使用 Dataprep 進行各種資料集操作,包含匯入資料集、修正不相符的資料、轉換及彙整資料。如果這是您第一次接觸上述操作,完成實驗室後,您將掌握這些操作的所有相關資訊。
學習內容
本實驗室將說明如何使用 Dataprep 完成下列工作:
- 匯入資料
- 修正不相符的資料
- 轉換資料
- 彙整資料
設定和需求
點選「Start Lab」按鈕前的須知事項
請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。
您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。
如要完成這個研究室活動,請先確認:
- 您可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
- 是時候完成研究室活動了!別忘了,活動一開始將無法暫停。
如何開始研究室及登入 Google Cloud 控制台
-
按一下「Start Lab」(開始研究室) 按鈕。如果研究室會產生費用,畫面中會出現選擇付款方式的彈出式視窗。左側的「Lab Details」窗格會顯示下列項目:
- 「Open Google Cloud console」按鈕
- 剩餘時間
- 必須在這個研究室中使用的暫時憑證
- 完成這個實驗室所需的其他資訊 (如有)
-
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,然後選取「在無痕式視窗中開啟連結」。
接著,實驗室會啟動相關資源並開啟另一個分頁,當中顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
注意:如果頁面中顯示「選擇帳戶」對話方塊,請點選「使用其他帳戶」。 -
如有必要,請將下方的 Username 貼到「登入」對話方塊。
{{{user_0.username | "Username"}}} 您也可以在「Lab Details」窗格找到 Username。
-
點選「下一步」。
-
複製下方的 Password,並貼到「歡迎使用」對話方塊。
{{{user_0.password | "Password"}}} 您也可以在「Lab Details」窗格找到 Password。
-
點選「下一步」。
重要事項:請務必使用實驗室提供的憑證,而非自己的 Google Cloud 帳戶憑證。 注意:如果使用自己的 Google Cloud 帳戶來進行這個實驗室,可能會產生額外費用。 -
按過後續的所有頁面:
- 接受條款及細則。
- 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
- 請勿申請免費試用。
Google Cloud 控制台稍後會在這個分頁開啟。
啟動 Cloud Shell
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
- 點按 Google Cloud 控制台上方的「啟用 Cloud Shell」圖示 。
連線完成即代表已通過驗證,且專案已設為您的 PROJECT_ID。輸出內容中有一行宣告本工作階段 PROJECT_ID 的文字:
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
- (選用) 您可以執行下列指令來列出使用中的帳戶:
-
點按「授權」。
-
輸出畫面應如下所示:
輸出內容:
- (選用) 您可以使用下列指令來列出專案 ID:
輸出內容:
輸出內容範例:
gcloud
的完整說明,請前往 Google Cloud 並參閱「gcloud CLI overview guide」(gcloud CLI 總覽指南)。
工作 1:在專案中建立 Cloud Storage bucket
-
在 Cloud 控制台中,請依序選取「導覽選單」圖示 () >「Cloud Storage」>「值區」。
-
點選「建立值區」。
-
在「建立值區」對話方塊中,為 bucket 指定不重複的名稱,其餘設定則保留預設值。
-
在「選取如何控制物件的存取權
」部分,取消勾選「強制禁止公開存取這個值區」。
-
點選「建立」。
您已建立 bucket,請記下 bucket 名稱供後續步驟使用。
測試已完成的工作
請點選「Check my progress」,確認工作已完成。如果已成功建立 Cloud Storage bucket,您就會看見評估分數。
工作 2:初始化 Cloud Dataprep
- 開啟 Cloud Shell 並執行下列指令:
畫面上應會顯示訊息,表示您已建立服務身分。
-
依序點選「導覽選單」>「Dataprep」。
-
勾選方塊表示您接受《Google Dataprep 服務條款》,接著點選「接受」。
-
勾選方塊授權與 Trifacta 分享您的帳戶資訊,接著點選「同意並繼續」。
-
點選「允許」,同意讓 Trifacta 存取專案資料。
-
點選學員使用者名稱,登入 Cloud Dataprep by Trifacta。您的使用者名稱是實驗室左側面板中的使用者名稱。
-
點選「允許」,同意讓 Cloud Dataprep 存取您的 Google Cloud 實驗室帳戶。
-
勾選方塊表示您接受《Trifacta 服務條款》,接著點選「接受」。
-
點選「First time setup」畫面中的「繼續」,建立預設的儲存空間位置。
Dataprep 隨即會開啟。
測試已完成的工作
請點選「Check my progress」,確認工作已完成。如果已成功將 Cloud Dataprep 初始化並建立預設的儲存空間位置,您就會看見評估分數。
工作 3:建立流程
Cloud Dataprep 使用 flow
工作區來存取和控管資料集。
- 依序點選「Flows」圖示與「Create」按鈕,接著選取「Blank Flow」:
- 點選「Untitled Flow」,為流程命名並提供說明。由於本實驗室使用 2016 美國聯邦選舉委員會提供的 2016 年資料,您可以將流程命名為「FEC-2016」,並輸入「United States Federal Elections Commission 2016」做為說明。
- 點選「OK」。
FEC-2016 流程頁面隨即會開啟。
工作 4:匯入資料集
在本節中,您將匯入資料並新增至 FEC-2016 流程。
-
點選「Add Datasets」並選取「Import Datasets」連結。
-
在左側選單窗格中選取「Cloud Storage」,從 Cloud Storage 匯入資料集,接著點選鉛筆圖示來編輯檔案路徑。
- 在「Choose a file or folder」文字方塊中輸入
gs://spls/gsp105
,接著點選「Go」。
您可能需要拉寬瀏覽器視窗,才能看到「Go」和「Cancel」按鈕。
-
點選「us-fec/」。
-
點選
cn-2016.txt
旁邊的「+」圖示,建立右側窗格中顯示的資料集。點選右側窗格中的資料集標題,重新命名為「Candidate Master 2016」。 -
以同樣的方式新增
itcont-2016-orig.txt
資料集,並重新命名為「Campaign Contributions 2016」。 -
這兩個資料集都會列在右側窗格中,接著點選「Import & Add to Flow」。
您會看見兩個資料集已列為一個流程。
工作 5:準備候選人檔案
- 根據預設,系統會選取「Candidate Master 2016」資料集。點選右側窗格中的「Edit Recipe」。
「Candidate Master 2016」轉換頁面隨即開啟,並以格狀檢視方式顯示。
透過轉換頁面,您可以建構轉換方案,並在對樣本套用方案後查看結果。如果對結果感到滿意,請對資料集執行工作。
- 每個資料欄標題都有名稱與指明資料類型的值,點選資料欄圖示即可查看資料類型:
-
此外,點選資料欄名稱時,畫面右側會顯示「Details」面板。
-
點選「Details」面板右上角的「X」即可關閉面板。
在接下來的步驟中,您會以格狀檢視模式探索資料,並將轉換步驟套用至方案。
- column5 提供 1990 至 2064 年的資料。拉寬 column5 (就像在試算表中操作一樣) 來顯示各年份的資料。選取最高的特徵分塊,這個分塊代表 2016 年。
這項操作可選取值並建立步驟。
- 在右側的「Suggestions」面板中找出「Keep rows」專區,點選「Add」將這個步驟加入方案。
右側的「Recipe」面板現在包含下列步驟:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- 在 column6 (州) 中,將滑鼠游標懸停在標頭中不相符的部分 (以紅色醒目顯示) 並點選,以選取不相符的資料列。
往下捲動至底部 (以紅色醒目顯示) 並找出不相符的值,您會發現大部分記錄在 column7 中包含值「P」,在 column6 中則包含「US」。不相符的原因是 column6 標示為「State」(州) 資料欄 (以旗標圖示表示),但卻含有「US」等不是州名的值。
- 如要修正不相符的問題,請點選「Suggestions」面板上方的「X」來取消轉換,接著按一下 column6 中的旗標圖示,變更為「String」(字串) 資料欄。
不相符的資料已修正,資料欄標記現在為綠色。
- 僅篩選總統候選人,也就是 column7 包含「P」這個值的記錄。在 column7 直方圖中,將滑鼠游標懸停在兩個特徵分塊上,查看哪個是「H」,哪個是「P」。點選「P」特徵分塊。
- 在右側「Suggestions」面板中,點選「Add」將步驟加入方案。
工作 6:對獻金檔案進行 Wrangling 並彙整至候選人檔案
在「Join」頁面中,您可以根據兩個資料集共有的資訊,彙整目前的資料集與另一個資料集或方案。
彙整獻金檔案和候選人檔案前,請先清理獻金檔案。
- 點選格狀檢視頁面上方的「FEC-2016」(資料集選取器)。
-
點選來選取顯示為灰色的「Campaign Contributions 2016」。
-
依序點選右側窗格中的「Add」>「Recipe」,接著按一下「Edit Recipe」。
-
依序點選畫面右上方的「recipe」圖示和「Add New Step」。
移除資料集中額外的分隔符號。
- 在搜尋框中插入下列 Wrangle 語言指令:
「轉換製作工具」會剖析 Wrangle 指令並填入「Find」和「Replace With」轉換欄位。
-
點選「Add」,將轉換作業加入方案。
-
將另一個步驟加入方案。點選「New Step」,在搜尋框中輸入「Join」。
-
點選「Join datasets」來開啟「Joins」頁面。
-
點選「Candidate Master 2016」來彙整至「Campaign Contributions 2016」,接著按一下右下角的「Accept」。
- 將滑鼠游標懸停在畫面右側的「Join keys」專區,點選鉛筆 (「Edit」圖示)。
Dataprep 會推測出共同鍵。畫面上會顯示 Dataprep 建議可做為彙整鍵的共同值。
- 在「Add Key」面板中,點選「Suggested join keys」專區裡的「column2 = column11」。
- 點選「Save and Continue」。
column 2 和 11 隨即會開啟供您檢視。
- 點選「Next」,勾選「Column」標籤左邊的方塊,將兩個資料集的所有欄位加入已彙整的資料集。
- 依序點選「Review」和「Add to Recipe」,返回格狀檢視畫面。
工作 7:資料摘要
匯總、平均及計算 column 16 中的獻金金額,並分別按 column 2、24、8 的 ID、姓名及黨派為候選人進行分組,就能產生實用的摘要資訊。
- 在右側的「Recipe」面板上方,點選「New Step」,並在「Transformation」搜尋框中輸入下列公式,即可預覽匯總資料。
系統會顯示已彙整和匯總的資料初始樣本,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。
- 點選「Add」,開啟美國主要總統候選人及其 2016 年選舉獻金指標的摘要資料表。
工作 8:重新命名資料欄
您可以重新命名資料欄,以更輕鬆的方式解讀資料。
- 點選「New Step」並輸入下列指令,將重新命名及捨入步驟逐一加入方案:
-
接著點選「Add」。
-
加入最後一個新步驟,捨入平均獻金金額:
- 接著點選「Add」。
結果應如下所示:
恭喜!
您已使用 Dataprep 新增資料集並建立方案,將資料轉換為具參考價值的結果。
後續步驟/瞭解詳情
本實驗室屬於 Qwik Start 實驗室系列,旨在帶您一窺 Google Cloud 的眾多功能。在實驗室目錄中搜尋「Qwik Start」,看看接下來要參加哪個實驗室!
Google Cloud 教育訓練與認證
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
手冊上次更新日期:2024 年 6 月 6 日
實驗室上次測試日期:2024 年 6 月 6 日
Copyright 2024 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。