
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
本實驗室是我們與合作夥伴 Trifacta 攜手開發而成。如果您在帳戶個人資料中選擇接收產品最新消息、公告和優惠資訊,您的個人資訊可能會提供給本實驗室的贊助者 Trifacta。
Cloud Dataprep by Trifacta 是一項智慧型資料服務,您可以透過當中的視覺化介面來探索、清理及準備資料,以用於數據分析。Cloud Dataprep 採用無伺服器架構,能處理任何規模的資料。您不必部署或管理基礎架構,輕鬆點選即可準備資料,不會編寫程式碼也沒問題!
在本實驗室中,您會使用 Dataprep 進行各種資料集操作,包含匯入資料集、修正不相符的資料、轉換及彙整資料。如果這是您第一次接觸上述操作,完成實驗室後,您將掌握這些操作的所有相關資訊。
本實驗室將說明如何使用 Dataprep 完成下列工作:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 。
系統顯示視窗時,請按照下列步驟操作:
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
輸出內容:
輸出內容:
gcloud
的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
在 Cloud 控制台中,請依序選取「導覽選單」圖示 () >「Cloud Storage」>「值區」。
點選「建立值區」。
在「建立值區」對話方塊中,為 bucket 指定不重複的名稱,其餘設定則保留預設值。
在「選取如何控制物件的存取權」部分,取消勾選「強制禁止公開存取這個值區」。
點選「建立」。
您已建立 bucket,請記下 bucket 名稱供後續步驟使用。
請點選「Check my progress」,確認工作已完成。如果已成功建立 Cloud Storage bucket,您就會看見評估分數。
畫面上應會顯示訊息,表示您已建立服務身分。
依序點選「導覽選單」>「Dataprep」。
勾選方塊表示您接受《Google Dataprep 服務條款》,接著點選「接受」。
勾選方塊授權與 Trifacta 分享您的帳戶資訊,接著點選「同意並繼續」。
點選「允許」,同意讓 Trifacta 存取專案資料。
點選學員使用者名稱,登入 Cloud Dataprep by Trifacta。您的使用者名稱是實驗室左側面板中的使用者名稱。
點選「允許」,同意讓 Cloud Dataprep 存取您的 Google Cloud 實驗室帳戶。
勾選方塊表示您接受《Trifacta 服務條款》,接著點選「接受」。
點選「First time setup」畫面中的「繼續」,建立預設的儲存空間位置。
Dataprep 隨即會開啟。
請點選「Check my progress」,確認工作已完成。如果已成功將 Cloud Dataprep 初始化並建立預設的儲存空間位置,您就會看見評估分數。
Cloud Dataprep 使用 flow
工作區來存取和控管資料集。
FEC-2016 流程頁面隨即會開啟。
在本節中,您將匯入資料並新增至 FEC-2016 流程。
點選「Add Datasets」並選取「Import Datasets」連結。
在左側選單窗格中選取「Cloud Storage」,從 Cloud Storage 匯入資料集,接著點選鉛筆圖示來編輯檔案路徑。
gs://spls/gsp105
,接著點選「Go」。您可能需要拉寬瀏覽器視窗,才能看到「Go」和「Cancel」按鈕。
點選「us-fec/」。
點選 cn-2016.txt
旁邊的「+」圖示,建立右側窗格中顯示的資料集。點選右側窗格中的資料集標題,重新命名為「Candidate Master 2016」。
以同樣的方式新增 itcont-2016-orig.txt
資料集,並重新命名為「Campaign Contributions 2016」。
這兩個資料集都會列在右側窗格中,接著點選「Import & Add to Flow」。
您會看見兩個資料集已列為一個流程。
「Candidate Master 2016」轉換頁面隨即開啟,並以格狀檢視方式顯示。
透過轉換頁面,您可以建構轉換方案,並在對樣本套用方案後查看結果。如果對結果感到滿意,請對資料集執行工作。
此外,點選資料欄名稱時,畫面右側會顯示「Details」面板。
點選「Details」面板右上角的「X」即可關閉面板。
在接下來的步驟中,您會以格狀檢視模式探索資料,並將轉換步驟套用至方案。
這項操作可選取值並建立步驟。
右側的「Recipe」面板現在包含下列步驟:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
往下捲動至底部 (以紅色醒目顯示) 並找出不相符的值,您會發現大部分記錄在 column7 中包含值「P」,在 column6 中則包含「US」。不相符的原因是 column6 標示為「State」(州) 資料欄 (以旗標圖示表示),但卻含有「US」等不是州名的值。
不相符的資料已修正,資料欄標記現在為綠色。
在「Join」頁面中,您可以根據兩個資料集共有的資訊,彙整目前的資料集與另一個資料集或方案。
彙整獻金檔案和候選人檔案前,請先清理獻金檔案。
點選來選取顯示為灰色的「Campaign Contributions 2016」。
依序點選右側窗格中的「Add」>「Recipe」,接著按一下「Edit Recipe」。
依序點選畫面右上方的「recipe」圖示和「Add New Step」。
移除資料集中額外的分隔符號。
「轉換製作工具」會剖析 Wrangle 指令並填入「Find」和「Replace With」轉換欄位。
點選「Add」,將轉換作業加入方案。
將另一個步驟加入方案。點選「New Step」,在搜尋框中輸入「Join」。
點選「Join datasets」來開啟「Joins」頁面。
點選「Candidate Master 2016」來彙整至「Campaign Contributions 2016」,接著按一下右下角的「Accept」。
Dataprep 會推測出共同鍵。畫面上會顯示 Dataprep 建議可做為彙整鍵的共同值。
column 2 和 11 隨即會開啟供您檢視。
匯總、平均及計算 column 16 中的獻金金額,並分別按 column 2、24、8 的 ID、姓名及黨派為候選人進行分組,就能產生實用的摘要資訊。
系統會顯示已彙整和匯總的資料初始樣本,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。
您可以重新命名資料欄,以更輕鬆的方式解讀資料。
接著點選「Add」。
加入最後一個新步驟,捨入平均獻金金額:
結果應如下所示:
您已使用 Dataprep 新增資料集並建立方案,將資料轉換為具參考價值的結果。
本實驗室屬於 Qwik Start 實驗室系列,旨在帶您一窺 Google Cloud 的眾多功能。在實驗室目錄中搜尋「Qwik Start」,看看接下來要參加哪個實驗室!
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
手冊上次更新日期:2024 年 6 月 6 日
實驗室上次測試日期:2024 年 6 月 6 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
One lab at a time
Confirm to end all existing labs and start this one