
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Run an Example Pipeline Remotely
/ 50
Apache Beam SDK 是一種用於資料管道的開放原始碼程式設計模型。在 Google Cloud 中,您可以使用 Apache Beam 程式定義管道,並透過 Dataflow 執行管道。
在本研究室中,您會運用 Apache Beam SDK for Python 為 Dataflow 設定 Python 開發環境,並執行 Dataflow 範例管道。
本研究室的內容包括:
請詳閱以下操作說明。研究室活動會計時,而且中途無法暫停。點選「Start Lab」 後就會開始計時,讓您瞭解有多少時間可以使用 Google Cloud 資源。
您將在真正的雲端環境中完成實作研究室活動,而不是在模擬或示範環境。為達此目的,我們會提供新的暫時憑證,讓您用來在研究室活動期間登入及存取 Google Cloud。
如要完成這個研究室活動,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
連線完成即代表已通過驗證,且專案已設為您的 PROJECT_ID。輸出內容中有一行宣告本工作階段 PROJECT_ID 的文字:
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
點按「授權」。
輸出畫面應如下所示:
輸出內容:
輸出內容:
輸出內容範例:
gcloud
的完整說明,請前往 Google Cloud 並參閱「gcloud CLI overview guide」(gcloud CLI 總覽指南)。
為了確保能使用必要的 API,請重新啟動連至 Dataflow API 的連線。
在 Cloud 控制台最上方的搜尋列中,輸入「Dataflow API」。點選「Dataflow API」搜尋結果。
點選「管理」。
點選「停用 API」。
如果系統要求您確認操作,請點選「停用」。
再次啟用 API 時,頁面上會顯示停用選項。
透過 Dataflow 執行管道時,結果會儲存於 Cloud Storage 值區。在這項工作中,您會建立 Cloud Storage 值區,用於儲存後續工作的管道執行結果。
us
點選「建立」。
如果出現「系統會禁止公開存取」提示訊息,請點選「確認」。
測試已完成的工作
點選「Check my progress」 確認工作已完成。如果已成功完成工作,就會看到評估分數。
Python3.9
Docker 映像檔:這個指令會提取採用 Python 3.9 最新穩定版的 Docker 容器,接著開啟指令殼層,方便您在容器中執行下列指令。
您會看到一些系統傳回的依附元件相關警告。在本研究室中,您可以放心忽略這些警告。
wordcount.py
範例:畫面上可能會顯示如下訊息:
您可以忽略這則訊息。
OUTPUT_FILE
名稱:OUTPUT_FILE
的名稱,然後貼到 cat
指令中:執行結果會顯示檔案中的每個字詞,以及字詞出現的次數。
wordcount.py
範例:等待輸出內容顯示下列訊息:
接著繼續完成研究室工作。
畫面上會顯示 wordcount 工作,一開始的狀態為「執行中」。
如果狀態顯示「成功」,表示程序已完成。
測試已完成的工作
點選「Check my progress」 確認工作已完成。如果已成功完成工作,就會看到評估分數。
在 Cloud 控制台中,依序按一下「導覽選單」>「Cloud Storage」。
按一下值區名稱。值區中應該會顯示 results 和 staging 目錄。
按一下 results 資料夾,您應該會看到工作建立的輸出檔案:
按一下檔案即可查看內含字數。
您可以透過下列選擇題加強自己的理解,確實掌握這個研究室介紹的概念。盡力回答即可。
您已瞭解如何運用 Apache Beam SDK for Python 為 Dataflow 設定 Python 開發環境,並成功執行 Dataflow 範例管道。
這個研究室屬於 Qwik Start 研究室系列,這些研究室旨在讓您簡單瞭解 Google Cloud 提供的眾多功能。在「Google Cloud Skills Boost 目錄」中搜尋「Qwik Start」,即可找到您想進行的下一個研究室!
如想取得本研究室的內容參考書籍,請參閱:《Data Science on the Google Cloud Platform: O'Reilly Media, Inc.》(Google Cloud Platform 的數據資料學:O'Reilly Media, Inc.)。
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2024 年 2 月 4 日
研究室上次測試日期:2023 年 5 月 4 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
One lab at a time
Confirm to end all existing labs and start this one