欢迎加入我们的社区，一起测试和分享您的知识！

Dataproc：Qwik Start - 控制台

实验 30 分钟 universal_currency_alt 1 积分 show_chart 入门级

info 此实验可能会提供 AI 工具来支持您学习。

GSP103
總覽
設定和需求
工作 1：建立叢集
工作 2：提交工作
工作 3：查看工作的輸出內容
工作 4：更新叢集以修改工作站數量
工作 5：隨堂測驗
恭喜！

欢迎加入我们的社区，一起测试和分享您的知识！

GSP103

總覽

Dataproc 是運作快速又簡單易用的全代管雲端服務，可讓您以更輕鬆且更具成本效益的方式，執行 Apache Spark 和 Apache Hadoop 叢集。過去需要數小時或數天處理的作業，現在只要幾秒或幾分鐘就能完成。您可以快速建立 Dataproc 叢集，並隨時視情況調整規模，無須擔心叢集無法容納資料管道。

本研究室將說明如何使用 Google Cloud 控制台建立 Dataproc 叢集、在叢集中執行簡單的 Apache Spark 工作，然後修改叢集中的工作站數量。

學習內容

本研究室的內容包括：

在 Google Cloud 控制台中建立 Dataproc 叢集
執行簡易的 Apache Spark 工作
修改叢集中的工作站數量

設定和需求

瞭解以下事項後，再點選「Start Lab」按鈕

請詳閱以下操作說明。實驗室活動會計時，且中途無法暫停。點選「Start Lab」後就會開始計時，顯示可使用 Google Cloud 資源的時間。

您將在真正的雲端環境完成實作實驗室活動，而不是模擬或示範環境。為此，我們會提供新的暫時憑證，供您在實驗室活動期間登入及存取 Google Cloud。

為了順利完成這個實驗室，請先確認：

可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。

注意事項：請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室，這可以防止個人帳戶和學員帳戶之間的衝突，避免個人帳戶產生額外費用。

是時候完成實驗室活動了！別忘了，活動一旦開始將無法暫停。

注意事項：務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶，可能會產生額外費用。

如何開始研究室及登入 Google Cloud 控制台

點選「Start Lab」按鈕。如果實驗室會產生費用，畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目：
- 「Open Google Cloud console」按鈕
- 剩餘時間
- 必須在這個研究室中使用的臨時憑證
- 完成這個實驗室所需的其他資訊 (如有)
點選「Open Google Cloud console」；如果使用 Chrome 瀏覽器，也能按一下滑鼠右鍵，選取「在無痕視窗中開啟連結」。

接著，實驗室會啟動相關資源，並開啟另一個分頁，顯示「登入」頁面。

提示：您可以在不同的視窗中並排開啟分頁。
注意：如果頁面中顯示「選擇帳戶」對話方塊，請點選「使用其他帳戶」。
如有必要，請將下方的 Username 貼到「登入」對話方塊。
{{{user_0.username | "Username"}}}
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password，並貼到「歡迎使用」對話方塊。
{{{user_0.password | "Password"}}}
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
重要事項：請務必使用實驗室提供的憑證，而非自己的 Google Cloud 帳戶憑證。注意：如果使用自己的 Google Cloud 帳戶來進行這個實驗室，可能會產生額外費用。
按過後續的所有頁面：
- 接受條款及細則。
- 由於這是臨時帳戶，請勿新增救援選項或雙重驗證機制。
- 請勿申請免費試用。

Google Cloud 控制台稍後會在這個分頁開啟。

注意：如要使用 Google Cloud 產品和服務，請點選「導覽選單」，或在「搜尋」欄位輸入服務或產品名稱。

確認 Cloud Dataproc API 已啟用

如要在 Google Cloud 中建立 Dataproc 叢集，請務必啟用 Cloud Dataproc API。確認 API 是否啟用的步驟如下：

依序點選「導覽選單」>「API 和服務」>「程式庫」。
在「搜尋 API 和服務」對話方塊中輸入 Cloud Dataproc，控制台的搜尋結果中就會顯示 Cloud Dataproc API。
點選「Cloud Dataproc API」，查看該 API 的狀態。如果 API 尚未啟用，請點選「啟用」按鈕。

如果 API 已啟用，請按照研究室的指示繼續操作。

將權限授予服務帳戶

如要建立叢集，首先必須將儲存權限授予服務帳戶，步驟如下：

依序前往「導覽選單」>「IAM 與管理」>「身分與存取權管理」。
點選 compute@developer.gserviceaccount.com 服務帳戶旁的「鉛筆」圖示。
點選「+ 新增其他角色」按鈕，選取「Storage 管理員」角色。

選取「Storage 管理員」角色後，點選「儲存」。

工作 1：建立叢集

在 Cloud Platform 控制台，選取「導覽選單」>「查看所有產品」>「Dataproc」>「叢集」，然後點按「建立叢集」。
在「Compute Engine 上的叢集」部分點按「建立」。
為叢集設定下列欄位，並保留所有其他欄位的預設值。

注意：在「設定節點」部分，請確定「主要節點」和「worker 節點」都設為正確的機器系列與機型。如果沒有顯示 E2 系列，請確定已選取「標準永久磁碟」做為「主要磁碟類型」選項。

欄位	值
名稱	example-cluster
區域
可用區
主要磁碟類型 (管理工具節點)	標準永久磁碟
機器系列 (管理工具節點)	E2
機型 (管理工具節點)	e2-standard-2
主要磁碟大小 (管理工具節點)	30 GB
工作站節點數	2
主要磁碟類型 (worker 節點)	標準永久磁碟
機器系列 (worker 節點)	E2
機型 (工作站節點)	e2-standard-2
主要磁碟大小 (工作站節點)	30 GB
僅限內部 IP	取消選取「將所有執行個體設為僅具備內部 IP 位址」

注意：「可用區」是特殊的多區域命名空間，可以將執行個體部署至全球所有 Google Compute 可用區。您也能指定 us-central1 或 europe-west1 等不同的區域，區隔 Cloud Dataproc 所用資源 (包括 VM 執行個體和 Cloud Storage) 與中繼資料的儲存位置。

點選「建立」來建立叢集。

新叢集會出現在「叢集」清單中。建立作業可能需要幾分鐘才能完成，期間叢集狀態會顯示為「佈建中」，待叢集可以使用後，狀態就會變更為「執行中」。

測試已完成的工作

請點選「Check my progress」，確認工作已完成。

建立 Dataproc 叢集

工作 2：提交工作

如要執行範例 Spark 工作，請按照下列步驟操作：

點選左側窗格中的「工作」，切換至 Dataproc 工作檢視畫面，然後按一下「提交工作」。
設定下列欄位以更新工作，並保留所有其他欄位的預設值：

欄位	值
區域
叢集	example-cluster
工作類型	Spark
主要類別或 jar 檔案	org.apache.spark.examples.SparkPi
Jar 檔案	file:///usr/lib/spark/examples/jars/spark-examples.jar
引數	1000 (這會設定任務數量)

點選「提交」。

注意：Spark 工作會使用蒙特卡羅法估算圓周率。這個做法是在座標面上產生 x,y 點，建立一個由單位正方形包圍圓形的模型，輸入的引數 (1000) 會決定要產生的 x,y 配對數。配對數越多，預估值就越準確。預估過程中，系統會利用 Cloud Dataproc 工作站節點平行處理計算工作。詳情請參閱「Estimating Pi using the Monte Carlo Method」(使用蒙特卡羅法估算圓周率)，以及 GitHub 上的 JavaSparkPi.java。

您的工作應該會出現在「工作」清單；這個清單包含專案的所有工作，以及相關的叢集、類型與目前狀態。目前顯示的工作狀態是「執行中」，完成後就會變更為「已完成」。

測試已完成的工作

請點選「Check my progress」，確認工作已完成。

提交工作

工作 3：查看工作的輸出內容

如要查看已完成工作的輸出內容，請按照下列步驟操作：

在「工作」清單中點選工作 ID。
將「換行」設為啟用，或是捲動至最右側來查看系統計算的圓周率。您將「換行」設為啟用後，輸出內容應如下所示：

這表示工作已成功計算出圓周率的粗估值！

工作 4：更新叢集以修改工作站數量

如要變更叢集中的工作站執行個體數量，請按照下列步驟操作：

選取左側導覽窗格中的「叢集」，返回 Dataproc 叢集檢視畫面。
在「叢集」清單中點選「example-cluster」。根據預設，這個頁面會顯示叢集的 CPU 使用率總覽。
點選「設定」查看叢集目前的設定。
按一下「編輯」。您現在可以修改工作站節點的數量。
在「工作站節點數」欄位中輸入 4。
點選「儲存」。

叢集已更新完成，請檢查叢集中的 VM 執行個體數量。

測試已完成的工作

請點選「Check my progress」，確認工作已完成。

更新叢集

如要使用更新後的叢集重新執行工作，請依序點選左側窗格中的「工作」和「提交工作」。
參考「提交工作」一節，並設定相同的欄位：

欄位	值
區域
叢集	example-cluster
工作類型	Spark
主要類別或 jar 檔案	org.apache.spark.examples.SparkPi
Jar 檔案	file:///usr/lib/spark/examples/jars/spark-examples.jar
引數	1000 (這會設定任務數量)

點選「提交」。

工作 5：隨堂測驗

完成下列選擇題能加深您的印象，更清楚本實驗室介紹的概念，請盡您所能回答。

恭喜！

您已瞭解如何使用 Google Cloud 控制台建立及更新 Dataproc 叢集，然後在該叢集中提交工作。

後續步驟/瞭解詳情

這個實驗室屬於 Qwik Start 實驗室系列，此系列旨在帶您一窺 Google Cloud 的眾多功能。歡迎在實驗室目錄中搜尋「Qwik Start」，看看接下來要參加哪個實驗室！

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法，讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程，並有隨選、線上和虛擬課程等選項，方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期：2025 年 3 月 25 日

實驗室上次測試日期：2025 年 3 月 25 日

Dataproc：Qwik Start - 控制台

Dataproc：Qwik Start - 控制台

GSP103

總覽

學習內容

設定和需求

瞭解以下事項後，再點選「Start Lab」按鈕

如何開始研究室及登入 Google Cloud 控制台

確認 Cloud Dataproc API 已啟用

將權限授予服務帳戶

工作 1：建立叢集

工作 2：提交工作

工作 3：查看工作的輸出內容

工作 4：更新叢集以修改工作站數量

工作 5：隨堂測驗

恭喜！

後續步驟/瞭解詳情

Google Cloud 教育訓練與認證

Before you begin

Use private browsing

Sign in to the Console

Use private browsing to run the lab