チェックポイント
Create a Dataproc cluster
/ 50
Submit a job
/ 30
Update a cluster
/ 20
Dataproc: Qwik Start - コンソール
GSP103
概要
Dataproc は、Apache Spark クラスタと Apache Hadoop クラスタをより簡単かつ費用対効果の高い方法で実行できるようにする、高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションを数秒から数分で処理できます。Dataproc クラスタは迅速に作成でき、いつでもサイズ変更が可能です。このため、データ パイプラインの成長にクラスタが追いつかなくなることを心配する必要はありません。
このラボでは、Google Cloud コンソールを使用して Dataproc クラスタを作成する方法、クラスタで簡単な Apache Spark ジョブを実行する方法、クラスタ内のワーカーの数を変更する方法について説明します。
演習内容
このラボでは、次の方法について学びます。
- Google Cloud コンソールを使用して Dataproc クラスタを作成する
- 簡単な Apache Spark ジョブを実行する
- クラスタ内のワーカー数を変更する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
Cloud Dataproc API が有効になっていることを確認する
Google Cloud で Dataproc クラスタを作成するには、Cloud Dataproc API を有効にする必要があります。API が有効になっていることを確認するには:
-
ナビゲーション メニュー > [API とサービス] > [ライブラリ] をクリックします。
-
[API とサービスを検索] ダイアログに「Cloud Dataproc」と入力します。検索結果としてコンソールに Cloud Dataproc API が表示されます。
-
Cloud Dataproc API をクリックすると、API のステータスが表示されます。API がまだ有効になっていない場合は、[有効にする] をクリックします。
API が有効になったら、ラボの手順を進めます。
サービス アカウントに権限を付与する
クラスタの作成に必要なストレージ権限をサービス アカウントに付与するには、次の手順を行います。
-
ナビゲーション メニュー > [IAM と管理] > [IAM] に移動します。
-
compute@developer.gserviceaccount.com
というサービス アカウントにある鉛筆アイコンをクリックします。 -
[+ 別のロールを追加] ボタンをクリックして、[ストレージ管理者] ロールを選択します。
[ストレージ管理者] ロールを選択したら、[保存] をクリックします。
タスク 1. クラスタを作成する
-
Cloud Platform コンソールで、ナビゲーション メニュー > [Dataproc] > [クラスタ] を選択し、[クラスタを作成] をクリックします。
-
[Compute Engine 上のクラスタ] の [作成] をクリックします。
-
クラスタの各項目を以下のように設定し、その他の項目はすべてデフォルト値のままにします。
項目 | 値 |
---|---|
名前 | example-cluster |
リージョン | |
ゾーン | |
マシンシリーズ(マネージャー ノード) | E2 |
マシンタイプ(マネージャー ノード) | e2-standard-2 |
プライマリ ディスクのサイズ(マネージャー ノード) | 30 GB |
ワーカーノードの数 | 2 |
マシンシリーズ(ワーカーノード) | E2 |
マシンタイプ(ワーカーノード) | e2-standard-2 |
プライマリ ディスクのサイズ(ワーカーノード) | 30 GB |
内部 IP のみ | [すべてのインスタンスが内部 IP アドレスのみを持つように構成します] の選択を解除する |
us-central1
や europe-west1
など)を指定することで、Cloud Dataproc によって利用されるリソース(VM インスタンス、Cloud Storage など)やメタデータの保存場所を指定したリージョン内に隔離することもできます。
- [作成] をクリックしてクラスタを作成します。
新しいクラスタが [クラスタ] リストに表示されます。作成には数分かかる場合があります。クラスタが使用できるようになるまで、ステータスには [プロビジョニング] と表示され、その後 [実行中] に変わります。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。
タスク 2. ジョブを送信する
サンプルの Spark ジョブを実行するには:
-
左側のナビゲーション メニューで [ジョブ] を選択して Dataproc ジョブの表示に切り替え、[ジョブを送信] をクリックします。
-
ジョブを更新するために以下の項目を設定します。これ以外の項目はすべてデフォルト値のままにします。
項目 | 値 |
---|---|
リージョン | |
クラスタ | example-cluster |
ジョブタイプ | Spark |
メインクラスまたは JAR | org.apache.spark.examples.SparkPi |
JAR ファイル | file://usr/lib/spark/examples/jars/spark-examples.jar |
引数 | 1000(タスクの数を設定します) |
- [送信] をクリックします。
ジョブが [ジョブ] リストに表示されます。このリストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブ ステータスは [実行中] と表示され、その後ジョブが完了すると [完了] になります。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。
タスク 3. ジョブ出力を表示する
完了したジョブの出力を表示する手順は次のとおりです。
-
[ジョブ] リストのジョブ ID をクリックします。
-
[行の折り返し] を
ON
にするか、円周率の計算値まで右にスクロールします。[行の折り返し] をON
にすると、出力は次のようになります。
円周率のおおよその値が正しく計算されました。
タスク 4. クラスタを更新してワーカーの数を変更する
クラスタのワーカー インスタンスの数を変更する手順は次のとおりです。
-
左側のナビゲーション パネルで [クラスタ] を選択し、Dataproc クラスタの表示に戻ります。
-
[クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要が表示されます。
-
[設定] をクリックし、クラスタの現在の設定を表示します。
-
[編集] をクリックします。ここでワーカーノードの数を編集できます。
-
[ワーカーノード] 項目に「4」と入力します。
-
[保存] をクリックします。
クラスタが更新されました。クラスタの VM インスタンスの数を確認してください。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。
-
更新されたクラスタのジョブを再度実行するには、左側のナビゲーション パネルで [ジョブ] をクリックしてから、[ジョブを送信] をクリックします。
-
「ジョブの送信」セクションと同じ項目を設定します。
項目 | 値 |
---|---|
リージョン | |
クラスタ | example-cluster |
ジョブタイプ | Spark |
メインクラスまたは JAR | org.apache.spark.examples.SparkPi |
JAR ファイル | file://usr/lib/spark/examples/jars/spark-examples.jar |
引数 | 1000(タスクの数を設定します) |
- [送信] をクリックします。
タスク 5. 理解度チェック
今回のラボで学習した内容の理解を深めていただくため、以下の多肢選択式問題を用意しました。正解を目指して頑張ってください。
お疲れさまでした
ここでは、Google Cloud コンソールを使用して Dataproc クラスタを作成および更新し、クラスタにジョブを送信する方法を学びました。
次のステップと詳細情報
このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 7 月 2 日
ラボの最終テスト日: 2024 年 7 月 2 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。