700 以上のラボとコースにアクセス

Dataproc: Qwik Start - コンソール

ラボ 30分 universal_currency_alt クレジット: 1 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP103
概要
設定と要件
タスク 1. クラスタを作成する
タスク 2. ジョブを送信する
タスク 3. ジョブ出力を表示する
タスク 4. クラスタを更新してワーカーの数を変更する
タスク 5. 理解度チェック
お疲れさまでした

700 以上のラボとコースにアクセス

GSP103

概要

Dataproc は、Apache Spark クラスタと Apache Hadoop クラスタをより簡単かつ費用対効果の高い方法で実行できるようにする、高速で使いやすいフルマネージドクラウドサービスです。これまで数時間から数日かかっていたオペレーションを数秒から数分で処理できます。Dataproc クラスタは迅速に作成でき、いつでもサイズ変更が可能です。このため、データパイプラインの成長にクラスタが追いつかなくなることを心配する必要はありません。

このラボでは、Google Cloud コンソールを使用して Dataproc クラスタを作成する方法、クラスタで簡単な Apache Spark ジョブを実行する方法、クラスタ内のワーカーの数を変更する方法について説明します。

演習内容

このラボでは、次の方法について学びます。

Google Cloud コンソールを使用して Dataproc クラスタを作成する
簡単な Apache Spark ジョブを実行する
クラスタ内のワーカー数を変更する

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。左側の [ラボの詳細] ペインには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。

Cloud Dataproc API が有効になっていることを確認する

Google Cloud で Dataproc クラスタを作成するには、Cloud Dataproc API を有効にする必要があります。API が有効になっていることを確認するには:

ナビゲーションメニュー > [API とサービス] > [ライブラリ] をクリックします。
[API とサービスを検索] ダイアログに「Cloud Dataproc」と入力します。検索結果としてコンソールに Cloud Dataproc API が表示されます。
Cloud Dataproc API をクリックすると、API のステータスが表示されます。API がまだ有効になっていない場合は、[有効にする] をクリックします。

API が有効になったら、ラボの手順を進めます。

サービスアカウントに権限を付与する

クラスタの作成に必要なストレージ権限をサービスアカウントに付与するには、次の手順を行います。

ナビゲーションメニュー > [IAM と管理] > [IAM] に移動します。
compute@developer.gserviceaccount.com というサービスアカウントにある鉛筆アイコンをクリックします。
[+ 別のロールを追加] ボタンをクリックして、[ストレージ管理者] ロールを選択します。

[ストレージ管理者] ロールを選択したら、[保存] をクリックします。

タスク 1. クラスタを作成する

Cloud Platform コンソールで、ナビゲーションメニュー > [すべてのプロダクトを表示] > [Dataproc] > [クラスタ] を選択し、[クラスタを作成] をクリックします。
[Compute Engine 上のクラスタ] の [作成] をクリックします。
クラスタの各項目を以下のように設定し、その他の項目はすべてデフォルト値のままにします。

注: [ノードの構成] セクションで、マスターノードとワーカーノードの両方が正しいマシンシリーズとマシンタイプに設定されていることを確認してください。E2 シリーズが表示されない場合は、メインディスクのタイプのオプションとして [標準永続ディスク] が選択されていることを確認します。

フィールド	値
名前	example-cluster
リージョン
ゾーン
メインディスクのタイプ（マネージャーノード）	標準永続ディスク
マシンシリーズ（マネージャーノード）	E2
マシンタイプ（マネージャーノード）	e2-standard-2
プライマリディスクのサイズ（マネージャーノード）	30 GB
ワーカーノードの数	2
メインディスクのタイプ（ワーカーノード）	標準永続ディスク
マシンシリーズ（ワーカーノード）	E2
マシンタイプ（ワーカーノード）	e2-standard-2
プライマリディスクのサイズ（ワーカーノード）	30 GB
内部 IP のみ	[すべてのインスタンスが内部 IP アドレスのみを持つように構成します] の選択を解除する

注: ゾーンは特別なマルチリージョンの名前空間であり、すべての Google Compute ゾーンに対してグローバルにインスタンスをデプロイできます。また、個別のリージョン（us-central1 や europe-west1 など）を指定することで、Cloud Dataproc によって利用されるリソース（VM インスタンス、Cloud Storage など）やメタデータの保存場所を指定したリージョン内に隔離することもできます。

[作成] をクリックしてクラスタを作成します。

新しいクラスタが [クラスタ] リストに表示されます。作成には数分かかる場合があります。クラスタが使用できるようになるまで、ステータスには [プロビジョニング] と表示され、その後 [実行中] に変わります。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。

Dataproc クラスタを作成する

タスク 2. ジョブを送信する

サンプルの Spark ジョブを実行するには:

左側のナビゲーションメニューで [ジョブ] を選択して Dataproc ジョブの表示に切り替え、[ジョブを送信] をクリックします。
ジョブを更新するために以下の項目を設定します。これ以外の項目はすべてデフォルト値のままにします。

項目	値
リージョン
クラスタ	example-cluster
ジョブタイプ	Spark
メインクラスまたは JAR	org.apache.spark.examples.SparkPi
JAR ファイル	file://usr/lib/spark/examples/jars/spark-examples.jar
引数	1000（タスクの数を設定します）

[送信] をクリックします。

注: ジョブによる円周率の計算方法: Spark ジョブは、モンテカルロ法を使用して円周率の値を推定します。これによって、単位正方形で囲まれた円をモデル化した座標平面上に x、y 点が生成されます。入力引数（1000）は、生成する x と y のペア数を決定します。生成するペアが多いほど、推定の精度が向上します。この推定では、Cloud Dataproc ワーカーノードを利用して計算が並列化されます。詳細については、モンテカルロ法を使用した円周率の推定と、GitHub の JavaSparkPi.java をご覧ください。

ジョブが [ジョブ] リストに表示されます。このリストには、プロジェクトのジョブがクラスタ、タイプ、現在のステータスとともに表示されます。ジョブステータスは [実行中] と表示され、その後ジョブが完了すると [完了] になります。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。

ジョブの送信

タスク 3. ジョブ出力を表示する

完了したジョブの出力を表示する手順は次のとおりです。

[ジョブ] リストのジョブ ID をクリックします。
[行の折り返し] を ON にするか、円周率の計算値まで右にスクロールします。[行の折り返し] を ON にすると、出力は次のようになります。

円周率のおおよその値が正しく計算されました。

タスク 4. クラスタを更新してワーカーの数を変更する

クラスタのワーカーインスタンスの数を変更する手順は次のとおりです。

左側のナビゲーションパネルで [クラスタ] を選択し、Dataproc クラスタの表示に戻ります。
[クラスタ] リストで [example-cluster] をクリックします。デフォルトでは、クラスタの CPU 使用率の概要が表示されます。
[設定] をクリックし、クラスタの現在の設定を表示します。
[編集] をクリックします。ここでワーカーノードの数を編集できます。
[ワーカーノード] 項目に「4」と入力します。
[保存] をクリックします。

クラスタが更新されました。クラスタの VM インスタンスの数を確認してください。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。

クラスタを更新する

更新されたクラスタのジョブを再度実行するには、左側のナビゲーションパネルで [ジョブ] をクリックしてから、[ジョブを送信] をクリックします。
「ジョブの送信」セクションと同じ項目を設定します。

項目	値
リージョン
クラスタ	example-cluster
ジョブタイプ	Spark
メインクラスまたは JAR	org.apache.spark.examples.SparkPi
JAR ファイル	file://usr/lib/spark/examples/jars/spark-examples.jar
引数	1000（タスクの数を設定します）

[送信] をクリックします。

タスク 5. 理解度チェック

今回のラボで学習した内容の理解を深めていただくため、以下の多肢選択式問題を用意しました。正解を目指して頑張ってください。

お疲れさまでした

ここでは、Google Cloud コンソールを使用して Dataproc クラスタを作成および更新し、クラスタにジョブを送信する方法を学びました。

次のステップと詳細情報

このラボは、Google Cloud の多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 3 月 25 日

ラボの最終テスト日: 2025 年 3 月 25 日

Dataproc: Qwik Start - コンソール

Dataproc: Qwik Start - コンソール

GSP103

概要

演習内容

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

Cloud Dataproc API が有効になっていることを確認する

サービス アカウントに権限を付与する

タスク 1. クラスタを作成する

タスク 2. ジョブを送信する

タスク 3. ジョブ出力を表示する

タスク 4. クラスタを更新してワーカーの数を変更する

タスク 5. 理解度チェック

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

サービスアカウントに権限を付与する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する