チェックポイント
Create a Dataproc cluster
/ 50
Submit a job
/ 50
Dataproc: Qwik Start - コマンドライン
GSP104
概要
Dataproc は、Apache Spark クラスタと Apache Hadoop クラスタをより簡単かつ費用対効果の高い方法で実行できるようにする、高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションを数秒から数分で処理できます。Dataproc クラスタは迅速に作成でき、いつでもサイズ変更が可能です。このため、データ パイプラインの成長にクラスタが追いつかなくなることを心配する必要はありません。
このラボでは、コマンドラインを使用して Dataproc クラスタを作成する方法、クラスタで簡単な Apache Spark ジョブを実行する方法、クラスタ内のワーカーの数を変更する方法について説明します。
演習内容
このラボでは、次の方法について学びます。
- コマンドラインを使用して Dataproc クラスタを作成する
- 簡単な Apache Spark ジョブを実行する
- クラスタ内のワーカー数を変更する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
Cloud Shell をアクティブにする
Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。
- Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン をクリックします。
接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。
gcloud
は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。
- (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
-
[承認] をクリックします。
-
出力は次のようになります。
出力:
- (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
出力:
出力例:
gcloud
ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。
タスク 1. クラスタを作成する
- Cloud Shell で、次のコマンドを実行してリージョンを設定します。
- Dataproc は、同じリージョン内のクラスタ間で共有されるステージング バケットと一時バケットを作成します。Dataproc で使用するアカウントを指定していないため、Compute Engine のデフォルトのサービス アカウントが使用されます。デフォルトでは、このアカウントにストレージ バケットの権限はありません。これらの権限を追加しましょう。
- まず、次のコマンドを実行して PROJECT_ID と PROJECT_NUMBER を取得します。
- 次のコマンドを実行し、Compute Engine のデフォルトのサービス アカウントにストレージ管理者のロールを追加します。
- 次のコマンドを実行して、サブネットワークで限定公開の Google アクセスを有効にします。
- 次のコマンドを実行し、e2-standard-4 VM とデフォルトの Cloud Dataproc 設定を使用して
example-cluster
というクラスタを作成します。
- クラスタのゾーンを確認するよう求められたら、「Y」と入力します。
クラスタの構築には数分かかります。
「Created」(作成完了)と表示されたら、次の手順に進みます。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。Dataproc クラスタが正常に作成されている場合は、評価スコアが表示されます。
タスク 2. ジョブを送信する
- 次のコマンドを実行し、Pi の概算値を計算するサンプルの Spark ジョブを送信します。
このコマンドでは、以下が指定されています。
-
Spark ジョブを
example-cluster
クラスタで実行すること - ジョブの Pi 計算アプリケーションの main メソッドが含まれる
class
- ジョブのコードが含まれる jar ファイルの場所
- ジョブに渡すパラメータ。この場合は、タスクの個数(
1000
)
ジョブの実行中の出力と最終出力がターミナル ウィンドウに表示されます。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。ジョブが正常に送信されている場合は、評価スコアが表示されます。
タスク 3. クラスタを更新する
- クラスタ内のワーカー数を 4 に変更するには、次のコマンドを実行します。
クラスタの更新内容の詳細がコマンドの出力に表示されます。
- 同じコマンドを使って、ワーカーノードの数を減らすことができます。
これで、Google Cloud から gcloud
コマンドラインを使用して Dataproc クラスタを作成し、ワーカーの数を調整できるようになりました。
タスク 4. 理解度チェック
今回のラボで学習した内容の理解を深めていただくため、以下の多肢選択式問題を用意しました。正解を目指して頑張ってください。
お疲れさまでした
コマンドラインを使用して Dataproc クラスタを作成および変更し、ジョブを送信する方法を学習しました。
次のステップと詳細情報
このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 8 月 29 日
ラボの最終テスト日: 2024 年 8 月 29 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。