arrow_back

Dataproc: Qwik Start - コマンドライン

ログイン 参加
知識をテストして、コミュニティで共有しましょう
done
700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

Dataproc: Qwik Start - コマンドライン

ラボ 30分 universal_currency_alt クレジット: 1 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
知識をテストして、コミュニティで共有しましょう
done
700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

GSP104

Google Cloud セルフペース ラボ

概要

Dataproc は、Apache Spark クラスタと Apache Hadoop クラスタをより簡単かつ費用対効果の高い方法で実行できるようにする、高速で使いやすいフルマネージド クラウド サービスです。これまで数時間から数日かかっていたオペレーションを数秒から数分で処理できます。Dataproc クラスタは迅速に作成でき、いつでもサイズ変更が可能です。このため、データ パイプラインの成長にクラスタが追いつかなくなることを心配する必要はありません。

このラボでは、コマンドラインを使用して Dataproc クラスタを作成する方法、クラスタで簡単な Apache Spark ジョブを実行する方法、クラスタ内のワーカーの数を変更する方法について説明します。

演習内容

このラボでは、次の方法について学びます。

  • コマンドラインを使用して Dataproc クラスタを作成する
  • 簡単な Apache Spark ジョブを実行する
  • クラスタ内のワーカー数を変更する

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
  • ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。

    • [Google Cloud コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。

    ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。

    {{{user_0.username | "Username"}}}

    [ラボの詳細] パネルでも [ユーザー名] を確認できます。

  4. [次へ] をクリックします。

  5. 以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。

    {{{user_0.password | "Password"}}}

    [ラボの詳細] パネルでも [パスワード] を確認できます。

  6. [次へ] をクリックします。

    重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  7. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスのリストを含むメニューを表示するには、左上のナビゲーション メニューをクリックします。ナビゲーション メニュー アイコン

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。

  1. Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン 「Cloud Shell をアクティブにする」アイコン をクリックします。

接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。

  1. (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
gcloud auth list
  1. [承認] をクリックします。

  2. 出力は次のようになります。

出力:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
gcloud config list project

出力:

[core] project = <project_ID>

出力例:

[core] project = qwiklabs-gcp-44776a13dea667a6 注: Google Cloud における gcloud ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。

タスク 1. クラスタを作成する

  1. Cloud Shell で、次のコマンドを実行してリージョンを設定します。
gcloud config set dataproc/region {{{project_0.default_region | Region}}}
  1. Dataproc は、同じリージョン内のクラスタ間で共有されるステージング バケットと一時バケットを作成します。Dataproc で使用するアカウントを指定していないため、Compute Engine のデフォルトのサービス アカウントが使用されます。デフォルトでは、このアカウントにストレージ バケットの権限はありません。これらの権限を追加しましょう。
  • まず、次のコマンドを実行して PROJECT_ID と PROJECT_NUMBER を取得します。
PROJECT_ID=$(gcloud config get-value project) && \ gcloud config set project $PROJECT_ID PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format='value(projectNumber)')
  • 次のコマンドを実行し、Compute Engine のデフォルトのサービス アカウントにストレージ管理者のロールを追加します。
gcloud projects add-iam-policy-binding $PROJECT_ID \ --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \ --role=roles/storage.admin
  1. 次のコマンドを実行して、サブネットワークで限定公開の Google アクセスを有効にします。
gcloud compute networks subnets update default --region={{{project_0.default_region | REGION }}} --enable-private-ip-google-access
  1. 次のコマンドを実行し、e2-standard-4 VM とデフォルトの Cloud Dataproc 設定を使用して example-cluster というクラスタを作成します。
gcloud dataproc clusters create example-cluster --worker-boot-disk-size 500 --worker-machine-type=e2-standard-4 --master-machine-type=e2-standard-4
  1. クラスタのゾーンを確認するよう求められたら、「Y」と入力します。

クラスタの構築には数分かかります。

Waiting for cluster creation operation...done. Created [... example-cluster]

「Created」(作成完了)と表示されたら、次の手順に進みます。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。Dataproc クラスタが正常に作成されている場合は、評価スコアが表示されます。

Dataproc クラスタを作成する

タスク 2. ジョブを送信する

  • 次のコマンドを実行し、Pi の概算値を計算するサンプルの Spark ジョブを送信します。
gcloud dataproc jobs submit spark --cluster example-cluster \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

このコマンドでは、以下が指定されています。

  • Spark ジョブを example-cluster クラスタで実行すること
  • ジョブの Pi 計算アプリケーションの main メソッドが含まれる class
  • ジョブのコードが含まれる jar ファイルの場所
  • ジョブに渡すパラメータ。この場合は、タスクの個数(1000
注: ジョブに渡すパラメータは、2 個のダッシュ(--)の後に記述する必要があります。詳しくは、gcloud のドキュメントをご覧ください。

ジョブの実行中の出力と最終出力がターミナル ウィンドウに表示されます。

Waiting for job output... ... Pi is roughly 3.14118528 ... state: FINISHED

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。ジョブが正常に送信されている場合は、評価スコアが表示されます。

ジョブの送信

タスク 3. クラスタを更新する

  1. クラスタ内のワーカー数を 4 に変更するには、次のコマンドを実行します。
gcloud dataproc clusters update example-cluster --num-workers 4

クラスタの更新内容の詳細がコマンドの出力に表示されます。

Waiting on operation [projects/qwiklabs-gcp-7f7aa0829e65200f/regions/global/operations/b86892cc-e71d-4e7b-aa5e-6030c945ea67]. Waiting for cluster update operation...done.
  1. 同じコマンドを使って、ワーカーノードの数を減らすことができます。
gcloud dataproc clusters update example-cluster --num-workers 2

これで、Google Cloud から gcloud コマンドラインを使用して Dataproc クラスタを作成し、ワーカーの数を調整できるようになりました。

タスク 4. 理解度チェック

今回のラボで学習した内容の理解を深めていただくため、以下の多肢選択式問題を用意しました。正解を目指して頑張ってください。

お疲れさまでした

コマンドラインを使用して Dataproc クラスタを作成および変更し、ジョブを送信する方法を学習しました。

次のステップと詳細情報

このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 8 月 29 日

ラボの最終テスト日: 2024 年 8 月 29 日

Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします