チェックポイント
Create a Cloud Storage bucket
/ 50
Run an Example Pipeline Remotely
/ 50
Dataflow: Qwik Start - Python
GSP207
概要
Apache Beam SDK は、データ パイプライン用のオープンソースのプログラミング モデルです。Google Cloud では、Apache Beam プログラムを使用してパイプラインを定義し、Dataflow を使用してパイプラインを実行できます。
このラボでは、(Apache Beam SDK for Python を使用して)Dataflow 用の Python 開発環境をセットアップし、サンプルの Dataflow パイプラインを実行します。
演習内容
このラボでは、次の方法について学びます。
- Dataflow パイプラインの結果を保存するための Cloud Storage バケットを作成する
- Apache Beam SDK for Python をインストールする
- Dataflow パイプラインをリモートで実行する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
Cloud Shell をアクティブにする
Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。
- Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン をクリックします。
接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。
gcloud
は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。
- (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
-
[承認] をクリックします。
-
出力は次のようになります。
出力:
- (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
出力:
出力例:
gcloud
ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。
リージョンを設定する
- Cloud Shell で次のコマンドを実行して、このラボのプロジェクト リージョンを設定します。
Dataflow API が有効になっていることを確認する
必要な API にアクセスできることを確認するには、Dataflow API への接続をリセットします。
-
Cloud コンソールの上部の検索バーに「Dataflow API」と入力します。検索結果の「Dataflow API」をクリックします。
-
[管理] をクリックします。
-
[API を無効にする] をクリックします。
確認を求められたら、[無効にする] をクリックします。
- [有効にする] をクリックします。
API が再度有効になると、ページに無効にするオプションが表示されます。
タスク 1. Cloud Storage バケットを作成する
Dataflow を使用してパイプラインを実行すると、結果が Cloud Storage バケットに保存されます。このタスクでは、後のタスクで実行するパイプラインの結果を保存するための Cloud Storage バケットを作成します。
- ナビゲーション メニュー()で、[Cloud Storage] > [バケット] をクリックします。
- [バケットを作成] をクリックします。
- [バケットの作成] ダイアログ内で、以下の属性を指定します。
-
名前: バケット名を一意にするには、
-bucket という名前を使用します。バケットの名前空間はグローバルであり、一般公開されるため、バケット名に機密情報を含めないでください。 - ロケーション タイプ: Multi-region
-
ロケーション:
us
- バケットデータが保存されるロケーション。
-
[作成] をクリックします。
-
[公開アクセスの防止] というメッセージが表示されたら、[確認] をクリックします。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。タスクが正常に完了すると、評価スコアが付与されます。
タスク 2. Apache Beam SDK for Python をインストールする
- サポートされている Python バージョンを使用していることを確認するために、まず
Python3.9
Docker イメージを実行します。
このコマンドによって、Docker コンテナと Python 3.9 の最新の安定バージョンが pull され、コマンドシェルが開き、コンテナ内で次のコマンドが実行されます。
- コンテナが実行された後、仮想環境から次のコマンドを実行して、最新バージョンの Apache Beam SDK for Python をインストールします。
依存関係に関連する警告がいくつか表示されます。このラボでは、それらの警告は無視しても問題ありません。
- 次のコマンドを実行して、サンプルの
wordcount.py
をローカルで実行します。
次のようなメッセージが表示される場合があります。
このメッセージは無視しても問題ありません。
- これで、ローカル クラウド環境にあるファイルを一覧表示し、
OUTPUT_FILE
の名前を取得できます。
-
OUTPUT_FILE
の名前をコピーし、cat
でその内容を表示します。
結果として、ファイル内の各単語とその出現回数が表示されます。
タスク 3. サンプルの Dataflow パイプラインをリモートで実行する
- 環境変数 BUCKET に、作成したバケットを設定します。
- サンプルの
wordcount.py
をリモートで実行してみましょう。
出力に次のメッセージが表示されるまで待ちます。
ラボの手順を続行します。
タスク 4. Dataflowジョブが完了したことを確認する
- ナビゲーション メニューを開き、サービスの一覧から [Dataflow] をクリックします。
最初は、wordcount ジョブの [ステータス] が [実行中] と表示されているはずです。
- 名前をクリックして処理状況を確認します。すべてのチェックボックスをオフにすると、Cloud Shell のログを引き続き監視できます。
ステータスが [完了] になったら処理が完了しています。
完了したタスクをテストする
[進行状況を確認] をクリックして、実行したタスクを確認します。タスクが正常に完了すると、評価スコアが付与されます。
-
Cloud コンソールで、ナビゲーション メニュー > [Cloud Storage] の順にクリックします。
-
バケットの名前をクリックします。バケットに results および staging ディレクトリがあることを確認できます。
-
results フォルダをクリックすると、ジョブで作成された出力ファイルを確認できます。
-
ファイルをクリックして、中に記載されている単語数を確認します。
タスク 5. 理解度チェック
今回のラボで学習した内容の理解を深めていただくために、以下の多岐選択問題を用意しました。正解を目指して頑張ってください。
お疲れさまでした
(Apache Beam SDK for Python を使用して)Dataflow 用の Python 開発環境をセットアップする方法を学習し、サンプルの Dataflow パイプラインを実行しました。
次のステップと詳細情報
このラボは Qwik Start と呼ばれるラボシリーズの一部です。これらのラボでは、Google Cloud で利用できる多くの機能を体験できます。Google Cloud Skills Boost カタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。
このラボの基になった書籍『Data Science on the Google Cloud Platform(O'Reilly Media, Inc)』を入手することもできます。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 2 月 4 日
ラボの最終テスト日: 2023 年 5 月 4 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。