チェックポイント
Enable the Data Catalog API
/ 10
Create the PostgreSQL Database
/ 15
Create a Service Account for postgresql
/ 15
Execute PostgreSQL to Data Catalog connector
/ 15
Create the MySQL Database
/ 15
Create a Service Account for MySQL
/ 15
Execute MySQL to Data Catalog connector
/ 15
MySQL、PostgreSQL、SQL Server から Data Catalog コネクタを構築して実行する
GSP814
概要
Dataplex は、データレイク、データ ウェアハウス、データマートに分散したデータの一元的な検出、管理、モニタリング、統制を実現し、大規模な分析を支援するインテリジェントなデータ ファブリックです。
Data Catalog は、Dataplex 内のスケーラブルなフルマネージド型メタデータ管理サービスです。データ検出のためのシンプルで使いやすい検索インターフェースと、テクニカル メタデータおよびビジネス メタデータの両方を取得できる柔軟で強力なカタログ化システムを提供しています。また、Cloud Data Loss Prevention(DLP)および Cloud Identity and Access Management(IAM)とのインテグレーションにより、セキュリティとコンプライアンスの強固な基盤を備えています。
Data Catalog の使用
Dataplex 内の Data Catalog を使用すると、アクセス可能なアセットを検索して、データアセットにタグを付けて検出とアクセス制御をサポートできます。タグによって特定のデータアセットにカスタム メタデータ フィールドを追加できるため(例: 保護対象データや機密データを含む特定のアセットにタグを付ける)、簡単にアセットを識別して取得できるようになります。また、再利用可能なタグ テンプレートを作成すると、同じタグを別のデータアセットに迅速に割り当てることができます。
目標
このラボでは、次の方法について学びます。
- Data Catalog API を有効にする
- SQL Server、PostgreSQL、MySQL 用の Dataplex コネクタを構成する
- Dataplex 内の Data Catalog で SQL Server、PostgreSQL、MySQL のエントリを検索する
前提条件
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
Cloud Shell をアクティブにする
Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。
- Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン をクリックします。
接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。
gcloud
は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。
- (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
-
[承認] をクリックします。
-
出力は次のようになります。
出力:
- (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
出力:
出力例:
gcloud
ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。
タスク 1. Data Catalog API を有効にする
-
ナビゲーション メニューを開き、[API とサービス] > [ライブラリ] を選択します。
-
検索バーに「Data Catalog」と入力し、[
Google Cloud Data Catalog API
] を選択します。 -
続いて [有効にする] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 2. SQL Server から Dataplex
まず、環境を設定します。
-
コンソールの右上にある Cloud Shell をアクティブにするアイコンをクリックして、新しい Cloud Shell セッションを開きます。
-
次のコマンドを実行して、プロジェクト ID を環境変数として設定します。
SQL Server データベースを作成する
- Cloud Shell セッションで、次のコマンドを実行してスクリプトをダウンロードし、SQL Server インスタンスを作成してデータを追加します。
- 現在の作業ディレクトリを、ダウンロードしたディレクトリに変更します。
- 次のコマンドを実行して、リージョンを
us-central1
から、実際に割り当てられているデフォルトのリージョンに変更します。
-
init-db.sh
スクリプトを実行します。
これで、SQL Server インスタンスが作成され、ランダムなスキーマが追加されます。
Error: Failed to load "tfplan" as a plan file
] が表示された場合は、init-db
スクリプトを再実行してください。
完了するまでに 5~10 分ほど
かかります。以下の出力が表示されたら次に進みます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
サービス アカウントを設定する
- 次のコマンドを実行して、サービス アカウントを作成します。
- サービス アカウント キーを作成し、ダウンロードします。
- サービス アカウントに Data Catalog の管理者ロールを追加します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
SQL Server から Dataplex へのコネクタを実行する
こちらの GitHub リポジトリから、SQL Server コネクタを自分で構築できます。
簡単に行えるように、Docker イメージを使用します。
必要な変数は、Terraform 構成によって出力されました。
- ディレクトリを Terraform スクリプトの場所に変更します。
- 環境変数を取得します。
- サンプルコードのルート ディレクトリに戻ります。
- 次のコマンドを実行して、コネクタを実行します。
すぐに次の出力が表示されます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
Dataplex で SQL Server エントリを検索する
-
スクリプトが終了したら、ナビゲーション メニューを開き、サービスのリストから [Dataplex] を選択します。
-
[Dataplex] ページで [タグ テンプレート] をクリックします。
sqlserver タグ テンプレートが一覧表示されます。
- 次に、[エントリ グループ] を選択します。
[エントリ グループ] リストに sqlserver エントリ グループが表示されます。
-
sqlserver
エントリ グループをクリックします。コンソールには次のように表示されます。
これはエントリ グループの実際の値です。sqlserver に含まれるすべてのエントリを UI で確認できます。
-
warehouse
エントリの一つをクリックします。カスタム エントリの詳細とタグを確認します。
これはコネクタによって追加される実際の値です。これによって Dataplex 内でメタデータを検索できるようになります。
クリーンアップ
- 作成されたリソースを削除するには、次のコマンドを実行して SQL Server のメタデータを削除します。
- クリーナー コンテナを実行します。
- 次のコマンドを実行して、SQL Server データベースを削除します。
-
ナビゲーションメニューで [Dataplex] をクリックします。
-
「sqlserver」を検索します。
SQL Server のタグ テンプレートが結果に表示されなくなります。
Cloud Shell に次の出力が表示されることを確認したら、次に進みます。
次に、同じ操作を PostgreSQL インスタンスで行う方法を学習します。
タスク 3. PostgreSQL から Dataplex
PostgreSQL データベースを作成する
- Cloud Shell で次のコマンドを実行して、ホーム ディレクトリに戻ります。
- 次のコマンドを実行して、GitHub リポジトリのクローンを作成します。
- 現在の作業ディレクトリを、クローン作成したリポジトリのディレクトリに変更します。
- 次のコマンドを実行して、リージョンを
us-central1
から、実際に割り当てられているデフォルトのリージョンに変更します。
-
init-db.sh
スクリプトを実行します。
これで、PostgreSQL インスタンスが作成され、ランダムなスキーマが追加されます。完了するまでに 10~15 分ほど
かかります。
Error: Failed to load "tfplan" as a plan file
] が表示された場合は、init-db
スクリプトを再実行してください。
すぐに次の出力が表示されます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
サービス アカウントを設定する
- サービス アカウントを作成します。
- サービス アカウント キーを作成し、ダウンロードします。
- サービス アカウントに Data Catalog の管理者ロールを追加します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
PostgreSQL から Dataplex へのコネクタを実行する
こちらの GitHub リポジトリから、PostgreSQL コネクタを自分で構築できます。
簡単に行えるように、Docker イメージを使用します。
必要な変数は、Terraform 構成によって出力されました。
- ディレクトリを Terraform スクリプトの場所に変更します。
- 環境変数を取得します。
- サンプルコードのルート ディレクトリに戻ります。
- コネクタを実行します。
すぐに次の出力が表示されます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
スクリプトの結果を確認する
-
Dataplex のホームページが表示されていることを確認します。
-
[タグ テンプレート] をクリックします。
次の postgresql タグ テンプレートが表示されます。
- [エントリ グループ] をクリックします。
次の postgresql エントリ グループが表示されます
-
postgresql
エントリ グループをクリックします。コンソールには次のように表示されます。
これはエントリ グループの実際の値です。postgresql に含まれるすべてのエントリを UI で確認できます。
-
warehouse
エントリの一つをクリックします。カスタム エントリの詳細とタグを確認します。
これはコネクタによって追加される実際の値です。これによって Dataplex 内でメタデータを検索できるようになります。
クリーンアップ
- 作成されたリソースを削除するには、次のコマンドを実行して PostgreSQL のメタデータを削除します。
- クリーナー コンテナを実行します。
- 最後に、PostgreSQL データベースを削除します。
-
ナビゲーション メニューで [Dataplex] をクリックします。
-
「PostgreSQL」を検索します。PostgreSQL のタグ テンプレートが結果に表示されなくなります。
Cloud Shell に次の出力が表示されることを確認したら、次に進みます。
次に、同じ操作を MySQL インスタンスで行う方法を学習します。
タスク 4. MySQL から Dataplex
MySQL データベースを作成する
- Cloud Shell で次のコマンドを実行して、ホーム ディレクトリに戻ります。
- 次のコマンドを実行してスクリプトをダウンロードし、MySQL Server インスタンスを作成してデータを追加します。
- 現在の作業ディレクトリを、クローン作成したリポジトリのディレクトリに変更します。
- 次のコマンドを実行して、リージョンを
us-central1
から、実際に割り当てられているデフォルトのリージョンに変更します。
-
init-db.sh
スクリプトを実行します。
これで、MySQL インスタンスが作成され、ランダムなスキーマが追加されます。数分で次のような出力が表示されます。
Error: Failed to load "tfplan" as a plan file
] が表示された場合は、init-db
スクリプトを再実行してください。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
サービス アカウントを設定する
- 次のコマンドを実行して、サービス アカウントを作成します。
- サービス アカウント キーを作成し、ダウンロードします。
- サービス アカウントに Data Catalog の管理者ロールを追加します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
MySQL から Dataplex へのコネクタを実行する
こちらの GitHub リポジトリから、MySQL コネクタを自分で構築できます。
簡単に行えるように、このラボでは Docker イメージを使用します。
必要な変数は、Terraform 構成によって出力されました。
- ディレクトリを Terraform スクリプトの場所に変更します。
- 環境変数を取得します。
- サンプルコードのルート ディレクトリに戻ります。
- コネクタを実行します。
すぐに次の出力が表示されます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
スクリプトの結果を確認する
-
Dataplex のホームページが表示されていることを確認します。
-
[タグ テンプレート] をクリックします。
次の mysql タグ テンプレートが表示されます。
- [エントリ グループ] をクリックします。
次の mysql エントリ グループが表示されます
-
mysql
エントリ グループをクリックします。コンソールには次のように表示されます。
これはエントリ グループの実際の値です。MySQL に含まれるすべてのエントリを UI で確認できます。
-
warehouse
エントリの一つをクリックします。カスタム エントリの詳細とタグを確認します。
これはコネクタによって追加される実際の値です。これによって Dataplex 内でメタデータを検索できるようになります。
クリーンアップ
- 作成されたリソースを削除するには、次のコマンドを実行して MySQL のメタデータを削除します。
- クリーナー コンテナを実行します。
- 最後に、PostgreSQL データベースを削除します。
-
ナビゲーションメニューで [Dataplex] をクリックします。
-
「MySQL」を検索します。MySQL のタグ テンプレートが結果に表示されなくなります。
Cloud Shell に次の出力が表示されることを確認したら、次に進みます。
お疲れさまでした
これで完了です。このラボでは、MySQL、PostgreSQL、SQL Server から Dataplex へのコネクタを構築して実行する方法を学習しました。また、Dataplex 内の Data Catalog で SQL Server、PostgreSQL、MySQL のエントリを検索する方法も学習しました。これらの知識を活かして、独自のコネクタを構築しましょう。
コースを完了する
このセルフペース ラボは、「BigQuery for Data Warehousing」、「BigQuery for Marketing Analysts」、「Data Catalog Fundamentals」コースの一部です。受講可能なすべてのコースについては、Google Cloud Skills Boost カタログをご覧ください。
次のステップと詳細情報
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 10 月 17 日
ラボの最終テスト日: 2023 年 10 月 17 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。