
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Query the NYC collision data
/ 30
Query the most popular bike route by gender
/ 30
Creating datacatalog template and tag
/ 40
Data Catalog は非推奨となり、2026 年 1 月 30 日に廃止されます。このラボは、引き続き必要に応じて実行することができます。
Data Catalog のユーザー、ワークロード、コンテンツを Dataplex Catalog に移行する手順については、「Data Catalog から Dataplex Catalog への移行」(https://cloud.google.com/dataplex/docs/transition-to-dataplex-catalog)をご覧ください。
Data Catalog は、Dataplex 内のスケーラブルなフルマネージド型メタデータ管理サービスです。
データアセットの管理は、適切なツールがないと、時間と費用がかかる可能性があります。Data Catalog は、組織がデータアセットを検索、整理、説明できる、一元化された場所を提供します。
Data Catalog では、主に 2 つの操作を行います。
このラボでは、次の方法について学びます。
最重要: ラボを開始する前に個人または企業の Gmail アカウントからログアウトするか、このラボをシークレット モードで実行してください。これにより、ラボの受講中にログインによる混乱を避けることができます。
まだ開始していない場合は、[ラボを開始] をクリックします。
ヒント: ラボ環境で 2 つの Google Cloud プロジェクト、2 つの事前入力データセット、2 つのユーザー アカウントが自動生成されるまで 3~5 分かかります。ラボのリソースの準備が完了していなくても、説明を読み進めて構いません(以下のシナリオを読み終えるまで、ログインはしません)。
ラボで [Open Bike Console] をクリックするか、ブラウザの新しいウィンドウをシークレット モードで開いて、Cloud コンソールに移動します。提供されているアカウントでまだログインせずに、シナリオを読み進めてください。どのアカウントを使用するかは、後で説明します。
重要な注意事項: ラボは開始すると一時停止できません。ラボを途中で終了してしまうと、実行中の受講者のプロジェクトはすべて削除されます。
あなたはニューヨーク市で事業を展開する運輸会社の社長です。会社には、ニューヨーク市内の移動情報(自転車と自動車)について収集したデータセットにクエリを実行するデータ分析チームがいます。
課題
各データ エンジニアリング チームは、データへのアクセスと請求を管理しやすくするために、独自に用意した Google Cloud プロジェクト内でデータセットをそれぞれ保有しています。個々のチームにとっては良い方法ですが、分析チームにとってはデータセットを見つけることが困難になります。
状況をさらに複雑にしている要因として、社内の BI チームにはレベルの異なるデータ アナリストが存在しています。
カタログ化する複数のプロジェクトとデータセットを使って実際の企業環境に近い状況をシミュレーションするために、エンジニアリング チームから既存のリソースへのアクセス権を付与されています(ラボではリソースがプリロードされるため、リソースの作成は不要です)。
上の図が示すように、以下の項目にアクセスするためのログイン情報がチームから提供されています。
アクセス制限に関する次の注意点を追加しました。
すでに説明したとおり、データ エンジニアリング チームから 3 つのプロジェクトが提供されていて、各プロジェクトにはニューヨーク市の異なるデータセットが含まれます。オーナーロールですべてのデータセットを表示し、クエリを実行できることを確認します。
このラボ用に提供されている、オーナー(完全アクセス権を持つ管理者)のメールアドレスとパスワード(いずれも自動生成)を使ってログインします。
利用規約が表示されたら同意します。
NYC Motor Vehicle Collisions Project
用の Qwiklabs のプロジェクト名(自動生成)を参照して、[プロジェクトを選択] ポップアップでその文字列値を見つけます。最初に BigQuery のデータセットを手動で検索して、クエリを実行します。その後、このラボに戻って Data Catalog を使用します。
オーナーロールで new_york_mv_collisions
データセットを表示できることを確認します。
BigQuery の [エクスプローラ] でプロジェクト名をクリックして、閲覧可能なデータセットの表示に切り替えます。
new_york_mv_collisions
データセットが表示されることを確認します。
new_york_mv_collisions
データセットをクリックして、データセット内のテーブルを開きます。
nypd_mv_collisions
テーブルをクリックして、スキーマ内の項目を確認します。
スキーマは、下の図のように表示されます。
次の質問に回答してください。
このテーブルには電話番号やメールアドレスのような個人を特定できる情報はありませんが、チーム以外にこのデータセットを共有する場合には注意が必要です。
このラボの後半では、制限付きデータセットへのアクセス方法と、組織で使えるように Data Catalog を使ってデータセットとテーブルにリッチ メタデータで事前にタグ付けする方法を重点的に説明します。
完全アクセス権を持つオーナーとしてログインしたので、プロジェクトとデータセットの両方を表示してアクセスできることを確認しましょう。以下のクエリを実行できることを確認します。
ニューヨーク市の自動車事故発生の要因上位 10 項目を調べる
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
ページの上部にある [プロジェクトを選択] をクリックします。
[すべて] タブをクリックします。
自動生成された正しいプロジェクト ID を参照して、シェアサイクル情報データセットを見つけます。
new_york_citibike
] > [citibike_trips
] テーブルを開きます。スキーマ、詳細、プレビューが表示されたら、次の質問に回答します。
NYC Citi Bike 公開データセットは、シェアサイクル サービスを利用した人の個々の移動情報(貸出場所と返却場所)とその他の項目を記録しています。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
次は、機密データが含まれるデータセットとテーブルにタグ付けする方法を確認します。
これまでのラボでは、データ エンジニアリング チームから提供された、最高権限のオーナー アカウントとしてログインしてきました。
ここで、データ アナリスト ユーザーのアクセスを以下のように制限することを、エンジニアリング チームに依頼しました。
データ アナリストが表示できるデータセット:
データ アナリストが表示できないデータセット:
プロフィール アイコンをクリックします。
ログアウトします。
[別のアカウントを使用] をクリックします。
Data Analyst User
のメールと共有パスワードで、Google Cloud にもう一度ログインします。
[プロジェクトを選択] の下に、自動生成された Qwiklabs のプロジェクトが 2 つではなく、1 つしか表示されないことを確認します。
アクセスできる Qwiklabs プロジェクトを選択します。
BigQuery に移動します。
BigQuery では、プロジェクトが [エクスプローラ] セクションに固定または表示されていない場合でも、アクセス権があればクエリを実行できます。プロジェクト ID を使い、データ アナリスト ユーザーとしてニューヨーク市の自動車衝突情報データセットに対して直接クエリを実行してみます。
NYC Motor Vehicle Collisions Project
のプロジェクト ID に置き換えます。アクセス拒否のエラー メッセージの受信でデータ アナリストのアクセスレベルを検証します。
プロジェクト、データセット、クエリへのアクセスに関して、オーナーロール(幅広い権限)とデータ アナリスト(最も制限の厳しい権限)のそれぞれに付与されている異なる権限とアクセス権について確認しました。
次は、Data Catalog の検索機能を使用して、表示されていないデータセットを検索できるかどうかを確認します。BigQuery でブロックされていても、データ アナリストはデータセットを検索できるでしょうか。
データセットと、異なるロールに付与されるアクセスレベルについて理解したところで、次に、同じサンプル シナリオを使って先ほど説明した課題に対処します。
課題:
最近の規制要件を遵守するため、PII(個人を特定できる情報)が含まれるデータセットを簡単にフラグできる方法が必要です。Data Catalog サービスでこれらの課題に対処して、このタスクを完了してください。
Data Catalog の検索バーに「qwiklabs-gcp
」と入力し、外部の Qwiklabs リソースを除外します。
データ アナリストに表示される画面が次のようになっていることを確認します。
どのプロジェクトにログインしているかにかかわらず、Data Catalog はユーザーのロールでアクセスできるすべての BigQuery データセットを検索結果として表示します。
new_york_mv_collisions
は存在しますが(オーナーとして、このデータセットに対してクエリを実行しました)、データ アナリスト ユーザーとしてログインしているときは、Data Catalog に表示されません。
なぜでしょう。次は、Data Catalog レベルで行われるアクセス制御のしくみについて詳しく見ていきます。
Google Cloud リソースを検索、検出、表示する前に、Data Catalog はユーザーの IAM ロールを確認して、BigQuery、Pub/Sub などのソースシステムでリソースにアクセスするためのメタデータ読み取り権限が付与されていることを確かめます。
例: Data Catalog は、BigQuery テーブルのメタデータを表示する前に、bigquery.tables.get
権限が含まれるロールがユーザーに付与されていることを確認します。
new_york_citibike
となっている項目をクリックします。これは、閲覧が許可されているシェアサイクル情報データセットのサブタスクです。Data Catalog では、BigQuery テーブルに対して次の項目にタグ付けできます。
[タグを付ける] ボタンをクリックしてみます。
以下のようなエラーが表示されることを確認します。
Data Catalog では、データ アナリスト ロールでメタデータを検索することはできても、新しいタグを付けることはできないことがわかります。
ここからは、Data Catalog のタグ付け権限とタグ テンプレートの仕組みについて見ていきます。
Data Catalog タグ テンプレートを使うと、データアセットに関する一般的なメタデータを単一の場所で作成および管理できます。タグはデータアセットに添付されているため、Data Catalog システムで検出できます。この機能により、データアセットについてコンテキスト メタデータを利用するアプリケーションをさらに構築することもできます。
ユーザーがタグ テンプレートを作成するには、該当するリソースへの編集権限(このラボでは BigQuery)と datacatalog.tagTemplateUser
(テンプレートがすでに作成済みの場合)が少なくとも必要です。詳細については、Data Catalog IAM ガイドをご覧ください。
新しいタグ テンプレートを作成する必要がある場合は、少なくとも datacatalog.tagTemplateCreator
または roles/datacatalog.tagTemplateOwner
のロールが必要です。後者の場合、既存テンプレートと追加の管理者権限の削除が許可されます。
Data Catalog の事前定義 Cloud IAM ロールのうち、以下は最も一般的なものです。
roles/datacatalog.tagTemplateViewer
roles/datacatalog.tagTemplateUser
roles/datacatalog.tagTemplateCreator
roles/datacatalog.tagTemplateOwner
roles/datacatalog.tagTemplateOwner
権限が付与されたオーナーロールとしてログインします。
以前使用したニューヨーク市のシェアサイクル プロジェクト
を選択します。
Data Catalog に移動します。
新しいタグ テンプレートを作成するには、[タグ テンプレート] > [タグ テンプレートを作成] をクリックします。
新しいテンプレートの基本情報を入力します。名前として「New York Datasets」と入力します。
[ロケーション] として [
[フィールドを追加] をクリックします。
新しいフィールドに「Contains PII」という名前を付け、[このフィールドを必須にする] をオンにします。次に、[ブール値] を選択してから、[完了] をクリックします。
[フィールドを追加] をクリックします。
フィールドに「PII Type」という名前を付け、タイプとして [列挙] を選択してから、次の値を追加します。この作業が終わったら、[完了] をクリックします。
[フィールドを追加] をクリックします。
フィールドに「Data Owner Team」という名前を付け、[このフィールドを必須にする] をオンにします。タイプとして [列挙] を選択して次の値を追加します。この作業が終わったら [完了] をクリックします。
[このテンプレートを使用していないエントリを検索] をクリックします。
new_york_mv_collisions データセットをクリックします。
データセット名の下にタグが 1 つも表示されていないことを確認したら、[タグを付ける] をクリックします。
先ほど作成したテンプレートを選択し、[OK] をクリックします。
プルダウン メニューを使用してテンプレート フィールドに以下の値を入力し、[保存] をクリックします。
アセットにさらに細かくタグ付けをするには、テーブルと列のレベルでタグを適用できます。
先ほど検索したアセットに戻って、[nypd_mv_collisions
] テーブルをクリックします。
[タグを付ける] をクリックし、[スキーマと列のタグ] の以下の項目を設定します。
テーブル: nypd_mv_collisions
列: location
タグ テンプレート: New York Datasets
タグの値:
[保存] をクリックします。
位置情報の PII として項目をタグ付けし、テンプレート名をクリックするとタグが表示されることを確認します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タグ付けが完了したので、先ほど追加したタグを使ってカタログを検索できます。
tag:qwiklabs-[現在のプロジェクト].new_york_datasets.contains_pii
をコピーして検索バーに貼り付け、プロジェクト ID プレフィックスを現在の Qwiklabs プロジェクト ID に変更します。以下の作業を行いながら Data Catalog について詳しく学びました。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 4 月 30 日
ラボの最終テスト日: 2024 年 4 月 30 日
Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
One lab at a time
Confirm to end all existing labs and start this one