チェックポイント
Create a Dataplex lake with two zones and two assets
/ 20
Create and apply a tag template to a zone
/ 20
Assign a Dataplex IAM role to another user
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Build a Data Mesh with Dataplex: チャレンジラボ
GSP514
概要
チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。
チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。
100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。
設定
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
チャレンジ シナリオ
ジュニア データ エンジニアという新たな役割を任されて間もないあなたは、各チームが Dataplex のアセットを作成して管理できるようサポートしており、
これらのタスクのスキルや知識がすでにあると想定されています。
チャレンジ
あなたに任務が与えられました。それは、新たに結成された開発チームが Dataplex を使用して新しいデータメッシュを構築できるようサポートすることです。そのためには、複数のゾーンとアセットを含む Dataplex レイクを作成するほか、新しいレイク内のアセットにタグを付けて、データ品質を評価する必要があり、具体的には、次のタスクを行うよう依頼されています。
- 2 つのゾーンと 2 つのアセットを含む Dataplex レイクを作成する。
- タグ テンプレートを作成して適用し、ゾーン全体を保護対象データとしてタグ付けする。
- Dataplex IAM ロールを別のユーザーに割り当てる。
- データ品質仕様ファイルを作成して Cloud Storage にアップロードする。
- Dataplex でデータ品質ジョブを定義して実行する。
以下のような基準に従う必要があります。
- 必要な API(Dataplex、Data Catalog、Dataproc など)が正常に有効になっていることを確認する。
- 特別な指示がない限り、すべてのリソースを
リージョンに作成する。
それぞれのタスクについて以下に詳しく説明します。それでは始めましょう。
タスク 1. 2 つのゾーンと 2 つのアセットを含む Dataplex レイクを作成する
ステップ 2 の Cloud Storage バケットと BigQuery データセットは、このラボで事前に作成されています。
- 次の 2 つのリージョン ゾーンを持つ Sales Lake という名前の Dataplex レイクを作成します。
- Raw Customer Zone という名前の未加工ゾーン
- Curated Customer Zone という名前のキュレートされたゾーン
- 事前に作成されたアセットの 1 つを次の各ゾーンにアタッチします。
- 未加工ゾーンには、
-customer-online-sessions という名前の Cloud Storage バケットを Customer Engagements という名前の新しいアセットとしてアタッチします。 - キュレートされたゾーンには、
.customer_orders という名前の BigQuery データセットを Customer Orders という名前の新しいアセットとしてアタッチします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 2. タグ テンプレートを作成してゾーンに適用する
- 次の 2 つの列挙型フィールドを含む、Protected Customer Data Template という名前の公開タグ テンプレートを作成します。
- 最初のフィールド Raw Data Flag には、
Yes
とNo
という 2 つの値を指定できます。 - 2 番目のフィールド Protected Contact Information Flag には、
Yes
とNo
という 2 つの値を指定できます。
- このテンプレートを使用して、両方のフラグに値
Yes
を設定して Raw Customer Zone にタグを付けます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 3. Dataplex IAM ロールを別のユーザーに割り当てる
- 最小権限の原則を使用して、適切な Dataplex IAM ロールをユーザー 2(
)に割り当てます。これにより、ユーザー 2 は新しい Cloud Storage ファイルを Customer Engagements という名前の Dataplex アセットにアップロードできるようになります。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 4. データ品質仕様ファイルを作成して Cloud Storage にアップロードする
ステップ 2 の Cloud Storage バケットは、このラボで事前に作成済みです。
- dq-customer-orders.yaml という名前のデータ品質仕様ファイルを次の仕様で作成します。
- NOT NULL ルールを customer_orders.ordered_items テーブルの user_id 列に適用
- NOT NULL ルールを customer_orders.ordered_items テーブルの order_id 列に適用
- このファイルを
-dq-config という名前の Cloud Storage バケットにアップロードします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 5. Dataplex でデータ品質ジョブを定義して実行する
ステップ 1 の BigQuery データセットは、このラボで事前に作成済みです。
- 次の仕様で dq-customer-orders.yaml ファイルを使用してデータ品質ジョブを定義します。
プロパティ | 値 |
---|---|
データ品質ジョブ名 | Customer Orders Data Quality Job |
結果の BigQuery 宛先テーブル | |
ユーザー サービス アカウント | Compute Engine のデフォルトのサービス アカウント |
- データ品質ジョブを直ちに実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
お疲れさまでした
次のスキルバッジを獲得する
このセルフペース ラボは、「Build a Data Mesh with Dataplex」スキルバッジ クエストの一部です。このクエストを完了すると成果が認められて上のようなバッジが贈られます。獲得したバッジを履歴書やソーシャル プラットフォームに記載し、#GoogleCloudBadge を使用して成果を公表しましょう。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 7 月 4 日
ラボの最終テスト日: 2023 年 7 月 4 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。