チェックポイント
Create BigQuery Views
/ 50
Create BigQuery Data source
/ 50
Google データポータルによるデータの可視化
GSP197
概要
このラボでは、Google データポータルを使用して、Google BigQuery に保存されているデータを可視化する方法について説明します。
米国運輸統計局では、商業航空、マルチモーダル貨物輸送、運輸の経済効果についてのデータセットを提供しています。この情報を使用して、データ サイエンスの幅広いコンセプトや手法を示すことができます。このラボでは、米国内フライトの履歴情報が含まれるデータセットを使用します。
目標
- BigQuery ビューを作成する
- Google データポータルで BigQuery データソースを作成する
- 期間設定を含むデータポータル レポートを作成する
- BigQuery ビューを使用して複数のグラフを作成する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google コンソールを開く] をクリックします。 ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。
-
[ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。
重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後このタブで Cloud Console が開きます。
Cloud Shell をアクティブにする
Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。
- Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン をクリックします。
接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。
gcloud
は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。
- (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
-
[承認] をクリックします。
-
出力は次のようになります。
出力:
- (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
出力:
出力例:
gcloud
ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。
タスク 1. 環境を準備する
このラボでは、O'Reilly Media, Inc. の書籍『Data Science on the Google Cloud Platform, 2nd Edition』用に作成されたデータセット、コードサンプルとスクリプトを使用し、その第 3 章「Creating Compelling Dashboards」で取り上げられているデータ可視化タスクについて説明します。
Data Science on Google Cloud リポジトリのクローンを作成する
- Cloud Shell で次のコマンドを入力して、リポジトリのクローンを作成します。
- リポジトリ ディレクトリに移動します。
スキーマの探索
このラボでは BigQuery データセットを使用します。このデータセットには、米国運輸統計局から取得した 2 か月分(2015 年 1 月と 2 月)のサンプル フライトデータがあらかじめ読み込まれています。このフライトデータは、dsongcp
データセットの flights_raw
というテーブルにあります。
-
Cloud コンソールでナビゲーション メニュー()を展開し、[BigQuery] を選択します。
-
左側の [エクスプローラ] パネルで現在使用中のプロジェクトと
dsongcp
データセットを開き、flights_raw
テーブルを選択します。 -
ウィンドウの右側で [スキーマ] タブを選択し、
flights_raw
テーブルのスキーマを表示します。
BigQuery テーブルを簡単に確認するには、プレビュー機能を使用します。
- [プレビュー] タブをクリックして、
flights_raw
テーブルを表示します。
BigQuery ビューを作成する
テーブルビューをいくつか作成し、それぞれ 10 分、15 分、20 分の遅延があったフライトを簡単に確認できるようにします。これらのビューはラボで後ほど使用します。
- Cloud Shell でスクリプト
./create_views.sh
を実行します。
- 次のスクリプトを実行して、各種のしきい値の分割表を計算します。
タスク 2. データポータルに接続してデータセットを視覚的に分析する
-
新しいブラウザタブで Looker Studio を開きます。
-
必要があれば [Use it for free] をクリックします。
-
上部のメニューにある [データソース] をクリックします。
-
左上の [+ 作成] > [データソース] をクリックします。
-
国を選択し、会社名を入力します。
-
利用規約に同意し、[続行] をクリックします。
-
すべてのメール設定で [いいえ] を選択してから、[続行] をクリックします。
-
Google コネクタのリストで [BigQuery] タイルをクリックします。
-
[承認] をクリックして、データポータルから Cloud ソースにアクセスできるようにします。
-
必要があれば、ラボのアカウントが選択されていることを確認して、[許可] をクリックします。
-
[マイ プロジェクト] >
[Project-ID]
> [dsongcp] > [flights] を選択します。 -
画面の右上にある青色の [接続] ボタンをクリックします。
タスク 3. データポータルを使用して散布図を作成する
-
ページの右上にある [レポートを作成] をクリックします。
-
[レポートに追加] をクリックして、
flights
テーブルをデータソースとして追加することを確認します。 -
左上の [無題のレポート] を、目的のレポート名に置き換えます。
-
ここでは独自のグラフを作成するため、自動作成されたグラフをクリックして選択し、削除します。
-
[グラフを追加] > 散布図アイコンをクリックし、グラフを保持する四角形をレポート キャンバスに描画します。
右側のパネルの [データ] タブに、データのプロパティのリストが表示されます。
- [データ] タブで、以下の設定フィールドをクリックして、次のように変更します。
フィールド | 値 |
---|---|
ディメンション |
UNIQUE CARRIER |
指標 X |
DEP_DELAY |
指標 Y |
ARR_DELAY |
- [指標 X] プロパティのデータ型アイコン(SUM)にカーソルを合わせます。
- 鉛筆アイコンをクリックして、[指標 X] の集計方法を編集します。
-
集計方法を [平均値] に変更します。
-
集計方法のボックスの外側をクリックしてプロパティ ペインに戻ります。
-
同じ操作を [指標 Y] についても行い、集計方法を [合計] から [平均値] に変更します。
-
[スタイル] タブをクリックします。
-
[スタイル] メニューで、[トレンドライン] プルダウンをクリックして [線形] を選択します。
-
レポートの上にあるリボンで、[コントロールを追加] > [期間設定] をクリックします。
- グラフの下にラベルのサイズの四角形を描画し、期間設定を追加します。
試してみましょう。
- 次のいずれかの方法で、期間を 2015 年 1 月 1 日から 2015 年 2 月 28 日までの範囲に設定します。
- 右側の [期間設定] プロパティ パネルで [自動期間] をクリックする。
- 散布図の下に追加した [期間設定] の四角形をクリックする。
- 右上にある [表示] ボタンをクリックしてインタラクティブ レポートビューに切り替えて、この設定をテストします。
タスク 4. レポートに別の種類のグラフを追加する
-
右上にある [編集] をクリックし、グラフアイテムをさらに追加します。
-
[グラフを追加] > 円グラフアイコンをクリックし、円グラフを保持する四角形をレポート キャンバスに描画します。
-
円グラフが選択された状態で、右側のパネルの [データ] タブの右下にある [フィールドを追加] をクリックします。
フィールドを追加
] オプションが表示されない場合はブラウザタブを更新してください。
-
[すべてのフィールド] をクリックしてフィールド プロパティの概要を表示します。
-
[
ARR_DELAY
] フィールドの右側にあるその他アイコン(3 つのドット)をクリックし、[複製] を選択します。
-
セクションの右上で [+ フィールドを追加] をクリックします。
-
フィールドに
is_late
という名前を付けます。 -
[計算式] テキスト ボックスに次の計算式を入力します。
フィールド名は正しく登録する必要があります。次の図のように構文がハイライト表示されない場合は、計算式を再確認するか、右側にある [使用可能な項目] セレクタを使用して [ARR_DELAY のコピー] フィールドを選択してください。
-
[保存] をクリックして、[完了] をクリックします。
-
右側のパネルの [データ] タブで、円グラフの [ディメンション] を新しい [is_late] 計算フィールドに変更します。
-
[指標] を新規の [is_late] フィールドに変更します。
-
is_late 指標の横にある CTD アイコンの上にカーソルを合わせます。
-
これをクリックして集計を [カウント] に変更します。
円グラフに定刻到着率と遅延到着率が表示されるようになりました。
棒グラフ(縦棒グラフ)を追加
-
[グラフを追加] > 縦棒グラフアイコンをクリックし、棒グラフを保持する四角形をレポート キャンバスに描画します。
-
[データ] タブで、以下の設定フィールドをクリックして、次のように変更します。
フィールド | 値 |
---|---|
ディメンション |
UNIQUE CARRIER |
指標 1(デフォルト) |
DEP_DELAY |
指標 2([指標を追加] をクリック) |
ARR_DELAY |
並べ替え |
UNIQUE CARRIER |
並べ替え順序 |
昇順 |
- [スタイル] タブで [右 Y 軸] までスクロールし、[軸の最小値] を 0 に設定します。
タスク 5. さまざまな出発遅延しきい値に対応する追加のダッシュボード アイテムを作成する
ここまでに 3 つのデータベース テーブルビューを作成しました。次に、それらのテーブルの遅延しきい値を表示するグラフを作成します。
Delayed_10 データベース テーブルビュー用のデータソースを追加する
- 円グラフと棒グラフをコピーして、グラフのセットが 2 つになるようにします。レポート キャンバスは次のようになります。
-
2 つ目の円グラフを選択し、プロパティ リストの [データソース] で [flights] をクリックします。
-
メニューの下部にある [+ データを追加] をクリックします。
-
選択ペインの [Google Connectors] セクションで [BigQuery] をクリックします。
-
[マイ プロジェクト] >
[Project-ID]
> [dsongcp] を選択します。 -
delayed_10 テーブルをクリックして選択し、画面右下にある [追加] ボタンをクリックします。
- [レポートに追加] をクリックします。
Arr_Delay フィールドのコピーと is_late 計算フィールドを再作成する
-
画面右下にある [+ フィールドを追加] をクリックします。このリンクが表示されていない場合は、画面の右側で [データ] プロパティタブが選択されていることを確認してください。
-
データ型と集計方法を含むフィールドの完全なリストが表示されていない場合は、[すべてのフィールド] をクリックしてフィールド プロパティの概要に移動します。
-
[
ARR_DELAY
] フィールドの右側にあるコンテキスト メニュー アイコンをクリックし、[複製] を選択します。
-
データソース delayed_10 について、画面の右側にある [+ フィールドを追加] をクリックします。
-
[フィールド名] テキスト ボックスに「
is_late
」と入力します。 -
[計算式] テキスト ボックスに次の数式を入力します。
フィールド名は正しく登録する必要があります。次の図のように構文がハイライト表示されない場合は、計算式を再確認するか、右側にある [使用可能な項目] セレクタを使用して [ARR_DELAY のコピー] フィールドを選択してください。
-
[保存] をクリックして、[完了] をクリックします。
-
ここで新たな円グラフの [データソース] を
delayed_10
に変更します。計算フィールド is_late は保持されるはずです。
2 つ目の円グラフに Delayed_10
ビューの定刻到着率と遅延到着率が表示されるようになりました。
タスク 6. 残りのダッシュボード ビューを作成する(オプション)
必要に応じて、追加のデータベース ビューを作成した最後の 2 つのセクションを繰り返して、Delayed_15 と Delayed_20 のビューを作成してください。
お疲れさまでした
ここでは、Google データポータルを使用して、BigQuery テーブルおよびビューに保存されているデータを可視化しました。
クエストを完了する
このセルフペース ラボは、Data Science on Google Cloud クエストの一部です。クエストとは学習パスを構成する一連のラボのことで、完了すると成果が認められて上のようなバッジが贈られます。バッジは公開して、オンライン レジュメやソーシャル メディア アカウントにリンクできます。このラボの修了後、こちらのクエストに登録すれば、すぐにクレジットを受け取ることができます。受講可能な全クエストについては、Google Cloud Skills Boost カタログをご覧ください。
次のラボを受講する
今のクエストで学習を継続するには次のラボの受講をおすすめします。
次のステップと詳細情報
フォローアップ情報:
Data Science on the Google Cloud Platform, 2nd Edition: O'Reilly Media, Inc.
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 8 月 28 日
ラボの最終テスト日: 2023 年 8 月 17 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。