チェックポイント
Use Formulas in Connected sheet
/ 20
Use Charts
/ 20
Use Pivot tables
/ 20
Using Extract
/ 20
Calculated columns
/ 20
コネクテッド シート: Qwik Start
GSP870
概要
コネクテッド シートは、BigQuery データ ウェアハウスの処理能力とスケーラビリティを、使い慣れた Google スプレッドシートで利用できるようにする機能です。コネクテッド シートを使用すると、SQL などのコンピュータ言語の専門知識がなくても数十億行にのぼるペタバイト規模のデータをスプレッドシートで分析できます。
これにより、データ アナリストだけでなく誰でも簡単にピボット テーブル、グラフ、数式を大規模データセットに適用し、最も価値の高い顧客や商品ラインに焦点を合わせて、予測モデルの開発、傾向の解明、アドホック分析を簡単に実行できます。
ラボの内容
このラボでは、以下のことを行います。
- BigQuery データセットを Google スプレッドシートに接続する。
- 数式を使用して、チップが含まれるタクシー賃走の割合を求める。
- グラフを使用して、よく利用される支払いタイプと傾向を調査する。
- ピボット テーブルを使用して、タクシー乗車料金が最も高くなる時間帯を調査する。
- 抽出機能を使用して、BigQuery からコネクテッド シートに元データをインポートする。
- 計算された列を使用して、既存の列の変換や組み合わせから新しい列を作成する。
- スケジュール設定された更新を使用して、分析を目的とした自動データ更新を設定する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
タスク 1. Google スプレッドシートを開く
- [ラボを開始] ボタンをクリックします。左側のパネルには、このラボで使用する必要がある一時的な認証情報が表示されます。
-
新しいシークレット ウィンドウで、Google スプレッドシートのホームページを開きます。
-
Google ログインページで、[接続の詳細] パネルに表示されているユーザー名を貼り付け、パスワードもコピーして貼り付けます。
- その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
しばらくすると、Google スプレッドシート ホームページに戻ります。
- [Google スプレッドシート] タブで、新しいスプレッドシートを作成の下にある [空白] ボタンをクリックして新しいシート作成します。次のステップで、このシートを BigQuery データセットに接続します。
タスク 2. BigQuery データセットへの接続
分析するのは、シカゴのタクシー賃走のデータです。まず、BigQuery で利用できる、シカゴのタクシーの一般公開データセットを Google スプレッドシートに接続します。
- [データ] > [データコネクタ] > [BigQuery に接続] を選択します。
-
Google スプレッドシートでビッグデータに接続して分析しますというポップアップが表示されたら [接続] をクリックします。
-
Qwiklabs プロジェクト ID > [一般公開データセット] > [chicago_taxi_trips] を選択します。
-
[taxi_trips] を選択して、[接続] をクリックします。
約 1 分後、成功を示すメッセージが表示されます。これで BigQuery データセットと Google スプレッドシートが接続されました。
タスク 3. 数式
次に、コネクテッド シートで数式を使用する方法について説明します。まず、シカゴにあるタクシー会社の数を調べます。
- [関数] > [COUNTUNIQUE] を選択して、新しいシートに追加します。
-
[新しいシート] が選択されていることを確認し、[作成] をクリックして新しいシートに追加します。
-
行 1、列 A のセルの値を次のように変更し、会社列を指定します。
- [適用] をクリックします。
シカゴには 164 社のタクシー会社があるようです(データにアクセスした日によって結果が異なる場合があります)。
次にシカゴで、チップが支払われたタクシーの乗車率を求めます。
-
COUNTIF
関数を使用して、チップが含まれる賃走の総件数を求めます。以下の関数をコピーして、行 1、列 D のセルに貼り付けます。
-
[適用] をクリックします。
-
次に、
COUNTIF
関数を使用して、運賃が 0 より大きい賃走の総数を求めます。以下の関数を、行 1、列 E のセルに追加します。
- [適用] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
- 最後に、前の 2 つの手順の値を比較します。以下の関数を、行 1、列 F のセルに追加します。
シカゴでのタクシー賃走の約 38.6% にチップが支払われていることが判明しました(データにアクセスした日によって結果が異なる場合があります)。
タスク 4. グラフ
タクシーを利用する際、どのような支払い方法が使われているでしょうか。モバイル決済による収益は、どのような経時的な変化を示しているでしょうか。
この情報をグラフを使用して見てみましょう。
-
[Google スプレッドシート] ページの下部にある [taxi_trips] タブをクリックして戻ります。
-
[グラフ] ボタンをクリックします。[新しいシート] が選択されていることを確認し、[作成] をクリックします。
-
グラフエディタ ウィンドウで、[グラフの種類] から、円グラフを選択します。
-
データの各列は右側に表示されます。ラベル フィールドに、[payment_type] をドラッグします。次に、[運賃] を値フィールドにドラッグし、[適用] をクリックします。
-
現金決済の値が、クレジット カード決済の値をわずかに上回っています。
-
[値] > [運賃] で、[Sum] を [Count] に変更します。[適用] をクリックします。
-
今の時点では、現金決済の件数がクレジット カード決済の件数を大きく上回っていて、クレジット カード決済の方が平均価格が高いことを示しています。
次に、モバイル決済の経時的な変化を折れ線グラフで確認します。
-
[Google スプレッドシート] ページの下部にある [taxi_trips] タブを選択して戻ります。
-
[グラフ] ボタンを選択します。[新しいシート] が選択されていることを確認し、[作成] をクリックします。
-
[グラフの種類] のプルダウンをクリックして、[折れ線] にある最初のオプションを選択します。
-
[trip_start_timestamp] を X 軸フィールドにドラッグします。
-
[グループ条件] オプションをオンにし、プルダウン リストから [年月] を選択します。
-
[運賃] を系列フィールドにドラッグします。
-
[適用] をクリックします。
全体の収益のピークは 2015 年でした。では、モバイル決済の経時的な変化はどのようになっているでしょうか。
-
[フィルタ] で [追加] > [payment_type] をクリックします。
-
プルダウンから [すべてのアイテムを表示] を選択します。
-
[条件でフィルタ] のプルダウンをクリックして、リストから [次を含むテキスト] を選択します。
-
値フィールドに「モバイル」と入力します。
-
[OK] をクリックします。
-
[適用] をクリックして、新しい折れ線グラフを作成します。
このグラフを見ると、モバイル決済が全般的に増加傾向であることがわかります。このグラフから、他にどのようなことがわかるでしょうか。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 5. ピボット テーブル
タクシーの乗車回数が、一日のうちで最も多い時間帯はいつでしょうか。次のセクションでは、ピボット テーブルを使って分析します。
-
[Google スプレッドシート] ページの下部にある [taxi_trips] タブを選択して戻ります。
-
[ピボット テーブル] ボタンをクリックします。
-
[新しいシート] が選択されていることを確認し、[作成] をクリックします。
-
行フィールドに [trip_start_timestamp] をドラッグします。
-
グループ条件のオプションで [時間] を選択します。
-
値フィールドに [運賃] をドラッグします。
-
集計のオプションで、[COUNTA] を選択します。
-
[適用] をクリックします。
これで、1 日の 1 時間ごとの乗車回数(24 時間表示)を示す表が表示されます。
タクシーの乗車回数が 1 日のうちで最も多い時間帯はいつでしょうか。
次に、曜日別に分けてみましょう。
-
[trip_start_timestamp] を列フィールドにドラッグします。
-
グループ条件のオプションで、[曜日] を選択します。
-
[適用] をクリックします。
-
B3:H26 のデータ範囲を選択し、[表示形式] > [数字] > [数値] を選択します。
-
小数点以下の桁数を減らすボタンをダブルクリックすると、データが読みやすくなります。
では、条件付き書式を適用してみましょう。
-
左上のセル(日曜日の最初の値)をクリックし、次に、右下のセル(土曜日の最後の値)を Shift キーを押しながらクリックして、すべてのデータセルを選択します。
-
すべてのセルを選択した状態で、[表示形式] > [条件付き書式] をクリックします。
-
[カラースケール] を選択します。
-
[プレビュー] のカラー選択で、白→緑を選びます。これにより、高い値が緑、低い値が白になります。
-
[完了] をクリックします。
-
[x] をクリックして、条件付き書式ウィンドウを閉じます。
-
ここで、週末のピークが早朝で、平日のピークは一般的な就業時間の始業時と終業時の前後であることがわかります。
タクシーの利用料金が一番高い時間帯はいつでしょうか。
- 値フィールドで、[集計] オプションを [平均] に変更します。
- [適用] をクリックします。
月曜早朝のタクシー代が最も高いことが判明しました。
ピボット テーブルを使用して、他のデータの組み合わせを試し、どんな分析情報が得られるか確認してください。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 6. 抽出機能の使用
場合によっては、データセットの小規模なサブセットのみを処理することがあります。また、元データそのものを詳しく確認することも考えられます。そのような場合は、BigQuery からコネクテッド シートにデータセットのサブセットをインポートする方が簡単かもしれません。
デフォルトでは、コネクテッド シートに BigQuery の元データ 500 行のプレビューが表示されます。より多くのデータをコネクテッド シートにインポートするには、抽出を使用します。
この例では、trip_start_timestamp、運賃、チップ、料金の列から、25,000 行のデータを抽出して、最新の賃走から順に並べます。
-
[Google スプレッドシート] ページの下部にある [taxi_trips] タブを選択して戻ります。
-
[解凍] ボタンをクリックします。
-
[新しいシート] が選択されていることを確認し、[作成] をクリックします。
-
抽出データエディタ ウィンドウで、列セクションの [編集] をクリックし、列に [trip_start_timestamp]、[運賃]、[チップ]、[料金] を選択します。プルダウン ボックスの外側をクリックして、次に進みます。
-
並べ替えセクションの [追加] をクリックし、[trip_start_timestamp] を選択します。[降順] をクリックすると、昇順と降順が切り替わります。
-
25,000 行をインポートするので、[行の上限] は「25,000」のままにしておきます。
-
[適用] をクリックします。
これで、BigQuery からコネクテッド シートに数万行の元データを抽出しました。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 7. 計算された列
計算された列では、既存の列を変換または組み合わせた新しい列を追加できます。チップの割合を計算する計算された列を作成します。
- [Google スプレッドシート] ページの下部にある [taxi_trips] タブを選択して戻ります。
- [計算された列] ボタンをクリックします。
右側には、データセットの列と利用できる関数が表示されます。また、説明文の疑問符をクリックすると、計算された列の例を確認できます。
-
計算された列の名前フィールドに、「
tip_percentage
」を入力します。 - 次に、以下の数式をコピーして、数式フィールドに貼り付けます。
-
[追加] をクリックします。
-
[適用] をクリックします。
これで、tip_percentage 列の下に、チップが支払われた運賃の割合が表示されるようになりました。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 8. すべて更新 / 更新スケジュール
デフォルトでは、コネクテッド シートで行われたすべての分析は、更新をしない限り変更されません。つまり、BigQuery のデータに変更があっても、グラフや表が予期せず変更されることはありません。
そこで、分析結果を最新のデータに更新する方法や、定期的な更新をスケジュール設定する方法についてご紹介します。
- グラフや表を更新するには、[更新] ボタンをクリックします。
データセットの名前の横にある [更新オプション] ボタンをクリックしてから、[すべて更新] をクリックすることで、コネクテッド シートのすべての分析結果を最新のデータに更新できます。
-
更新をスケジュール設定するには、[更新オプション] のサイドバー下部にある [更新スケジュール] をクリックします。
-
最後に、データの自動更新を行う頻度と時間を選択します。
-
[保存] をクリックします。
お疲れさまでした
ここでは次の内容を学習しました。
- BigQuery データセットを Google スプレッドシートに接続する。
- 数式を使用して、チップが含まれるタクシー賃走の割合を求める。
- グラフを使用して、よく利用される支払いタイプと傾向を調査する。
- ピボット テーブルを使用して、タクシー乗車料金が最も高くなる時間帯を調査する。
- 抽出機能を使用して、BigQuery からコネクテッド シートに元データをインポートする。
- 計算された列を使用して、既存の列の変換や組み合わせから新しい列を作成する。
- スケジュール設定された更新を使用して、分析を目的とした自動データ更新を設定する
コネクテッド シートのさらなる機能を、ぜひご自身でお試しください。分析を楽しみましょう!
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 12 月 5 日
ラボの最終テスト日: 2023 年 12 月 5 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。