700 以上のラボとコースにアクセス

Google Cloud SQL へのデータの読み込み

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 中級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP196
概要
設定と要件
タスク 1. 環境を準備する
タスク 2. Cloud SQL インスタンスを作成する
タスク 3. Cloud SQL インスタンスにデータを追加する
タスク 4. データベースの操作
お疲れさまでした

700 以上のラボとコースにアクセス

GSP196

概要

このラボでは、データを CSV テキストファイルから Cloud SQL にインポートし、シンプルなクエリを使用していくつかの基本的なデータ分析を行います。

このラボでは米国運輸統計局のデータセットを使用します。このデータセットには、米国の国内線フライトに関する履歴情報が含まれています。このデータセットはデータサイエンスの多岐にわたるコンセプトと手法の実証に使用できるもので、「Data Science on Google Cloud Platform」クエストのすべてのラボで使用します。

目標

Cloud SQL インスタンスを作成する
Cloud SQL データベースを作成する
Cloud SQL にテキストデータをインポートする
クエリを使用して初期データモデルを作成する

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。左側の [ラボの詳細] ペインには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホームディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。

Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコンをクリックします。

接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud は Google Cloud のコマンドラインツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。

（省略可）次のコマンドを使用すると、有効なアカウント名を一覧表示できます。

gcloud auth list

[承認] をクリックします。
出力は次のようになります。

出力:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`

（省略可）次のコマンドを使用すると、プロジェクト ID を一覧表示できます。

gcloud config list project

出力:

[core] project = <project_ID>

出力例:

[core] project = qwiklabs-gcp-44776a13dea667a6

注: Google Cloud における gcloud ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。

タスク 1. 環境を準備する

このラボでは、O'Reilly Media, Inc. の書籍『Data Science on Google Cloud Platform, 2nd Edition』用に作成されたコードサンプルとスクリプトを使用します。この書籍の第 3 章「Creating Compelling Dashboards」の最初の部分で説明されている Google Cloud SQL の構成とデータインポートタスクを取り上げます。第 2 章で使用されている GitHub のサンプルリポジトリのクローンを Cloud Shell に作成して、そこからこのラボのタスクをすべて実施します。

Data Science on Google Cloud リポジトリのクローンを作成する

Cloud Shell で次のコマンドを入力して、このリポジトリのクローンを作成します。

git clone \ https://github.com/GoogleCloudPlatform/data-science-on-gcp/

リポジトリディレクトリに移動します。

cd data-science-on-gcp/03_sqlstudio

プロジェクト ID の環境変数と、データを格納する Storage バケットの環境変数を作成します。これらの変数はラボの後半で使用します。

export PROJECT_ID=$(gcloud info --format='value(config.project)') export BUCKET=${PROJECT_ID}-ml

次のコマンドを入力して、ファイルを Cloud Storage バケットにステージングします。

gsutil cp create_table.sql \ gs://$BUCKET/create_table.sql

タスク 2. Cloud SQL インスタンスを作成する

次のコマンドを実行して Cloud SQL インスタンスを作成します。

gcloud sql instances create flights \ --database-version=POSTGRES_13 --cpu=2 --memory=8GiB \ --region={{{project_0.default_region | "REGION"}}} --root-password=Passw0rd

このコマンドが完了するまでに数分かかります。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。Cloud SQL インスタンスが正常に作成されている場合は、評価スコアが表示されます。

Cloud SQL インスタンスを作成する。

Cloud Shell の IP アドレスを格納する環境変数を作成します。

export ADDRESS=$(curl -s http://ipecho.net/plain)/32

SQL インスタンスへの管理アクセスを有効にするために、Cloud Shell インスタンスを許可リストに登録します。

gcloud sql instances patch flights --authorized-networks $ADDRESS

プロンプトが表示されたら、Y キーを押して変更を確定します。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。SQL インスタンスにアクセスするために、Cloud Shell が許可リストに正常に登録された場合は、評価スコアが表示されます。

SQL インスタンスにアクセスするために Cloud Shell インスタンスを許可リストに登録する。

データベースとテーブルを作成する

Postgres テーブルにデータをインポートするには、まず適切なスキーマで空のデータベースとテーブルを作成します。

Cloud コンソールのナビゲーションメニュー（）で [SQL] をクリックします。
インスタンスの [概要] ページを開くには、インスタンス名の flights をクリックします。
左側にある SQL のナビゲーションメニューから [データベース] を選択します。
[データベースを作成] をクリックします。
新しいデータベースダイアログで、データベースに bts と名前を付けます。
[作成] をクリックします。
インスタンスの概要ページを開くには、SQL のナビゲーションメニューから [概要] を選択します。
上部の [インポート] をクリックします。
Cloud Storage ファイルの欄で、[参照] をクリックします。
バケットのセクションで、バケット名の反対側にある矢印をクリックします。
create_table.sql のファイルを選択します。
[選択] をクリックします。
[ファイル形式] セクションで、SQL を選択します。
Cloud SQL インスタンスで、bts データベースを指定します。
[インポート] をクリックして、インポートを開始します。

数秒経ったら、空のテーブルができあがります。

完了したタスクをテストする

[進行状況を確認] をクリックして、実行したタスクを確認します。create_table.sql ファイルを使用して bts データベースとフライトテーブルが正常に作成された場合は、評価スコアが表示されます。

create_table.sql ファイルを使用して bts データベースとフライトテーブルを作成する。

タスク 3. Cloud SQL インスタンスにデータを追加する

空のデータベースとテーブルが作成できたので、ここでテーブルに CSV ファイルを読み込みます。バケットで 201501.csv を参照して 1 月のデータを読み込み、形式に CSV を、データベースに bts を、テーブルに flights を指定します。

Cloud SQL のインスタンスページで、[インポート] をクリックします。
Cloud Storage ファイルの欄で [参照] をクリックし、バケット名の反対側にある矢印をクリックして、201501.csv をクリックします。
[選択] をクリックします。
ファイル形式は [CSV] を選択します。
bts データベースを選択し、テーブルには flights と入力します。
[インポート] をクリックします。

タスク 4. データベースの操作

以下を使用して、Cloud Shell から Cloud SQL インスタンスに接続します。

gcloud sql connect flights --user=postgres

パスワードの入力を求められたら、「Passw0rd」と入力します。入力した文字が表示されない場合があります。
表示されたプロンプトで、bts データベースに接続します。

\c bts;

パスワードの入力を求められたら、「Passw0rd」と入力します。
それから、最も交通量が多い 5 つの空港の情報を得るためにクエリを実行します。

SELECT "Origin", COUNT(*) AS num_flights FROM flights GROUP BY "Origin" ORDER BY num_flights DESC LIMIT 5;

データベースが比較的小規模（1 月のみ）であることから、このクエリは高いパフォーマンスを示していますが、さらに月を追加するとデータベースは遅くなります。

リレーショナルデータベースは、少量のデータのサブセットを返すアドホッククエリを実行する際の、小型のデータセットに適しています。大規模なデータセットについては、関係のある列のインデックスを作成することで、リレーショナルデータベースのパフォーマンスを調整します。一般的に、リレーショナルデータベースはトランザクションをサポートし、強整合性を保証するために頻繁に更新されるデータ向けとしては最高の選択肢です。

ですが、以下の場合はリレーショナルデータベースは適切ではありません。

データが主に読み取り専用である
データセットのサイズがテラバイトの範囲におよぶ
完全なテーブルをスキャンする必要がある（列の最大値を計算する場合など）、またはデータストリームが高速である。

これはフライト遅延のユースケースの説明です。このケースでは、リレーショナルデータベースではなく、アナリティクスデータウェアハウスである BigQuery に切り替えます。アナリティクスデータウェアハウスは SQL の使用が可能で、大型のデータセットやアドホッククエリに対する優れた処理能力を備えています（つまり、列のインデックスを作成する必要はありません）。

お疲れさまでした

このラボでは、テーブルを作成して、Cloud Storage に保存されているテキストデータを Google Cloud SQL にインポートする方法を学びました。

次のステップと詳細情報

フォローアップ情報:

Data Science on the Google Cloud Platform, 2nd Edition: O'Reilly Media, Inc.

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2023 年 11 月 28 日

ラボの最終テスト日: 2023 年 11 月 28 日

Google Cloud SQL へのデータの読み込み

Google Cloud SQL へのデータの読み込み

GSP196

概要

目標

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

Cloud Shell をアクティブにする

タスク 1. 環境を準備する

Data Science on Google Cloud リポジトリのクローンを作成する

タスク 2. Cloud SQL インスタンスを作成する

完了したタスクをテストする

完了したタスクをテストする

データベースとテーブルを作成する

完了したタスクをテストする

タスク 3. Cloud SQL インスタンスにデータを追加する

タスク 4. データベースの操作

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する