
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
このラボは Google のパートナーである Trifacta と共同開発されました。アカウント プロフィールでサービスの最新情報、お知らせ、特典の受け取りを希望されている場合は、お客様の個人情報が本ラボのスポンサーである Trifacta と共有される可能性があります。
Cloud Dataprep by Trifacta は、分析用データの可視的な探索、クリーニング、準備を行うインテリジェントなデータサービスです。Cloud Dataprep はサーバーレスで、どのような規模でも稼働します。インフラストラクチャのデプロイや管理は必要ありません。コードも不要で、クリックするだけで簡単にデータを準備できます。
このラボでは Dataprep を使って、データセットのインポート、不一致データの修正、データの変換と結合を行います。初めてご利用の場合でも、ラボの終了時にはすべての操作を行えるようになります。
このラボでは、Dataprep を使用して次のタスクを完了する方法を学習します。
こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。
このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。
ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
その後次のように進みます。
その後、このタブで Google Cloud コンソールが開きます。
Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。
Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン をクリックします。
ウィンドウで次の操作を行います。
接続した時点で認証が完了しており、プロジェクトに各自の Project_ID、
gcloud
は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。
出力:
出力:
gcloud
ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。
Cloud コンソールで、ナビゲーション メニュー() > [Cloud Storage] > [バケット] の順に選択します。
[バケットを作成] をクリックします。
[バケットを作成] ダイアログの [名前] で、バケットに一意の名前を付けます。他の設定はデフォルト値のままにします。
[オブジェクトへのアクセスを制御する方法を選択する
] で、[このバケットに対する公開アクセス禁止を適用する] チェックボックスをオフにします。
[作成] をクリックします。
これでバケットが作成されました。後の手順で使用するため、バケット名をメモしておきます。
[進行状況を確認] をクリックして、実行したタスクを確認します。Cloud Storage バケットが正常に作成されている場合は、評価スコアが表示されます。
サービス ID が作成されたというメッセージが表示されます。
ナビゲーション メニュー > [Dataprep] を選択します。
チェックボックスをオンにして Google Dataprep の利用規約に同意し、[同意する] をクリックします。
チェックボックスをオンにしてアカウント情報を Trifacta と共有することに同意し、[同意して続行] をクリックします。
[許可] をクリックして、Trifacta がプロジェクトのデータにアクセスすることを許可します。
受講生のユーザー名をクリックして、Cloud Dataprep by Trifacta にログインします。使用するユーザー名は、ラボの左側のパネルの [Username] に示されています。
[許可] をクリックして、Google Cloud ラボアカウントに Cloud Dataprep へのアクセスを許可します。
チェックボックスをオンにし、[Accept] をクリックして Trifacta の利用規約に同意します。
[First time set up] 画面で [Continue] をクリックして、デフォルトのストレージの場所を作成します。
Dataprep が開きます。
[進行状況を確認] をクリックして、実行したタスクを確認します。Cloud Dataprep がデフォルトのストレージの場所で正常に初期化されている場合は、評価スコアが表示されます。
Cloud Dataprep では、flow
ワークスペースを使用してデータセットにアクセスし、操作します。
FEC-2016 フローのページが表示されます。
このセクションでは、データをインポートして FEC-2016 フローに追加します。
[Add Datasets] をクリックし、[Import Datasets] リンクを選択します。
Cloud Storage からデータセットをインポートするため、左側のメニューペインで [Cloud Storage] を選択します。次に、鉛筆アイコンをクリックしてファイルのパスを編集します。
gs://spls/gsp105
」と入力して、[Go] をクリックします。[Go] と [Cancel] のボタンが表示されるように、必要に応じてブラウザ ウィンドウを広げてください。
[us-fec/] をクリックします。
cn-2016.txt
の横にある + アイコンをクリックすると、データセットが作成されて右側のペインに表示されます。右側のペインにあるデータセットのタイトルをクリックして、名前を「Candidate Master 2016」に変更します。
同様に、itcont-2016-orig.txt
のデータセットを追加し、名前を「Campaign Contributions 2016」に変更します。
両方のデータセットが右側のペインに表示されたら、[Import & Add to Flow] をクリックします。
2 つのデータセットがフローとして表示されます。
[Candidate Master 2016] Transformer ページがグリッドビューで開きます。
Transformer ページでは、変換レシピを作成して、サンプルに適用した結果を確認できます。表示内容に問題がなければ、データセットに対してジョブを実行します。
列の名前をクリックすると、右側に [Details] パネルが開きます。
[Details] パネルの右上にある [X] をクリックして、[Details] パネルを閉じます。
以下の手順では、グリッドビューでデータを探索し、レシピに変換ステップを適用します。
すると、これらの値が選択されたステップが作成されます。
右側のレシピパネルに次のステップが追加されます。
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
下にスクロールして(赤でハイライト表示されています)不一致の値を見つけます。ほとんどのレコードで、column7 の値は「P」、column6 の値は「US」になっていることがわかります。不一致が発生するのは、column6 が「State」列(旗のアイコンで示されます)としてマークされている一方で、State 以外(「US」など)の値があるからです。
これで不一致がなくなり、列マーカーが緑色になります。
結合ページでは、現在のデータセットを別のデータセットまたはレシピに追加できます。この処理は両方のデータセットに共通する情報に基づいて行われます。
Contributions ファイルを Candidates ファイルに結合するには、まず Contributions ファイルをクリーンアップします。
グレー表示の [Campaign Contributions 2016] をクリックして選択します。
右側のペインで [Add] > [Recipe] をクリックし、[Edit Recipe] をクリックします。
ページの右上にあるレシピアイコンをクリックし、[Add New Step] をクリックします。
データセット内の余分な区切り文字を削除します。
Transformation Builder により Wrangle コマンドが解析され、検索と置換の変換フィールドにデータが入力されます。
[Add] をクリックして、変換をレシピに追加します。
新しいステップをもう 1 つレシピに追加します。[New Step] をクリックし、検索ボックスに「Join」と入力します。
[Join datasets] をクリックして結合のページを開きます。
Campaign Contributions 2016 と結合する [Candidate Master 2016] をクリックして、右下の [Accept] をクリックします。
共通のキーが推定された後、多くの共通値が結合キーとして提案されます。
column2 と column11 が確認用に開きます。
column 16 の献金を集計、平均化、カウントし、column 2、24、8 の ID、名前、所属政党別に候補者をグループ化して、有用なサマリーを生成します。
結合された集計データの初期サンプルが表示されます。これは、米国大統領候補と 2016 年の選挙献金指標のサマリー テーブルを表します。
列名を変更すると、データをさらに解析しやすくなります。
[Add] をクリックします。
平均献金額を丸めるには、次の行を [New Step] の末尾に貼り付けます。
結果は次のようになります。
Dataprep を使用してデータセットを追加し、レシピを作成してデータを処理することで有意義な結果を導き出しました。
このラボは、Google Cloud の多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部です。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 6 月 6 日
ラボの最終テスト日: 2024 年 6 月 6 日
Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
One lab at a time
Confirm to end all existing labs and start this one