チェックポイント
Create a Vertex AI Workbench instance
/ 50
Copy the sample code
/ 50
強化学習: Qwik Start
GSP691
概要
機械学習に関する研究の多くの分野と同様に、強化学習(RL: Reinforcement Learning)は、猛烈なスピードで進歩しています。他の研究分野もそうですが、研究者たちはディープ ラーニングを活用して最先端の成果を生み出しています。
このラボでは、OpenAI Gym のサンプルを使ってモデル化した簡単なゲームを作成し、強化学習の基礎を学びます。
学習内容
このラボでは以下を行います。
- 強化学習の基本的なコンセプトについて学習する。
- AI Platform Tensorflow 2.1 Notebook を作成する。
- GitHub にある training data analyst リポジトリからサンプル リポジトリのクローンを作成する。
- ノートブックの手順を読み、理解し、実行する。
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
タスク 1. 強化学習の基礎
強化学習は機械学習の形態の 1 つであり、エージェントが環境に対する行動を選択しながら、その一連の選択を通じて得られる目標(報酬)を最大化する方法を学習していくというものです。従来の教師あり学習のテクニックとは異なり、データポイントはすべてがラベル付けされるというわけではなく、エージェントは「スパース」な報酬にアクセスできるだけです。
強化学習の歴史は 1950 年代にまでさかのぼることができます。そのアルゴリズムは数多く存在しますが、最近では、簡単に実装できる強力な深層強化学習アルゴリズム、DQN(ディープ Q ネットワーク)と DDPG(Deep Deterministic Policy Gradient)の 2 つが注目されています。このセクションでは、これらのアルゴリズムと変種について簡単に紹介します。
強化学習のプロセス概念図
DQN は、Google DeepMind グループが 2015 年に Nature の論文で発表したアルゴリズムです。論文の著者らは、画像認識分野でのディープ ラーニングの成功を励みに、ディープ ニューラル ネットワークを Q 学習に組み込み、観測空間が非常に高次元な Atari Game Engine Simulator でアルゴリズムをテストしました。
ディープ ニューラル ネットワークは、特定の入力状態に基づいて、出力 Q 値、すなわちある行動を取ることがどの程度望ましいかを予測する関数近似器として機能します。つまり、DQN は価値ベースのアルゴリズムです。DQN はトレーニング アルゴリズムの中でベルマン方程式に従い Q 値を更新していきますが、動くターゲットに合わせる難しさを避けるために、ターゲットの値を予測する、第 2 のディープ ニューラル ネットワークを使います。
より実用的なレベルとして、次のモデルでは、Google Cloud で実行されている強化学習ジョブを取得するために、ソースファイル、シェルコマンド、エンドポイントをハイライト表示しています。
タスク 2. 環境を設定する
-
Google Cloud コンソールのナビゲーション メニュー()で、[Vertex AI] > [ダッシュボード] をクリックします。
-
[すべての推奨 API を有効化] をクリックします。
タスク 3. Vertex AI ノートブックを起動する
Vertex AI Workbench ノートブックを作成して起動するには:
-
ナビゲーション メニュー で、[Vertex AI] > [ワークベンチ] をクリックします。
-
[ワークベンチ] ページで、[Notebooks API を有効にする] をクリックします(まだ有効になっていない場合)。
-
[ユーザー管理のノートブック] タブをクリックしてから、[新規作成] をクリックします。
-
ノートブックに名前を付けます。
-
[リージョン] を
、[ゾーン] を に設定します。 -
[新しいインスタンス] メニューの [環境] で、最新バージョンの [TensorFlow Enterprise 2.11] を選択します。
-
[詳細オプション] をクリックして、インスタンスのプロパティを編集します。
-
[マシンタイプ] をクリックし、マシンタイプとして [e2-standard-2] を選択します。
-
残りのフィールドはデフォルトのままにし、[作成] をクリックします。
数分後、[ワークベンチ] ページにインスタンス名が表示され、それに続いて [JupyterLab を開く] が表示されます。
- [JupyterLab を開く] をクリックして、新しいタブで JupyterLab を開きます。ビルドに beatrix jupyterlab を含める必要があるというメッセージが表示された場合は、無視してください。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 4. サンプルコードのクローンを作成する
training-data-analyst
リポジトリのクローンを JupyterLab インスタンス内に作成するには、次の手順を実行します。
- JupyterLab で、[Terminal] アイコンをクリックして新しいターミナルを開きます。
- コマンドライン プロンプトで、次のコマンドを入力して Enter キーを押します。
- リポジトリのクローンが作成されたことを確認するには、左側のパネルの
training-data-analyst
フォルダをダブルクリックして、リポジトリの中身を確かめます。
- 左側のメニューで、[training-data-analyst] > [quests] > [rl] > [early_rl] > [early_rl.ipynb] を選択します。新しいタブが開きます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 5. ノートブックを実行する
新しいタブは次のようになります。
-
次のノートブックを読み、Shift+Enter キーを押して、すべてのコードブロックを実行します。
-
ノートブックの手順を完了したら、このページに戻ります。
お疲れさまでした
このラボでは、強化学習の基本的な考え方について学習しました。JupyterLab インスタンスを作成した後、サンプル リポジトリのクローンを作成してノートブックを実行し、強化学習の基礎に関する実践演習を行いました。これで、このシリーズのラボをさらに受講する準備が整いました。
クエストを完了する
このセルフペース ラボは、Qwiklabs の「Baseline: Data, ML, AI」クエストの一部です。クエストとは学習プログラムを構成する一連のラボのことで、このラボの修了後、こちらのクエストに登録すれば、すぐにクレジットを受け取ることができます。
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2023 年 9 月 27 日
ラボの最終テスト日: 2023 年 9 月 27 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。