チェックポイント
Generate text from text prompts
/ 10
Print the chat history
/ 10
Verify the image
/ 10
Generate text from local image and text
/ 10
Generate text from text and image(s)
/ 20
Perform few-shot prompting
/ 20
Generate text from a video file
/ 20
Vertex AI Gemini API と Python SDK のスタートガイド
GSP1209
概要
Gemini は、Google の DeepMind が開発した、生成 AI モデルのファミリーであり、マルチモーダル ユースケース用に設計されています。Gemini API を使用すると、Gemini Pro Vision モデルと Gemini Pro モデルにアクセスできます。このラボでは、Vertex AI Gemini API と Vertex AI SDK for Python を使用して、Gemini 1.0 Pro(gemini-1.0-pro
)モデルと Gemini 1.0 Pro Vision(gemini-1.0-pro-vision
)モデルを操作する方法を学びます。
Vertex AI Gemini API
Vertex AI Gemini API は、Gemini モデルを操作するための統合インターフェースを提供します。現在、Gemini API では次の 2 つのモデルを利用できます。
-
Gemini 1.0 Pro モデル(
gemini-1.0-pro
): 自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。 -
Gemini 1.0 Pro Vision モデル(
gemini-1.0-pro-vision
): マルチモーダル プロンプトをサポートします。プロンプト リクエストにテキスト、画像、動画を含めて、テキストまたはコードのレスポンスを取得できます。
Gemini API を操作するには、次の方法を使用します。
- Vertex AI Studio を使用して迅速なテストとコマンド生成を行う
- cURL コマンドを使用する
- Vertex AI SDK を使用する
このラボでは、Vertex AI SDK for Python を使用して Vertex AI Gemini API を呼び出す方法に焦点を合わせます。
詳細については、Vertex AI の生成 AI に関するドキュメントをご覧ください。
前提条件
このラボを開始する前に、次のコンセプトを理解しておく必要があります。
- Python プログラミングの基本的な知識
- API の仕組みに関する一般的な知識
- Vertex AI Workbench の Jupyter ノートブックでの Python コードの実行
目標
このラボでは、次のタスクの実行方法について学びます。
- Vertex AI SDK for Python をインストールする
- Gemini 1.0 Pro(
gemini-1.0-pro
)モデルを使用してテキストを生成する - Gemini 1.0 Pro Vision(
gemini-1.0-pro-vision
)マルチモーダル モデルを使用して、テキスト、画像、動画の組み合わせからテキストを生成する
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
タスク 1. Vertex AI Workbench でノートブックを開く
-
Google Cloud コンソールのナビゲーション メニューで、[Vertex AI] > [ワークベンチ] をクリックします。
-
インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。
Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。
タスク 2. ノートブックを設定する
-
ファイルをクリックします。 -
ノートブックの「Getting Started」(スタートガイド)セクションと「Import libraries」(ライブラリのインポート)セクションをすべて実行します。
- [Project ID](プロジェクト ID)に
を使用し、[Location](場所)に を使用します。
- [Project ID](プロジェクト ID)に
以降のセクションでは、ノートブック セルの実行を通して、Vertex AI SDK for Python で Vertex AI Gemini API を使用する方法を見ていきます。
タスク 3. Gemini 1.0 Pro モデルを使用する
Gemini 1.0 Pro(gemini-1.0-pro
)モデルは、自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。このタスクでは、ノートブック セルの実行を通して、Gemini 1.0 Pro モデルを使用してテキスト プロンプトからテキストを生成する方法を見ていきます。
テキスト プロンプトからテキストを生成する
テキスト プロンプトをモデルに送信します。Gemini 1.0 Pro(gemini-1.0-pro
)モデルは、ストリーミング応答メカニズムを提供しています。このアプローチでは、完全な応答を待つ必要はありません。フラグメントにアクセスできるようになり次第、フラグメントの処理を開始できます。
- ノートブックの [Generate text from text prompts](テキスト プロンプトからテキストを生成する)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
タスク 4. Gemini 1.0 Pro Vision モデルを使用する
Gemini 1.0 Pro Vision(gemini-1.0-pro-vision
)は、マルチモーダル プロンプトに対応したマルチモーダル モデルです。プロンプト リクエストにテキスト、画像、動画を含めて、テキストまたはコードのレスポンスを取得できます。このタスクでは、ノートブックのセルを実行し、Gemini 1.0 Pro Vision モデルを使用してテキストと画像のプロンプトからテキストを生成し、動画ファイルからテキストを生成する方法を見ていきます。
ローカルの画像とテキストからテキストを生成する
- ノートブックの [Generate text from local image and text](ローカルの画像とテキストからテキストを生成する)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
テキストと画像のプロンプトからテキストを生成する
-
ノートブックの [Generate text from text & image(s)](テキストと画像からテキストを生成する)セクションを実行します。
テキストと画像からテキストを生成する。
複数の画像とテキストのプロンプトを組み合わせて、少数ショット プロンプトを実行する
-
ノートブックの [Combining multiple images and text prompts for few-shot prompting](複数の画像とテキストのプロンプトを組み合わせて、少数ショット プロンプトを実行する)セクションを実行します。
少数ショット プロンプトを実行する。
動画ファイルからテキストを生成する
-
ノートブックの [Generate text from a video file](動画ファイルからテキストを生成する)セクションを実行します。
動画ファイルからテキストを生成する。
お疲れさまでした
このラボでは、Vertex AI Gemini API と Vertex AI SDK for Python を使用して、Gemini 1.0 Pro(gemini-1.0-pro
)と Gemini 1.0 Pro Vision(gemini-1.0-pro-vision
)という 2 つのモデルを操作する方法について説明しました。以上の演習を通じて、Vertex AI Gemini API の機能と Python SDK とのシームレスな統合について実用的なインサイトを得ることができました。
次のステップと詳細情報
- Vertex AI のドキュメントで生成 AI について確認する。
- Google Cloud Tech YouTube チャンネルで、生成 AI の詳細を確認する。
- Google Cloud 生成 AI の公式リポジトリ
- Gemini のノートブックの例
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 5 月 31 日
ラボの最終テスト日: 2024 年 5 月 31 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。