チェックポイント
Image understanding across multiple images
/ 20
Understanding Screens and Interfaces
/ 20
Understanding entity relationships in technical diagrams
/ 20
Recommendations based on multiple images
/ 20
Similarity/Differences
/ 20
Gemini を使用したマルチモダリティ
GSP1210
概要
Gemini は、Google の DeepMind が開発した、生成 AI モデルのファミリーであり、マルチモーダル ユースケース用に設計されています。Gemini API を使用すると、Gemini Pro Vision モデルと Gemini Pro モデルにアクセスできます。このラボでは、Gemini を活用したさまざまなマルチモーダル ユースケースの実証に焦点を当て、Vertex AI Gemini API を使用してテキスト、画像、動画のプロンプトからテキストを生成する方法を学びます。
マルチモダリティ
テキストのみの LLM とは異なり、Gemini Pro Vision のマルチモダリティは、次のようなさまざまな新しいユースケースに使用できます。
テキストと画像を入力として使用したユースケースの例:
- 写真に含まれているオブジェクトの検出
- 画面とインターフェースの理解
- 図形描画と抽象化の理解
- グラフと図式の理解
- ユーザー設定に基づいた、画像の推奨
- 画像間の比較による類似、異常、相違の抽出
テキストと動画を入力として使用したユースケースの例:
- 動画の説明の生成
- 動画全体からのオブジェクトのタグの抽出
- 動画のハイライトやメッセージの抽出
目標
このラボでは、次の作業を行います。
- Vertex AI Gemini API を使用して、テキスト、画像、動画のプロンプトからテキストを生成する。
設定と要件
[ラボを開始] ボタンをクリックする前に
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
- 標準的なインターネット ブラウザ(Chrome を推奨)
- ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
ラボを開始して Google Cloud コンソールにログインする方法
-
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報(ある場合)
-
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウでリンクを開く] を選択します)。
ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。 -
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}} [ラボの詳細] パネルでも [ユーザー名] を確認できます。
-
[次へ] をクリックします。
-
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}} [ラボの詳細] パネルでも [パスワード] を確認できます。
-
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。 -
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。
その後、このタブで Google Cloud コンソールが開きます。
すべての推奨 API を有効化
-
Google Cloud コンソールのナビゲーション メニューで、[Vertex AI] をクリックします。
-
[すべての推奨 API を有効化] をクリックします。
タスク 1. Vertex AI Workbench でノートブックを開く
-
Google Cloud コンソールのナビゲーション メニューで、[Vertex AI] > [ワークベンチ] をクリックします。
-
インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。
Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。
タスク 2. ノートブックを設定する
-
ファイルをクリックします。 -
[Select Kernel](カーネルの選択)ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
-
ノートブックの「Getting Started」(スタートガイド)セクションと「Import libraries」(ライブラリのインポート)セクションをすべて実行します。
- [Project ID](プロジェクト ID)に
を使用し、[Location](場所)に を使用します。
- [Project ID](プロジェクト ID)に
以降のセクションでは、ノートブック セルの実行を通して、Vertex AI SDK for Python で Vertex AI Gemini API を使用する方法を見ていきます。
タスク 3. Gemini Pro Vision モデルを使用する
Gemini Pro Vision(gemini-pro-vision)は、マルチモーダル プロンプトに対応したマルチモーダル モデルです。プロンプト リクエストにテキスト、画像、動画を含めて、テキストまたはコードのレスポンスを取得できます。
このタスクでは、ノートブック セルの実行を通して、Gemini Pro Vision モデルを使用する方法を見ていきます。目標を達成するたびに、ここに戻って進行状況を確認できます。
複数の画像にわたる画像理解
Gemini の機能の一つに、複数の画像にわたる推論があります。この例では、Gemini を使用して、果物と価格表の画像から食料品の合計費用を計算します。
ノートブックの「Image understanding across multiple images」(複数の画像にわたる画像理解)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
画面とインターフェースの理解
Gemini は、アプライアンスの画面、UI、スクリーンショット、アイコン、レイアウトからも情報を抽出できます。この例では、Gemini を使用してガスコンロから情報を抽出し、ユーザーが UI の操作とさまざまな言語での対応を行えるようにします。
ノートブックの「Understanding Screens and Interfaces」(画面とインターフェースの理解)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
技術図内のエンティティ リレーションシップの理解
Gemini は、図式を理解して、最適化やコード生成といった実践的な手順を取ることを可能にするマルチモーダル機能を備えています。この例では、Gemini がエンティティ リレーションシップ(ER)図を解読して、テーブル間のリレーションシップを理解し、BigQuery などの特定の環境での最適化の要件を識別し、対応するコードまで生成できることを確認します。
ノートブックの「Understanding entity relationships in technical diagrams」(技術図内のエンティティ リレーションシップの理解)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
複数の画像に基づく推奨事項
Gemini は、画像比較から推奨事項を提供できます。この機能は、e コマースや小売などの業界で有用です。この例では、Gemini を使用して、卵型の顔に似合う眼鏡を推奨します。
ノートブックの「Recommendations based on multiple images」(複数の画像に基づく推奨事項)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
類似点 / 相違点
Gemini は画像の比較を通して、オブジェクト間の類似点や相違点を識別できます。この例では、Gemini を使用して、同じ場所の 2 つの画像を比較し、相違点を識別します。
ノートブックの「Similarity/Differences」(類似点 / 相違点)セクションを実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
動画の説明の生成
Gemini は、動画の説明を生成できます。この例では、Gemini を使用して、地中海沿岸の動画の説明を生成します。
ノートブックの「Generating a video description」(動画の説明の生成)セクションを実行します。
動画全体からのオブジェクトのタグの抽出
Gemini は、動画全体からタグを抽出することもできます。この例では、Gemini を使用して、写真撮影の動画全体からオブジェクトのタグを抽出し、ハッシュタグを生成します。
ノートブックの「Extracting tags of objects throughout the video」(動画全体からのオブジェクトのタグの抽出)セクションを実行します。
動画に関するその他の質問への回答
Gemini は、動画に関する質問に答えることができます。この例では、Gemini を使用して、動画に関する質問を受けて、JSON レスポンスを返します。
ノートブックの「Asking more questions about a video」(動画に関するその他の質問への回答)セクションを実行します。
動画の範囲を超えた追加情報の取得
Gemini は動画の範囲を超えて追加情報を取得することもできます。この例では、Gemini を使用して、鉄道路線に関する特定の質問への回答など、動画に関する追加情報を取得します。
ノートブックの「Retrieving extra information beyond the vide」(動画の範囲を超えた追加情報の取得)セクションを実行します。
お疲れさまでした
これでラボは完了です。このラボでは、Vertex AI Gemini API を使用して、テキストや動画のプロンプトからテキストを生成する方法を学びました。
次のステップと詳細情報
- Vertex AI のドキュメントで生成 AI について確認する。
- Google Cloud Tech YouTube チャンネルで、生成 AI の詳細を確認する。
- Google Cloud 生成 AI の公式リポジトリ
- Gemini のノートブックの例
Google Cloud トレーニングと認定資格
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 10 月 8 日
ラボの最終テスト日: 2024 年 10 月 8 日
Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。