Google Cloud Next 2024 Learning Path navigate_next Gemini を使用したマルチモダリティ

知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

Gemini を使用したマルチモダリティ

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 中級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP1210
概要
目標
設定と要件
タスク 1. Vertex AI Workbench でノートブックを開く
タスク 2. generative-ai フォルダを開く
タスク 3. Gemini Pro Vision モデルを使用する
お疲れさまでした

知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

GSP1210

Google Cloud セルフペースラボ

概要

Gemini は、Google の DeepMind が開発した、生成 AI モデルのファミリーであり、マルチモーダルユースケース用に設計されています。Gemini API を使用すると、Gemini Pro Vision モデルと Gemini Pro モデルにアクセスできます。このラボでは、Gemini を活用したさまざまなマルチモーダルユースケースの実証に焦点を当て、Vertex AI Gemini API を使用してテキスト、画像、動画のプロンプトからテキストを生成する方法を学びます。

マルチモダリティ

テキストのみの LLM とは異なり、Gemini Pro Vision のマルチモダリティは、次のようなさまざまな新しいユースケースに使用できます。

テキストと画像を入力として使用したユースケースの例:

写真に含まれているオブジェクトの検出
画面とインターフェースの理解
図形描画と抽象化の理解
グラフと図式の理解
ユーザー設定に基づいた、画像の推奨
画像間の比較による類似、異常、相違の抽出

テキストと動画を入力として使用したユースケースの例:

動画の説明の生成
動画全体からのオブジェクトのタグの抽出
動画のハイライトやメッセージの抽出

目標

このラボでは、次の作業を行います。

Vertex AI Gemini API を使用して、テキスト、画像、動画のプロンプトからテキストを生成する。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモードまたはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。

ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。

注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウでリンクを開く] を選択します）。

ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] パネルでも [ユーザー名] を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] パネルでも [パスワード] を確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスのリストを含むメニューを表示するには、左上のナビゲーションメニューをクリックします。ナビゲーションメニューアイコン

すべての推奨 API を有効化

Google Cloud コンソールのナビゲーションメニューで、[Vertex AI] をクリックします。
[すべての推奨 API を有効化] をクリックします。

タスク 1. Vertex AI Workbench でノートブックを開く

Google Cloud コンソールのナビゲーションメニューで、[Vertex AI] > [ワークベンチ] をクリックします。
[ユーザー管理のノートブック] ページで、generative-ai-jupyterlab ノートブックを見つけて、[JupyterLab を開く] ボタンをクリックします。

新しいブラウザタブで JupyterLab インターフェースが開きます。

タスク 2. generative-ai フォルダを開く

ノートブックの左側にある generative-ai フォルダに移動します。
/gemini/use-cases/ フォルダに移動します。
intro_multimodal_use_cases.ipynb ファイルをクリックします。
ノートブックの「Getting Started」（スタートガイド）セクションと「Import libraries」（ライブラリのインポート）セクションをすべて実行します。
- [Project ID]（プロジェクト ID）にはを、[Location]（場所）にはを使用します。

注: 「Colab only」（Colab のみ）と記載されているノートブックセルは省略できます。

以降のセクションでは、ノートブックセルの実行を通して、Vertex AI SDK for Python で Vertex AI Gemini API を使用する方法を見ていきます。

タスク 3. Gemini Pro Vision モデルを使用する

Gemini Pro Vision（gemini-pro-vision）は、マルチモーダルプロンプトに対応したマルチモーダルモデルです。プロンプトリクエストにテキスト、画像、動画を含めて、テキストまたはコードのレスポンスを取得できます。

このタスクでは、ノートブックセルの実行を通して、Gemini Pro Vision モデルを使用する方法を見ていきます。目標を達成するたびに、ここに戻って進行状況を確認できます。

複数の画像にわたる画像理解

Gemini の機能の一つに、複数の画像にわたる推論があります。この例では、Gemini を使用して、果物と価格表の画像から食料品の合計費用を計算します。

ノートブックの「Image understanding across multiple images」（複数の画像にわたる画像理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。複数の画像にわたる画像理解

画面とインターフェースの理解

Gemini は、アプライアンスの画面、UI、スクリーンショット、アイコン、レイアウトからも情報を抽出できます。この例では、Gemini を使用してガスコンロから情報を抽出し、ユーザーが UI の操作とさまざまな言語での対応を行えるようにします。

ノートブックの「Understanding Screens and Interfaces」（画面とインターフェースの理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。画面とインターフェースの理解

技術図内のエンティティリレーションシップの理解

Gemini は、図式を理解して、最適化やコード生成といった実践的な手順を取ることを可能にするマルチモーダル機能を備えています。この例では、Gemini がエンティティリレーションシップ（ER）図を解読して、テーブル間のリレーションシップを理解し、BigQuery などの特定の環境での最適化の要件を識別し、対応するコードまで生成できることを確認します。

ノートブックの「Understanding entity relationships in technical diagrams」（技術図内のエンティティリレーションシップの理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。技術図内のエンティティリレーションシップの理解

複数の画像に基づく推奨事項

Gemini は、画像比較から推奨事項を提供できます。この機能は、e コマースや小売などの業界で有用です。この例では、Gemini を使用して、卵型の顔に似合う眼鏡を推奨します。

ノートブックの「Recommendations based on multiple images」（複数の画像に基づく推奨事項）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。複数の画像に基づく推奨事項

類似点 / 相違点

Gemini は画像の比較を通して、オブジェクト間の類似点や相違点を識別できます。この例では、Gemini を使用して、同じ場所の 2 つの画像を比較し、相違点を識別します。

ノートブックの「Similarity/Differences」（類似点 / 相違点）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。類似点 / 相違点

動画の説明の生成

Gemini は、動画の説明を生成できます。この例では、Gemini を使用して、地中海沿岸の動画の説明を生成します。

ノートブックの「Generating a video description」（動画の説明の生成）セクションを実行します。

動画全体からのオブジェクトのタグの抽出

Gemini は、動画全体からタグを抽出することもできます。この例では、Gemini を使用して、写真撮影の動画全体からオブジェクトのタグを抽出し、ハッシュタグを生成します。

ノートブックの「Extracting tags of objects throughout the video」（動画全体からのオブジェクトのタグの抽出）セクションを実行します。

動画に関するその他の質問への回答

Gemini は、動画に関する質問に答えることができます。この例では、Gemini を使用して、動画に関する質問を受けて、JSON レスポンスを返します。

ノートブックの「Asking more questions about a video」（動画に関するその他の質問への回答）セクションを実行します。

動画の範囲を超えた追加情報の取得

Gemini は動画の範囲を超えて追加情報を取得することもできます。この例では、Gemini を使用して、鉄道路線に関する特定の質問への回答など、動画に関する追加情報を取得します。

ノートブックの「Retrieving extra information beyond the vide」（動画の範囲を超えた追加情報の取得）セクションを実行します。

お疲れさまでした

これでラボは完了です。このラボでは、Vertex AI Gemini API を使用して、テキストや動画のプロンプトからテキストを生成する方法を学びました。

次のステップと詳細情報

Vertex AI のドキュメントで生成 AI について確認する。
Google Cloud Tech YouTube チャンネルで、生成 AI の詳細を確認する。
Google Cloud 生成 AI の公式リポジトリ
Gemini のノートブックの例

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 3 月 7 日

ラボの最終テスト日: 2024 年 3 月 7 日

Google Cloud Skills Boost

Gemini を使用したマルチモダリティ

GSP1210

概要

マルチモダリティ

目標

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

すべての推奨 API を有効化

タスク 1. Vertex AI Workbench でノートブックを開く

タスク 2. generative-ai フォルダを開く

タスク 3. Gemini Pro Vision モデルを使用する

複数の画像にわたる画像理解

画面とインターフェースの理解

技術図内のエンティティ リレーションシップの理解

複数の画像に基づく推奨事項

類似点 / 相違点

動画の説明の生成

動画全体からのオブジェクトのタグの抽出

動画に関するその他の質問への回答

動画の範囲を超えた追加情報の取得

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

技術図内のエンティティリレーションシップの理解