
始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
Install GenAI SDK for Python and import libraries
/ 10
Download custom Python utilities & required files
/ 10
Building metadata of documents containing text and images
/ 10
Text Search
/ 10
Image Search
/ 20
Comparative Reasoning
/ 20
Print citations and references
/ 20
Gemini は、Google DeepMind が開発した生成 AI モデルのファミリーであり、マルチモーダル ユースケース用に設計されています。
検索拡張生成(RAG)は、LLM が外部データにアクセスできるようにするための一般的なパラダイムで、ハルシネーションを軽減するためのグラウンディング メカニズムとしても使用されています。RAG モデルは、大規模なコーパスから関連するドキュメントを取得し、取得したドキュメントに基づいて回答を生成するようにトレーニングされています。このラボでは、テキストと画像の両方を含む財務ドキュメントに対して Q&A を行うマルチモーダル RAG の実行方法について学習します。
マルチモーダル RAG には、テキストベースの RAG と比べて以下のような利点があります。
このラボでは、Vertex AI の Gemini API、テキスト エンベディング、マルチモーダル エンベディングと RAG を組み合わせて使用して、ドキュメント検索エンジンを構築する方法について説明します。
このラボを開始する前に、以下について理解しておく必要があります。
このラボでは、次の方法について学びます。
こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。
このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。
ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
その後次のように進みます。
その後、このタブで Google Cloud コンソールが開きます。
Google Cloud コンソールのナビゲーション メニュー()で、[Vertex AI] > [ワークベンチ] の順にクリックします。
Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。
[Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
ノートブックの「Getting Started」(スタートガイド)セクションと「Import libraries」(ライブラリのインポート)セクションをすべて実行します。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
次のセクションでは、ノートブック セルの実行を通して、Gemini API を使用してマルチモーダル RAG システムを構築する方法を確認します。
Gemini 2.0 Flash(gemini-2.0-flash
)モデルは、自然言語タスク、マルチターンのテキストおよびコードチャット、コード生成を処理するように設計されています。このセクションでは、読みやすさを向上させるために、このノートブックに必要ないくつかのヘルパー関数をダウンロードします。GitHub で直接コード(intro_multimodal_rag_utils.py
)を表示することもできます。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
このラボで使用するソースデータは、Google-10K の変更バージョンで、企業の財務実績、事業運営、管理、リスク要因の包括的な概要を提供します。オリジナルのドキュメントはかなり大きいため、代わりに 14 ページのみの変更バージョンを使用します。このバージョンはパート 1 とパート 2 の 2 つに分かれています。ボリュームを小さくしていますが、サンプル ドキュメントには、テキストに加えて、表、チャート、グラフなどの画像も含まれています。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
では、簡単な質問で検索を開始し、テキスト エンベディングを使用したシンプルなテキスト検索で、その質問に回答できるかどうかを確認しましょう。期待される回答は、さまざまな株式タイプについて、Google の 1 株あたり当期純利益と希薄化当期純利益の値を示すことです。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
画像を検索するにあたり、単語を入力する代わりに、実際の画像を手がかりとして使用します。2 年間の収益費用に関する数字が記載された表があり、同じドキュメントまたは複数のドキュメントから、その表に似た他の画像を見つけたいと思っています。
Gemini とエンベディングを活用して、ユーザー入力に基づいて類似したテキストや画像を特定する機能は、マルチモーダル RAG システムの開発において重要な基盤となります。これについては、次のタスクで取り上げます。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
クラス A の Google 株が、S&P 500 や他のテクノロジー企業などの他の株と比較してどのように推移したかを示すグラフがあるとします。クラス C の株が、そのグラフと比較してどのように推移したかを知りたいと思っています。単に類似した画像を探すのではなく、関連する画像を比較して、どの株に投資するのが良いかを答えるように Gemini に指示することができます。この場合、Gemini はそのように考えた理由も説明します。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
では、すべてをまとめてマルチモーダル RAG を実装しましょう。マルチモーダル RAG を実装するには、前のセクションで説明したすべての要素を使用します。手順は以下のとおりです。
テキスト検索
で説明したのと同様の方法を使用して、ドキュメント内のページからすべてのテキスト チャンクを検索します。画像検索
で説明したのと同じ方法を使用して、image_description
とマッチングさせるユーザークエリに基づいてページから類似した画像をすべて検索します。context_text
および context_images
として結合します。[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
このラボでは、マルチモーダル検索拡張生成 (RAG) を使用して堅牢なドキュメント検索エンジンを構築する方法を学習しました。テキストと画像の両方を含むドキュメントのメタデータを抽出して保存し、ドキュメントのエンベディングを生成する方法を学びました。また、テキストクエリと画像クエリを使用してメタデータを検索し、類似したテキストと画像を見つける方法についても学びました。最後に、テキストクエリを入力として使用し、テキストと画像の両方を使用してコンテキストに沿った回答を検索する方法を学びました。
以下のリソースで Gemini に関する理解を深めましょう。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2025 年 5 月 15 日
ラボの最終テスト日: 2025 年 5 月 15 日
Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください