欢迎加入我们的社区，一起测试和分享您的知识！

done

学习 700 多个动手实验和课程并获得相关技能徽章

Gemini 的多模态

实验 1 小时 universal_currency_alt 5 个积分 show_chart 中级

info 此实验可能会提供 AI 工具来支持您学习。

GSP1210
概览
目标
设置和要求
任务 1. 在 Vertex AI Workbench 中打开笔记本
任务 2. 设置笔记本
任务 3. 使用 Gemini Pro Vision 模型
恭喜！

欢迎加入我们的社区，一起测试和分享您的知识！

done

学习 700 多个动手实验和课程并获得相关技能徽章

GSP1210

Google Cloud 自定进度实验

概览

Gemini 是 Google DeepMind 开发的一系列生成式 AI 模型，专为多模态应用场景而设计。通过 Gemini API，您可以使用 Gemini Pro Vision 和 Gemini Pro 模型。此实验着重展示 Gemini 可发挥作用的各种多模态应用场景。在本实验中，您将学习如何使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

多模态

与纯文本 LLM 相比，Gemini Pro Vision 的多模态特性可用于许多新的应用场景：

使用文本和图片作为输入的示例应用场景有：

检测照片中的对象
理解屏幕和界面
理解绘画和抽象内容
理解各类图表
根据用户偏好推荐图片
比较不同图片以发现其相似、异常或不同之处

使用文本和视频作为输入的示例应用场景有：

生成视频说明
提取视频中对象的标签
提取视频中的精彩片断/相关讯息

目标

在本实验中，您将执行以下操作：

使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。我们会为您提供新的临时凭据，让您可以在实验规定的时间内用来登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：如果您已有自己的个人 Google Cloud 账号或项目，请不要在此实验中使用，以避免您的账号产生额外的费用。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板，其中包含以下各项：
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息（如果需要）
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示登录页面。

提示：请将这些标签页安排在不同的窗口中，并将它们并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在实验详细信息面板中找到用户名。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在实验详细信息面板中找到密码。
点击下一步。
重要提示：您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。注意：在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
继续在后续页面中点击以完成相应操作：
- 接受条款及条件。
- 由于该账号为临时账号，请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中打开 Google Cloud 控制台。

注意：如需查看列有 Google Cloud 产品和服务的菜单，请点击左上角的导航菜单。导航菜单图标

启用所有推荐的 API

在 Google Cloud 控制台的导航菜单中，点击 Vertex AI。
点击启用所有推荐的 API。

任务 1. 在 Vertex AI Workbench 中打开笔记本

在 Google Cloud 控制台的导航菜单中依次点击 Vertex AI > Workbench。
找到实例，然后点击 Open JupyterLab（打开 JupyterLab）按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

任务 2. 设置笔记本

点击文件。
在选择内核对话框中，从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
- 对于项目 ID，请使用；对于位置，使用。

注意：您可以跳过任何标为“仅限 Colab”的笔记本单元。

在后续部分中，您将运行多个笔记本单元，了解如何搭配使用 Vertex AI Gemini API 与 Vertex AI SDK for Python。

任务 3. 使用 Gemini Pro Vision 模型

Gemini Pro Vision (gemini-pro-vision) 是一个支持多模态提示的多模态模型。您可以在提示请求中包含文本、图片和视频，并获取文本或代码回答。

在本任务中，快速浏览笔记本单元，了解如何使用 Gemini Pro Vision 模型。完成目标后，返回此处以检查您的进度。

根据多张图片进行推理

Gemini 的一项功能是通过多张图片进行推理。在此示例中，您将使用 Gemini 分析关于水果的图片和价格表，以便推算出食物的总费用。

快速浏览此笔记本的根据多张图片进行推理部分。

点击检查我的进度，验证已完成以下目标：根据多张图片进行推理

理解屏幕和界面

Gemini 还可以从设备屏幕、界面、屏幕截图、图标和布局中提取信息。在此示例中，您将使用 Gemini 从一张关于炉灶的图片中提取信息，帮助用户了解炉灶的界面，并使用不同的语言来回答用户的问题：

快速浏览此笔记本的理解屏幕和界面部分。

点击检查我的进度，验证已完成以下目标：理解屏幕和界面

理解技术图表中的实体关系

Gemini 具备多模态功能，这使其能够理解图表并执行一些可行的操作，例如进行优化或生成代码。在此示例中，您将看到 Gemini 能够解读实体关系 (ER) 图表，理解表之间的关系，确定特定环境（例如 BigQuery）中的优化要求，甚至生成相应的代码。

快速浏览此笔记本的理解技术图表中的实体关系部分。

点击检查我的进度，验证已完成以下目标：理解技术图表中的实体关系

根据多张图片提出建议

Gemini 能够进行图片比较并提供建议。这一功能在电子商务和零售等行业非常实用。在此示例中，您将使用 Gemini 来推荐适合鹅蛋脸型的眼镜。

快速浏览此笔记本的根据多张图片提出建议部分。

点击检查我的进度，验证已完成以下目标：根据多张图片提出建议

相似/不同之处

Gemini 可以对不同的图片进行比较，并找出对象之间的相似/不同之处。在此示例中，您将使用 Gemini 比较为同一地点拍摄的两张图片，并找出它们的不同之处。

快速浏览此笔记本的相似/不同之处部分。

点击检查我的进度，验证已完成以下目标：相似/不同之处

生成视频说明

Gemini 可以生成视频说明。在此示例中，您将使用 Gemini 为一段关于地中海海岸的视频生成说明。

快速浏览此笔记本的生成视频说明部分。

提取视频中对象的标签

Gemini 还可以提取视频的标签。在此示例中，您将使用 Gemini 从一段关于拍摄照片的视频中提取对象的标签，并生成 # 标签。

快速浏览此笔记本的提取视频中对象的标签部分。

提出更多关于视频的问题

Gemini 可以回答关于视频的问题。在此示例中，您将使用 Gemini 回答有关视频的问题并返回 JSON 响应。

快速浏览此笔记本的提出更多关于视频的问题部分。

检索视频中不包含的额外信息

Gemini 还可以检索视频本身不包含的额外信息。在此示例中，您将使用 Gemini 检索关于视频的额外信息，例如询问关于火车路线的特定问题。

快速浏览此笔记本的检索视频中不包含的额外信息部分。

恭喜！

您现已完成本实验！在本实验中，您学习了如何使用 Vertex AI Gemini API 基于文本和图片提示生成文本。

后续步骤/了解详情

查看 Vertex AI 上的生成式 AI 文档。
前往 YouTube 频道 Google Cloud Tech 详细了解生成式 AI。
Google Cloud 生成式 AI 官方仓库
Gemini 笔记本示例

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间：2024 年 10 月 8 日

上次测试实验的时间：2024 年 10 月 8 日