检查点
Image understanding across multiple images
/ 20
Understanding Screens and Interfaces
/ 20
Understanding entity relationships in technical diagrams
/ 20
Recommendations based on multiple images
/ 20
Similarity/Differences
/ 20
Gemini 的多模态
GSP1210
概览
Gemini 是 Google DeepMind 开发的一系列生成式 AI 模型,专为多模态应用场景而设计。通过 Gemini API,您可以使用 Gemini Pro Vision 和 Gemini Pro 模型。此实验着重展示 Gemini 可发挥作用的各种多模态应用场景。在本实验中,您将学习如何使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。
多模态
与纯文本 LLM 相比,Gemini Pro Vision 的多模态特性可用于许多新的应用场景:
使用文本和图片作为输入的示例应用场景有:
- 检测照片中的对象
- 理解屏幕和界面
- 理解绘画和抽象内容
- 理解各类图表
- 根据用户偏好推荐图片
- 比较不同图片以发现其相似、异常或不同之处
使用文本和视频作为输入的示例应用场景有:
- 生成视频说明
- 提取视频中对象的标签
- 提取视频中的精彩片断/相关讯息
目标
在本实验中,您将执行以下操作:
- 使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。
设置和要求
点击“开始实验”按钮前的注意事项
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。
为完成此实验,您需要:
- 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
- 完成实验的时间 - 请注意,实验开始后无法暂停。
如何开始实验并登录 Google Cloud 控制台
-
点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:
- 打开 Google Cloud 控制台按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息(如果需要)
-
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示登录页面。
提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。
注意:如果您看见选择账号对话框,请点击使用其他账号。 -
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}} 您也可以在实验详细信息面板中找到用户名。
-
点击下一步。
-
复制下面的密码,然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}} 您也可以在实验详细信息面板中找到密码。
-
点击下一步。
重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。 -
继续在后续页面中点击以完成相应操作:
- 接受条款及条件。
- 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
启用所有推荐的 API
-
在 Google Cloud 控制台的导航菜单中,点击 Vertex AI。
-
点击启用所有推荐的 API。
任务 1. 在 Vertex AI Workbench 中打开笔记本
-
在 Google Cloud 控制台的导航菜单中依次点击 Vertex AI > Workbench。
-
找到
实例,然后点击 Open JupyterLab(打开 JupyterLab)按钮。
Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。
任务 2. 设置笔记本
-
点击
文件。 -
在选择内核对话框中,从可用内核列表中选择 Python 3。
-
运行笔记本的开始使用和导入库部分。
- 对于项目 ID,请使用
;对于位置,使用 。
- 对于项目 ID,请使用
在后续部分中,您将运行多个笔记本单元,了解如何搭配使用 Vertex AI Gemini API 与 Vertex AI SDK for Python。
任务 3. 使用 Gemini Pro Vision 模型
Gemini Pro Vision (gemini-pro-vision) 是一个支持多模态提示的多模态模型。您可以在提示请求中包含文本、图片和视频,并获取文本或代码回答。
在本任务中,快速浏览笔记本单元,了解如何使用 Gemini Pro Vision 模型。完成目标后,返回此处以检查您的进度。
根据多张图片进行推理
Gemini 的一项功能是通过多张图片进行推理。在此示例中,您将使用 Gemini 分析关于水果的图片和价格表,以便推算出食物的总费用。
快速浏览此笔记本的根据多张图片进行推理部分。
点击检查我的进度,验证已完成以下目标:
理解屏幕和界面
Gemini 还可以从设备屏幕、界面、屏幕截图、图标和布局中提取信息。在此示例中,您将使用 Gemini 从一张关于炉灶的图片中提取信息,帮助用户了解炉灶的界面,并使用不同的语言来回答用户的问题:
快速浏览此笔记本的理解屏幕和界面部分。
点击检查我的进度,验证已完成以下目标:
理解技术图表中的实体关系
Gemini 具备多模态功能,这使其能够理解图表并执行一些可行的操作,例如进行优化或生成代码。在此示例中,您将看到 Gemini 能够解读实体关系 (ER) 图表,理解表之间的关系,确定特定环境(例如 BigQuery)中的优化要求,甚至生成相应的代码。
快速浏览此笔记本的理解技术图表中的实体关系部分。
点击检查我的进度,验证已完成以下目标:
根据多张图片提出建议
Gemini 能够进行图片比较并提供建议。这一功能在电子商务和零售等行业非常实用。在此示例中,您将使用 Gemini 来推荐适合鹅蛋脸型的眼镜。
快速浏览此笔记本的根据多张图片提出建议部分。
点击检查我的进度,验证已完成以下目标:
相似/不同之处
Gemini 可以对不同的图片进行比较,并找出对象之间的相似/不同之处。在此示例中,您将使用 Gemini 比较为同一地点拍摄的两张图片,并找出它们的不同之处。
快速浏览此笔记本的相似/不同之处部分。
点击检查我的进度,验证已完成以下目标:
生成视频说明
Gemini 可以生成视频说明。在此示例中,您将使用 Gemini 为一段关于地中海海岸的视频生成说明。
快速浏览此笔记本的生成视频说明部分。
提取视频中对象的标签
Gemini 还可以提取视频的标签。在此示例中,您将使用 Gemini 从一段关于拍摄照片的视频中提取对象的标签,并生成 # 标签。
快速浏览此笔记本的提取视频中对象的标签部分。
提出更多关于视频的问题
Gemini 可以回答关于视频的问题。在此示例中,您将使用 Gemini 回答有关视频的问题并返回 JSON 响应。
快速浏览此笔记本的提出更多关于视频的问题部分。
检索视频中不包含的额外信息
Gemini 还可以检索视频本身不包含的额外信息。在此示例中,您将使用 Gemini 检索关于视频的额外信息,例如询问关于火车路线的特定问题。
快速浏览此笔记本的检索视频中不包含的额外信息部分。
恭喜!
您现已完成本实验!在本实验中,您学习了如何使用 Vertex AI Gemini API 基于文本和图片提示生成文本。
后续步骤/了解详情
- 查看 Vertex AI 上的生成式 AI 文档。
- 前往 YouTube 频道 Google Cloud Tech 详细了解生成式 AI。
- Google Cloud 生成式 AI 官方仓库
- Gemini 笔记本示例
Google Cloud 培训和认证
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2024 年 10 月 8 日
上次测试实验的时间:2024 年 10 月 8 日
版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。