arrow_back

Gemini 的多模态

登录 加入
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

Gemini 的多模态

实验 1 小时 universal_currency_alt 5 个积分 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

GSP1210

Google Cloud 自定进度实验

概览

Gemini 是 Google DeepMind 开发的一系列生成式 AI 模型,专为多模态应用场景而设计。通过 Gemini API,您可以使用 Gemini Pro Vision 和 Gemini Pro 模型。此实验着重展示 Gemini 可发挥作用的各种多模态应用场景。在本实验中,您将学习如何使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

多模态

与纯文本 LLM 相比,Gemini Pro Vision 的多模态特性可用于许多新的应用场景:

使用文本和图片作为输入的示例应用场景有:

  • 检测照片中的对象
  • 理解屏幕和界面
  • 理解绘画和抽象内容
  • 理解各类图表
  • 根据用户偏好推荐图片
  • 比较不同图片以发现其相似、异常或不同之处

使用文本和视频作为输入的示例应用场景有:

  • 生成视频说明
  • 提取视频中对象的标签
  • 提取视频中的精彩片断/相关讯息

目标

在本实验中,您将执行以下操作:

  • 使用 Vertex AI Gemini API 来通过文本、图片和视频提示生成文本。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。我们会为您提供新的临时凭据,让您可以在实验规定的时间内用来登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:如果您已有自己的个人 Google Cloud 账号或项目,请不要在此实验中使用,以避免您的账号产生额外的费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个弹出式窗口供您选择付款方式。左侧是实验详细信息面板,其中包含以下各项:

    • 打开 Google Cloud 控制台按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示登录页面。

    提示:请将这些标签页安排在不同的窗口中,并将它们并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在实验详细信息面板中找到用户名

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在实验详细信息面板中找到密码

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本次实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于该账号为临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需查看列有 Google Cloud 产品和服务的菜单,请点击左上角的导航菜单导航菜单图标

启用所有推荐的 API

  1. 在 Google Cloud 控制台的导航菜单中,点击 Vertex AI

  2. 点击启用所有推荐的 API

任务 1. 在 Vertex AI Workbench 中打开笔记本

  1. 在 Google Cloud 控制台的导航菜单中依次点击 Vertex AI > Workbench

  2. 用户管理的笔记本页面上,找到 generative-ai-jupyterlab 笔记本并点击打开 JupyterLab 按钮。

JupyterLab 界面会在新的浏览器标签页中打开。

任务 2. 打开 generative-ai 文件夹

  1. 前往笔记本左侧的 generative-ai 文件夹。

  2. 前往 /gemini/use-cases/ 文件夹。

  3. 点击 intro_multimodal_use_cases.ipynb 文件

  4. 快速浏览一下笔记本的开始导入库部分。

    • 对于项目 ID,请使用 ;对于位置,使用
注意:您可以跳过任何标为“仅限 Colab”的笔记本单元。

在后续部分中,您将运行多个笔记本单元,了解如何搭配使用 Vertex AI Gemini API 与 Vertex AI SDK for Python。

任务 3. 使用 Gemini Pro Vision 模型

Gemini Pro Vision (gemini-pro-vision) 是一个支持多模态提示的多模态模型。您可以在提示请求中包含文本、图片和视频,并获取文本或代码回答。

在本任务中,快速浏览笔记本单元,了解如何使用 Gemini Pro Vision 模型。完成目标后,返回此处以检查您的进度。

根据多张图片进行推理

Gemini 的一项功能是通过多张图片进行推理。在此示例中,您将使用 Gemini 分析关于水果的图片和价格表,以便推算出食物的总费用。

快速浏览此笔记本的根据多张图片进行推理部分。

点击检查我的进度,验证已完成以下目标: 根据多张图片进行推理

理解屏幕和界面

Gemini 还可以从设备屏幕、界面、屏幕截图、图标和布局中提取信息。在此示例中,您将使用 Gemini 从一张关于炉灶的图片中提取信息,帮助用户了解炉灶的界面,并使用不同的语言来回答用户的问题:

快速浏览此笔记本的理解屏幕和界面部分。

点击检查我的进度,验证已完成以下目标: 理解屏幕和界面

理解技术图表中的实体关系

Gemini 具备多模态功能,这使其能够理解图表并执行一些可行的操作,例如进行优化或生成代码。在此示例中,您将看到 Gemini 能够解读实体关系 (ER) 图表,理解表之间的关系,确定特定环境(例如 BigQuery)中的优化要求,甚至生成相应的代码。

快速浏览此笔记本的理解技术图表中的实体关系部分。

点击检查我的进度,验证已完成以下目标: 理解技术图表中的实体关系

根据多张图片提出建议

Gemini 能够进行图片比较并提供建议。这一功能在电子商务和零售等行业非常实用。在此示例中,您将使用 Gemini 来推荐适合鹅蛋脸型的眼镜。

快速浏览此笔记本的根据多张图片提出建议部分。

点击检查我的进度,验证已完成以下目标: 根据多张图片提出建议

相似/不同之处

Gemini 可以对不同的图片进行比较,并找出对象之间的相似/不同之处。在此示例中,您将使用 Gemini 比较为同一地点拍摄的两张图片,并找出它们的不同之处。

快速浏览此笔记本的相似/不同之处部分。

点击检查我的进度,验证已完成以下目标: 相似/不同之处

生成视频说明

Gemini 可以生成视频说明。在此示例中,您将使用 Gemini 为一段关于地中海海岸的视频生成说明。

快速浏览此笔记本的生成视频说明部分。

提取视频中对象的标签

Gemini 还可以提取视频的标签。在此示例中,您将使用 Gemini 从一段关于拍摄照片的视频中提取对象的标签,并生成 # 标签。

快速浏览此笔记本的提取视频中对象的标签部分。

提出更多关于视频的问题

Gemini 可以回答关于视频的问题。在此示例中,您将使用 Gemini 回答有关视频的问题并返回 JSON 响应。

快速浏览此笔记本的提出更多关于视频的问题部分。

检索视频中不包含的额外信息

Gemini 还可以检索视频本身不包含的额外信息。在此示例中,您将使用 Gemini 检索关于视频的额外信息,例如询问关于火车路线的特定问题。

快速浏览此笔记本的检索视频中不包含的额外信息部分。

恭喜!

您现已完成本实验!在本实验中,您学习了如何使用 Vertex AI Gemini API 基于文本和图片提示生成文本。

后续步骤/了解详情

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2024 年 3 月 7 日

上次测试实验的时间:2024 年 3 月 7 日

版权所有 2024 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

此内容目前不可用

We will notify you via email when it becomes available

太好了!

We will contact you via email if it becomes available