arrow_back

Speech-to-Text API:Qwik Start

登录 加入
Quick tip: Review the prerequisites before you run the lab
Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the student account, which may cause extra charges incurred to your personal account.
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

Speech-to-Text API:Qwik Start

实验 30 分钟 universal_currency_alt 1 个积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
欢迎加入我们的社区,一起测试和分享您的知识!
done
学习 700 多个动手实验和课程并获得相关技能徽章

GSP119

概览

借助 Speech-to-Text API,可以轻松将 Google 语音识别技术集成到开发者应用中。向 Speech-to-Text API 服务发送音频,即可收到转写成的文字。

学习内容

在本实验中,您将学习如何完成以下操作:

  • 创建 API 密钥
  • 创建 Speech-to-Text API 请求
  • 调用 Speech-to-Text API

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:

    • “打开 Google Cloud 控制台”按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示“登录”页面。

    提示:将这些标签页安排在不同的窗口中,并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在“实验详细信息”窗格中找到“用户名”。

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在“实验详细信息”窗格中找到“密码”。

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于这是临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需访问 Google Cloud 产品和服务,请点击导航菜单,或在搜索字段中输入服务或产品的名称。

任务 1. 创建 API 密钥

由于您将使用 curl 向 Speech-to-Text API 发送请求,因此需要生成 API 密钥来传入请求网址。

  1. 要创建 API 密钥,请依次点击导航菜单 > API 和服务 > 凭据

  2. 然后点击创建凭据

  3. 在下拉菜单中选择 API 密钥

  4. 复制您刚刚生成的密钥,然后点击关闭

点击检查我的进度以验证是否完成了以下目标:

创建 API 密钥

现在您已经有了 API 密钥,可以将其保存为一个环境变量,这样就不必在每个请求中都插入该 API 密钥的值。

要执行后续步骤,请使用 SSH 连接到为您预配的实例。

  1. 导航菜单中,选择 Compute Engine。您应该会看到 VM 实例窗口中列出了 linux-instance

  2. 点击 linux-instance 所在行的 SSH 按钮。您将转跳至一个交互式 shell。

  3. 在命令行中,输入以下内容,并将 <YOUR_API_KEY> 替换为之前生成的 API 密钥:

export API_KEY=<YOUR_API_KEY>

在本实验的剩余步骤中请不要离开该 SSH 会话。

任务 2. 创建 Speech-to-Text API 请求

注意:您会用到 Cloud Storage 中预先录制的文件:gs://cloud-samples-tests/speech/brooklyn.flac先听一听该音频文件,然后再将其发送到 Speech-to-Text API
  1. 在 SSH 命令行中创建 request.json。您将使用此文件构建发送至 Speech-to-Text API 的请求:
touch request.json
  1. 打开 request.json
nano request.json 注意: 您可以使用自己首选的命令行编辑器(nanovimemacs)或 gcloud。本实验提供的说明适用于 nano
  1. 将以下内容添加到 request.json 文件中,并使用原始音频样本文件的 uri 值:
{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
  1. control + x,再按 y 保存,最后按 Enter 键关闭 request.json 文件。

请求正文包含 configaudio 对象。

config 用于告诉 Speech-to-Text API 如何处理请求。encoding 参数的用途是在向 API 发送文件时,告诉 API 您使用的是哪种类型的音频编码。FLAC 是 .raw 文件的编码类型。如需详细了解编码类型,请参阅 RecognitionConfig 指南

您还可以向 config 对象添加其他参数,但只有 encoding 是必须提供的。

audio 对象用于向 API 传递 Cloud Storage 中音频文件的 URI。

点击检查我的进度以验证是否完成了以下目标:

创建 Speech-to-Text API 请求

现在,您可以开始调用 Speech-to-Text API 了!

任务 3. 调用 Speech-to-Text API

  1. 使用以下 curl 命令(所有内容均包含在一个命令行中),将请求正文和 API 密钥环境变量传递给 Speech-to-Text API:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

返回的内容应如下所示:

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }

transcript 值返回的是 Speech-to-Text API 将音频文件转写成的文字,而 confidence 值代表 API 对音频转写准确性的置信度。

您会发现,以上请求调用了 syncrecognize 方法。Speech-to-Text API 同时支持同步和异步语音转文字转写。本例中发送的是完整的音频文件,不过,您也可以使用 syncrecognize 方法,在用户讲话的同时进行流式语音转文字转写。

您创建了 Speech-to-Text API 请求,然后调用了 Speech-to-Text API。

  1. 运行以下命令,将返回的内容保存到 result.json 文件。
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

点击检查我的进度以验证是否完成了以下目标:

调用 Speech-to-Text API

恭喜!

您使用 Speech-to-Text API 检索了一个输入音频文件的转写内容

后续步骤/了解详情

本实验是 Qwik Starts 系列实验的其中一项。通过这些实验,您可以一窥 Google Cloud 的诸多功能。请在实验目录中搜索“Qwik Starts”,找到您要参与的下一项实验!

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2024 年 2 月 13 日

上次测试实验的时间:2023 年 10 月 13 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.