Quick tip: Review the prerequisites before you run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the student account, which may cause extra charges incurred to your personal account.

知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

Speech-to-Text API: Qwik Start

ラボ 30分 universal_currency_alt クレジット: 1 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP119
概要
設定と要件
タスク 1. API キーを作成する
タスク 2. Speech-to-Text API リクエストを作成する
タスク 3. Speech-to-Text API を呼び出す
お疲れさまでした

知識をテストして、コミュニティで共有しましょう

done

700 を超えるハンズオンラボ、スキルバッジ、コースへのアクセス

GSP119

概要

Speech-to-Text API 使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。この API を組み込んだサービスに音声を送信すると、音声文字変換されたテキストを受け取ることができます。

学習内容

このラボでは、次の方法について学びます。

API キーを作成する
Speech-to-Text API リクエストを作成する
Speech-to-Text API を呼び出す

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。左側の [ラボの詳細] ペインには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。

タスク 1. API キーを作成する

curl を使用して Speech-to-Text にリクエストを送信するため、リクエスト URL で渡す API キーを生成する必要があります。

API キーを作成するには、ナビゲーションメニュー > [API とサービス] > [認証情報] をクリックします。
[認証情報を作成] をクリックします。
プルダウンメニューで [API キー] を選択します。
生成したキーをコピーして [閉じる] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。

API キーを作成する

API キーが準備できたので、リクエストごとに API キーの値を挿入しなくて済むようにするために、環境変数としてキーを保存します。

以降の手順を行うために、プロビジョニングされたインスタンスに SSH 経由で接続します。

[ナビゲーションメニュー] で、[Compute Engine] を選択します。[VM インスタンス] ウィンドウに linux-instance が表示されます。
linux-instance の行にある [SSH] ボタンをクリックします。インタラクティブシェルが表示されます。
コマンドラインで以下のコマンドを入力します。<YOUR_API_KEY> の部分は、以前に生成されたものからコピーした API キーに置き換えてください。

export API_KEY=<YOUR_API_KEY>

ラボの残りの部分は、この SSH セッション内で行います。

タスク 2. Speech-to-Text API リクエストを作成する

注: あらかじめ録音されているファイルを使用します。このファイルは、Cloud Storage（gs://cloud-samples-tests/speech/brooklyn.flac）に用意されています。 Speech-to-Text API に送信する前に、この音声ファイルを聞くようにしてください。

SSH コマンドラインで request.json を作成します。このファイルは、Speech-to-Text API へのリクエストを構築するために使用します。

touch request.json

request.json を開きます。

nano request.json

注: 任意のコマンドラインエディタ（nano、vim、emacs）または gcloud を使用できます。このラボでは nano に関する指示が提供されます。

request.json ファイルに次の行を追加します。ここでは、サンプルの RAW 音声ファイルの uri 値を使用しています。

{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }

Ctrl + X、Y キーの順に押して request.json ファイルを保存し、Enter をクリックして閉じます。

リクエストの本文には config オブジェクトと audio オブジェクトが記述されています。

config では、リクエストの処理方法を Speech-to-Text API に指示します。encoding パラメータでは、API にファイルを送信するときに使用する音声ファイルのエンコードタイプを指定します。FLAC は、RAW ファイルのエンコードタイプです（エンコードタイプの詳細については、RecognitionConfig ガイドをご覧ください）。

config オブジェクトに追加できるパラメータは他にもありますが、必須パラメータは encoding だけです。

Cloud Storage にある音声ファイルの uri は、audio オブジェクトで指定して API に渡します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。

Speech-to-Text API リクエストを作成する

これで Speech-to-Text API を呼び出す準備が整いました。

タスク 3. Speech-to-Text API を呼び出す

次の curl コマンドを実行して、リクエスト本文を API キーの環境変数とともに Speech-to-Text API に渡します（コマンドは 1 行で入力してください）。

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

次のようなレスポンスが表示されます。

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }

Speech-to-Text API によって音声ファイルから文字変換されたテキストは、transcript 値に入れて返されます。confidence 値は、API がどの程度の精度で音声を文字変換できたと考えられるかを示します。

上記のリクエストでは、syncrecognize メソッドを呼び出している点に注意してください。Speech-to-Text API は、同期と非同期の両方の音声文字変換をサポートしています。この例では、録音済みの音声ファイルを送信しましたが、ユーザーが話しているときにストリーミング音声の文字変換を行う場合にも、syncrecognize メソッドを使用できます。

Speech-to-Text API リクエストを作成し、Speech-to-Text API を呼び出しました。

次のコマンドを実行して result.json ファイルにレスポンスを保存します。

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。

Speech-to-Text API を呼び出す

お疲れさまでした

Speech-to-Text API を使用して、入力音声ファイルから音声文字変換されたテキストを受け取りました。

次のステップと詳細情報

このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 2 月 13 日

ラボの最終テスト日: 2023 年 10 月 13 日

Speech-to-Text API: Qwik Start

Speech-to-Text API: Qwik Start

GSP119

概要

学習内容

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

タスク 1. API キーを作成する

タスク 2. Speech-to-Text API リクエストを作成する

タスク 3. Speech-to-Text API を呼び出す

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

Before you begin

Use private browsing

Sign in to the Console

Use private browsing to run the lab