arrow_back

Speech-to-Text API: Qwik Start

ログイン 参加
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Speech-to-Text API: Qwik Start

Lab 30分 universal_currency_alt クレジット: 1 show_chart 入門
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP119

Google Cloud セルフペース ラボ

概要

Speech-to-Text API 使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。この API を組み込んだサービスに音声を送信すると、音声文字変換されたテキストを受け取ることができます。

学習内容

このラボでは、次の方法について学びます。

  • API キーを作成する
  • Speech-to-Text API リクエストを作成する
  • Speech-to-Text API を呼び出す

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
  • ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。

    • [Google コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google コンソールを開く] をクリックします。 ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。

  4. [ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。

    重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  5. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後このタブで Cloud Console が開きます。

注: 左上にある [ナビゲーション メニュー] をクリックすると、Google Cloud のプロダクトやサービスのリストが含まれるメニューが表示されます。 ナビゲーション メニュー アイコン

タスク 1. API キーを作成する

curl を使用して Speech-to-Text にリクエストを送信するため、リクエスト URL で渡す API キーを生成する必要があります。

  1. API キーを作成するには、ナビゲーション メニュー > [API とサービス] > [認証情報] をクリックします。

  2. [認証情報を作成] をクリックします。

  3. プルダウン メニューで [API キー] を選択します。

  4. 生成したキーをコピーして [閉じる] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。

API キーを作成する

API キーが準備できたので、リクエストごとに API キーの値を挿入しなくて済むようにするために、環境変数としてキーを保存します。

以降の手順を行うために、プロビジョニングされたインスタンスに SSH 経由で接続します。

  1. [ナビゲーション メニュー] で、[Compute Engine] を選択します。[VM インスタンス] ウィンドウに linux-instance が表示されます。

  2. linux-instance の行にある [SSH] ボタンをクリックします。インタラクティブ シェルが表示されます。

  3. コマンドラインで以下のコマンドを入力します。<YOUR_API_KEY> の部分は、以前に生成されたものからコピーした API キーに置き換えてください。

export API_KEY=<YOUR_API_KEY>

ラボの残りの部分は、この SSH セッション内で行います。

タスク 2. Speech-to-Text API リクエストを作成する

注: あらかじめ録音されているファイルを使用します。このファイルは、Cloud Storage(gs://cloud-samples-tests/speech/brooklyn.flac)に用意されています。 Speech-to-Text API に送信する前に、この音声ファイルを聞くようにしてください
  1. SSH コマンドラインで request.json を作成します。このファイルは、Speech-to-Text API へのリクエストを構築するために使用します。
touch request.json
  1. request.json を開きます。
nano request.json 注: 任意のコマンドライン エディタ(nanovimemacs)または gcloud を使用できます。このラボでは nano に関する指示が提供されます。
  1. request.json ファイルに次の行を追加します。ここでは、サンプルの RAW 音声ファイルの uri 値を使用しています。
{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
  1. Ctrl + XY キーの順に押して request.json ファイルを保存し、Enter をクリックして閉じます。

リクエストの本文には config オブジェクトと audio オブジェクトが記述されています。

config では、リクエストの処理方法を Speech-to-Text API に指示します。encoding パラメータでは、API にファイルを送信するときに使用する音声ファイルのエンコード タイプを指定します。FLAC は、RAW ファイルのエンコード タイプです(エンコード タイプの詳細については、RecognitionConfig ガイドをご覧ください)。

config オブジェクトに追加できるパラメータは他にもありますが、必須パラメータは encoding だけです。

Cloud Storage にある音声ファイルの uri は、audio オブジェクトで指定して API に渡します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。

Speech-to-Text API リクエストを作成する

これで Speech-to-Text API を呼び出す準備が整いました。

タスク 3. Speech-to-Text API を呼び出す

  1. 次の curl コマンドを実行して、リクエスト本文を API キーの環境変数とともに Speech-to-Text API に渡します(コマンドは 1 行で入力してください)。
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

次のようなレスポンスが表示されます。

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }

Speech-to-Text API によって音声ファイルから文字変換されたテキストは、transcript 値に入れて返されます。confidence 値は、API がどの程度の精度で音声を文字変換できたと考えられるかを示します。

上記のリクエストでは、syncrecognize メソッドを呼び出している点に注意してください。Speech-to-Text API は、同期と非同期の両方の音声文字変換をサポートしています。この例では、録音済みの音声ファイルを送信しましたが、ユーザーが話しているときにストリーミング音声の文字変換を行う場合にも、syncrecognize メソッドを使用できます。

Speech-to-Text API リクエストを作成し、Speech-to-Text API を呼び出しました。

  1. 次のコマンドを実行して result.json ファイルにレスポンスを保存します。
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。

Speech-to-Text API を呼び出す

お疲れさまでした

Speech-to-Text API を使用して、入力音声ファイルから音声文字変換されたテキストを受け取りました。

次のステップと詳細情報

このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 2 月 13 日

ラボの最終テスト日: 2023 年 10 月 13 日

Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。