
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API
/ 40
Speech-to-Text API 使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。この API を組み込んだサービスに音声を送信すると、音声文字変換されたテキストを受け取ることができます。
このラボでは、次の方法について学びます。
こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。
このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。
ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
その後次のように進みます。
その後、このタブで Google Cloud コンソールが開きます。
curl
を使用して Speech-to-Text にリクエストを送信するため、リクエスト URL で渡す API キーを生成する必要があります。
API キーを作成するには、ナビゲーション メニュー > [API とサービス] > [認証情報] をクリックします。
[認証情報を作成] をクリックします。
プルダウン メニューで [API キー] を選択します。
生成したキーをコピーして [閉じる] をクリックします。
[進行状況を確認] をクリックして、目標に沿って進行していることを確認します。
API キーが準備できたので、リクエストごとに API キーの値を挿入しなくて済むようにするために、環境変数としてキーを保存します。
以降の手順を行うために、プロビジョニングされたインスタンスに SSH 経由で接続します。
[ナビゲーション メニュー] で、[Compute Engine] を選択します。[VM インスタンス] ウィンドウに linux-instance
が表示されます。
linux-instance
の行にある [SSH] ボタンをクリックします。インタラクティブ シェルが表示されます。
コマンドラインで以下のコマンドを入力します。<YOUR_API_KEY>
の部分は、以前に生成されたものからコピーした API キーに置き換えてください。
ラボの残りの部分は、この SSH セッション内で行います。
gs://cloud-samples-tests/speech/brooklyn.flac
)に用意されています。
Speech-to-Text API に送信する前に、この音声ファイルを聞くようにしてください。
request.json
を作成します。このファイルは、Speech-to-Text API へのリクエストを構築するために使用します。request.json
を開きます。nano
、vim
、emacs
)または gcloud
を使用できます。このラボでは nano
に関する指示が提供されます。
request.json
ファイルに次の行を追加します。ここでは、サンプルの RAW 音声ファイルの uri
値を使用しています。Ctrl
+ X
、Y
キーの順に押して request.json
ファイルを保存し、Enter
をクリックして閉じます。リクエストの本文には config
オブジェクトと audio
オブジェクトが記述されています。
config
では、リクエストの処理方法を Speech-to-Text API に指示します。encoding
パラメータでは、API にファイルを送信するときに使用する音声ファイルのエンコード タイプを指定します。FLAC
は、RAW ファイルのエンコード タイプです(エンコード タイプの詳細については、RecognitionConfig ガイドをご覧ください)。
config
オブジェクトに追加できるパラメータは他にもありますが、必須パラメータは encoding
だけです。
Cloud Storage にある音声ファイルの uri は、audio
オブジェクトで指定して API に渡します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
これで Speech-to-Text API を呼び出す準備が整いました。
curl
コマンドを実行して、リクエスト本文を API キーの環境変数とともに Speech-to-Text API に渡します(コマンドは 1 行で入力してください)。次のようなレスポンスが表示されます。
Speech-to-Text API によって音声ファイルから文字変換されたテキストは、transcript
値に入れて返されます。confidence
値は、API がどの程度の精度で音声を文字変換できたと考えられるかを示します。
上記のリクエストでは、syncrecognize
メソッドを呼び出している点に注意してください。Speech-to-Text API は、同期と非同期の両方の音声文字変換をサポートしています。この例では、録音済みの音声ファイルを送信しましたが、ユーザーが話しているときにストリーミング音声の文字変換を行う場合にも、syncrecognize
メソッドを使用できます。
Speech-to-Text API リクエストを作成し、Speech-to-Text API を呼び出しました。
result.json
ファイルにレスポンスを保存します。[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
Speech-to-Text API を使用して、入力音声ファイルから音声文字変換されたテキストを受け取りました。
このラボは、Google Cloud が提供する多くの機能を体験できる「Qwik Start」と呼ばれるラボシリーズの一部でもあります。ラボカタログで「Qwik Start」を検索し、興味のあるラボを探してみてください。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2024 年 2 月 13 日
ラボの最終テスト日: 2023 年 10 月 13 日
Copyright 2025 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
One lab at a time
Confirm to end all existing labs and start this one