Checkpoint
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API
/ 40
API Speech-to-Text: Qwik Start
GSP119
Panoramica
L'API Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. L'API Speech-to-Text consente di inviare audio e ricevere una trascrizione del testo dal servizio.
Obiettivi didattici
In questo lab imparerai a:
- Creare una chiave API
- Creare una richiesta all'API Speech-to-Text
- Chiamare l'API Speech-to-Text
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
- Accesso a un browser internet standard (Chrome è il browser consigliato).
- È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Come avviare il lab e accedere alla console Google Cloud
-
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Il pulsante Apri console Google Cloud
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
-
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account. -
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}} Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
-
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}} Puoi trovare la Password anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi. -
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Attività 1: crea una chiave API
Poiché utilizzerai curl
per inviare una richiesta all'API Speech-to-Text, devi generare una chiave API che dovrai passare nell'URL della richiesta.
-
Per creare una chiave API, fai clic su menu di navigazione > API e servizi > Credenziali.
-
Quindi fai clic su Crea credenziali.
-
Seleziona Chiave API dal menu a discesa.
-
Copia la chiave appena generata e fai clic su Chiudi.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Ora che hai una chiave API, salvala come variabile di ambiente per evitare di doverne inserirne il valore in ogni richiesta.
Per eseguire i passaggi successivi, connettiti utilizzando SSH all'istanza di cui è stato effettuato il provisioning.
-
Nel menu di navigazione, seleziona Compute Engine. Vedrai la voce
linux-instance
nella finestra Istanze VM. -
Fai clic sul pulsante SSH in corrispondenza di
linux-instance
. Si aprirà una shell interattiva. -
Nella riga di comando, inserisci il comando seguente sostituendo
<YOUR_API_KEY>
con la chiave API che hai appena copiato da quanto generato in precedenza:
Rimani in questa sessione SSH per il resto del lab.
Attività 2: crea una richiesta all'API Speech-to-Text
gs://cloud-samples-tests/speech/brooklyn.flac
.
Ascolta il file audio prima di inviarlo all'API Speech-to-Text.
- Crea il file
request.json
nella riga di comando di SSH. Utilizzerai questo file per creare la tua richiesta all'API Speech-to-Text:
- Apri
request.json
:
nano
, vim
, emacs
) o gcloud
. Le istruzioni in questo lab sono per nano
.
- Aggiungi quanto segue al file
request.json
utilizzando il valore dell'uri
del file audio RAW di esempio:
- Premi
Ctrl
+x
, quindiy
per salvare e fai clic suInvio
per chiudere il filerequest.json
.
Il corpo della richiesta contiene un oggetto config
e un oggetto audio
.
In config
, indichi all'API Speech-to-Text come elaborare la richiesta. Il parametro encoding
indica all'API quale tipo di codifica audio viene utilizzato durante l'invio del file all'API. FLAC
è il tipo di codifica per i file .raw. Scopri di più sui tipi di codifica nella Guida a RecognitionConfig.
Esistono altri parametri che puoi aggiungere all'oggetto config
, ma encoding
è l'unico obbligatorio.
Nell'oggetto audio
, passi all'API l'URI del file audio in Cloud Storage.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Ora è tutto pronto per chiamare l'API Speech-to-Text.
Attività 3: chiama l'API Speech-to-Text
- Utilizza il seguente comando
curl
(tutto in un'unica riga di comando) per passare all'API Speech-to-Text il corpo della richiesta insieme alla variabile d'ambiente della chiave API:
La risposta dovrebbe avere un aspetto simile al seguente:
Il valore transcript
restituirà la trascrizione del testo del file audio eseguita dall'API Speech-to-Text e il valore confidence
indica in che misura l'API è sicura di aver trascritto l'audio in modo accurato.
Noterai che la richiesta precedente conteneva una chiamata al metodo syncrecognize
. L'API Speech-to-Text supporta la trascrizione sincrona e asincrona della conversione della voce in testo. In questo esempio è stato inviato un file audio completo, ma puoi usare anche il metodo syncrecognize
per eseguire una trascrizione della voce in testo in streaming mentre l'utente sta ancora parlando.
Hai creato una richiesta all'API Speech-to-Text API e poi hai chiamato questa API.
- Esegui il comando seguente per salvare la risposta in un file
result.json
:
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Complimenti!
Hai utilizzato l'API Speech-to-Text per recuperare una trascrizione di un file audio di input.
Prossimi passi/Scopri di più
Questo lab fa anche parte di una serie di lab chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 13 febbraio 2024
Ultimo test del lab: 13 ottobre 2023
Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.