L'API Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. L'API Speech-to-Text consente di inviare audio e ricevere una trascrizione del testo dal servizio.
Obiettivi didattici
In questo lab imparerai a:
Creare una chiave API
Creare una richiesta all'API Speech-to-Text
Chiamare l'API Speech-to-Text
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Inizia il lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: per eseguire questo lab, utilizza una finestra del browser in modalità di navigazione in incognito (consigliata) o privata. Ciò evita conflitti tra il tuo account personale e l'account studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: utilizza solo l'account studente per questo lab. Se utilizzi un altro account Google Cloud, potrebbero essere addebitati costi su quell'account.
Come avviare il lab e accedere alla console Google Cloud
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si aprirà una finestra di dialogo per permetterti di selezionare il metodo di pagamento.
A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
Il pulsante Apri la console Google Cloud
Tempo rimanente
Credenziali temporanee da utilizzare per il lab
Altre informazioni per seguire questo lab, se necessario
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}}
Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}}
Puoi trovare la Password anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud.
Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
Fai clic nelle pagine successive:
Accetta i termini e le condizioni.
Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Nota: per accedere ai prodotti e ai servizi Google Cloud, fai clic sul menu di navigazione o digita il nome del servizio o del prodotto nel campo Cerca.
Attività 1: crea una chiave API
Poiché utilizzerai curl per inviare una richiesta all'API Speech-to-Text, devi generare una chiave API che dovrai passare nell'URL della richiesta.
Per creare una chiave API, fai clic su menu di navigazione > API e servizi > Credenziali.
Quindi fai clic su Crea credenziali.
Seleziona Chiave API dal menu a discesa.
Copia la chiave appena generata e fai clic su Chiudi.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Crea una chiave API
Ora che hai una chiave API, salvala come variabile di ambiente per evitare di doverne inserire il valore in ogni richiesta.
Per eseguire i passaggi successivi, connettiti utilizzando SSH all'istanza di cui è stato effettuato il provisioning.
Nel menu di navigazione, seleziona Compute Engine. Vedrai la voce linux-instance nella finestra Istanze VM.
Fai clic sul pulsante SSH in corrispondenza di linux-instance. Si aprirà una shell interattiva.
Nella riga di comando, inserisci il comando seguente sostituendo <YOUR_API_KEY> con la chiave API che hai appena copiato da quanto generato in precedenza:
export API_KEY=<YOUR_API_KEY>
Rimani in questa sessione SSH per il resto del lab.
Attività 2: crea una richiesta all'API Speech-to-Text
Crea il file request.json nella riga di comando di SSH. Utilizzerai questo file per creare la tua richiesta all'API Speech-to-Text:
touch request.json
Apri request.json:
nano request.json
Nota:
puoi utilizzare il tuo editor della riga di comando preferito (nano, vim, emacs) o gcloud. Le istruzioni in questo lab sono per nano.
Aggiungi quanto segue al file request.json utilizzando il valore dell'uri del file audio RAW di esempio:
Premi Ctrl + x, quindi y per salvare e fai clic su Invio per chiudere il file request.json.
Il corpo della richiesta contiene un oggetto config e un oggetto audio.
In config, indichi all'API Speech-to-Text come elaborare la richiesta. Il parametro encoding indica all'API quale tipo di codifica audio viene utilizzato durante l'invio del file all'API. FLAC è il tipo di codifica per i file .raw. Scopri di più sui tipi di codifica nella Guida a RecognitionConfig.
Esistono altri parametri che puoi aggiungere all'oggetto config, ma encoding è l'unico obbligatorio.
Nell'oggetto audio, passi all'API l'URI del file audio in Cloud Storage.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Crea una richiesta all'API Speech-to-Text
Ora è tutto pronto per chiamare l'API Speech-to-Text.
Attività 3: chiama l'API Speech-to-Text
Utilizza il seguente comando curl (tutto in un'unica riga di comando) per passare all'API Speech-to-Text il corpo della richiesta insieme alla variabile d'ambiente della chiave API:
La risposta dovrebbe avere un aspetto simile al seguente:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
Il valore transcript restituirà la trascrizione del testo del file audio eseguita dall'API Speech-to-Text e il valore confidence indica in che misura l'API è sicura di aver trascritto l'audio in modo accurato.
Noterai che la richiesta precedente conteneva una chiamata al metodo syncrecognize. L'API Speech-to-Text supporta la trascrizione sincrona e asincrona della conversione della voce in testo. In questo esempio è stato inviato un file audio completo, ma puoi usare anche il metodo syncrecognize per eseguire una trascrizione della voce in testo in streaming mentre l'utente sta ancora parlando.
Hai creato una richiesta all'API Speech-to-Text API e poi hai chiamato questa API.
Esegui il comando seguente per salvare la risposta in un file result.json:
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Chiama l'API Speech-to-Text
Complimenti!
Hai utilizzato l'API Speech-to-Text per recuperare una trascrizione di un file audio di input.
Prossimi passi/Scopri di più
Questo lab fa anche parte di una serie di lab chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 13 febbraio 2024
Ultimo test del lab: 13 ottobre 2023
Copyright 2025 Google LLC. Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.
I lab creano un progetto e risorse Google Cloud per un periodo di tempo prestabilito
I lab hanno un limite di tempo e non possono essere messi in pausa. Se termini il lab, dovrai ricominciare dall'inizio.
In alto a sinistra dello schermo, fai clic su Inizia il lab per iniziare
Utilizza la navigazione privata
Copia il nome utente e la password forniti per il lab
Fai clic su Apri console in modalità privata
Accedi alla console
Accedi utilizzando le tue credenziali del lab. L'utilizzo di altre credenziali potrebbe causare errori oppure l'addebito di costi.
Accetta i termini e salta la pagina di ripristino delle risorse
Non fare clic su Termina lab a meno che tu non abbia terminato il lab o non voglia riavviarlo, perché il tuo lavoro verrà eliminato e il progetto verrà rimosso
Questi contenuti non sono al momento disponibili
Ti invieremo una notifica via email quando sarà disponibile
Bene.
Ti contatteremo via email non appena sarà disponibile
Un lab alla volta
Conferma per terminare tutti i lab esistenti e iniziare questo
Utilizza la navigazione privata per eseguire il lab
Utilizza una finestra del browser in incognito o privata per eseguire questo lab. In questo modo eviterai eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.