Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you restart it, you'll have to start from the beginning.
- On the top left of your screen, click Start lab to begin
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API for English language
/ 20
Call the Speech API for French language
/ 20
L'API Speech-to-Text vous permet de transcrire des fichiers audio en fichiers texte dans plus de 80 langues.
Dans cet atelier, vous allez envoyer à l'API Speech un fichier audio à transcrire.
Dans cet atelier, vous allez apprendre à :
curl
;Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Accédez aux pages suivantes :
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Étant donné que vous utilisez curl
pour envoyer une requête à l'API Speech-to-Text, vous devez générer une clé API à transmettre dans l'URL de la requête.
Pour créer une clé API, accédez au menu de navigation (), puis cliquez sur API et services > Identifiants.
Cliquez sur Créer des identifiants et sélectionnez Clé API.
Copiez et conservez la clé que vous venez de générer. Vous l'utiliserez dans la suite de cet atelier.
Cliquez sur Fermer.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Enregistrez la clé API dans une variable d'environnement pour éviter d'avoir à insérer sa valeur dans chaque requête.
Dans le menu de navigation (), cliquez sur Compute Engine > Instances de VM.
Trouvez la VM linux-instance dans la liste Instances de VM. Les détails de la VM s'affichent à droite de son nom.
Un shell interactif s'ouvre. Utilisez-le pour effectuer les opérations suivantes.
<YOUR_API_KEY>
par la clé que vous venez de copier :gs://cloud-samples-data/speech/brooklyn_bridge.flac
. Avant de l'envoyer à l'API Speech-to-Text, vous pouvez l'écouter.
request.json
. Créez le fichier request.json
:nano
, vim
, emacs
) ou gcloud
, puis ajoutez le contenu suivant au fichier request.json
, en utilisant la valeur uri
de l'exemple de fichier audio .raw :Le corps de la requête comporte deux objets : config
et audio
.
Dans config
, vous indiquez à l'API Speech-to-Text comment elle doit traiter la requête :
encoding
spécifie à l'API le type d'encodage audio du fichier envoyé. FLAC
est le type d'encodage des fichiers .raw. Pour en savoir plus sur les types d'encodage, consultez la documentation de référence de RecognitionConfig.languageCode
sera défini sur l'anglais par défaut.Vous pouvez ajouter d'autres paramètres à votre objet config
, mais encoding
est le seul obligatoire.
Dans l'objet audio
, vous transmettez à l'API l'URI du fichier audio, qui est stocké dans Cloud Storage pour cet atelier.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous pouvez maintenant appeler l'API Speech-to-Text.
curl
suivante (dans une seule ligne de commande) :La réponse est stockée dans un fichier nommé result.json.
La réponse renvoyée par la commande curl
doit ressembler à ceci :
La valeur transcript
renvoie la transcription que l'API Speech a créée à partir de votre fichier audio, tandis que la valeur confidence
indique le niveau de confiance que l'API accorde à sa transcription de votre fichier audio.
Notez que vous avez appelé la méthode syncrecognize
dans la requête ci-dessus. L'API Speech-to-Text prend en charge les transcriptions audio synchrones et asynchrones.
Dans cet exemple, un fichier audio complet a été utilisé, mais vous pourriez tout aussi bien vous servir de la méthode syncrecognize
pour réaliser une transcription audio en streaming pendant que l'utilisateur parle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous parlez plusieurs langues ? L'API Speech-to-Text peut transcrire du contenu audio dans plus de 100 langues.
Vous pouvez modifier le paramètre languageCode
dans le fichier request.json
. Vous trouverez la liste des langues disponibles dans le guide sur les langues acceptées.
Essayez avec un fichier audio en français (cliquez ici pour l'écouter).
request.json
comme suit :Appelez Speech-to-Text en exécutant à nouveau la commande curl
.
Voici les résultats :
La réponse suivante devrait s'afficher :
Il s'agit d'un extrait d'une célèbre fable de La Fontaine. Si vous avez des fichiers audio dans une autre langue, vous pouvez essayer de les ajouter à Cloud Storage et modifier le paramètre languageCode
dans votre requête.
Vous avez effectué une transcription audio avec l'API Speech. Vous avez transmis l'URI Cloud Storage de votre fichier audio à l'API et vous avez aussi vu comment transmettre une chaîne de votre contenu audio encodée en base64.
Cet atelier d'auto-formation fait partie des quêtes Intro to ML: Language Processing et Language, Speech, Text & Translation with Google Cloud APIs. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez une quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à n'importe quelle quête contenant cet atelier pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.
Continuez sur votre lancée en suivant l'atelier Mesurer et améliorer la précision de Speech ou essayez les suivants :
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 20 septembre 2023
Dernier test de l'atelier : 20 septembre 2023
Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.