Points de contrôle
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API for English language
/ 20
Call the Speech API for French language
/ 20
Transcription audio avec l'API Cloud Speech
GSP048
Présentation
L'API Speech-to-Text vous permet de transcrire des fichiers audio en fichiers texte dans plus de 80 langues.
Dans cet atelier, vous allez envoyer à l'API Speech un fichier audio à transcrire.
Points abordés
Dans cet atelier, vous allez apprendre à :
- créer une requête API Speech-to-Text et appeler l'API avec
curl
; - appeler l'API Speech-to-Text avec des fichiers audio dans une autre langue.
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}} Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}} Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Tâche 1 : Créer une clé API
Étant donné que vous utilisez curl
pour envoyer une requête à l'API Speech-to-Text, vous devez générer une clé API à transmettre dans l'URL de la requête.
-
Pour créer une clé API, accédez au menu de navigation (), puis cliquez sur API et services > Identifiants.
-
Cliquez sur Créer des identifiants et sélectionnez Clé API.
-
Copiez et conservez la clé que vous venez de générer. Vous l'utiliserez dans la suite de cet atelier.
-
Cliquez sur Fermer.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Enregistrez la clé API dans une variable d'environnement pour éviter d'avoir à insérer sa valeur dans chaque requête.
- Pour poursuivre, connectez-vous à l'instance linux-instance provisionnée pour vous via SSH :
Dans le menu de navigation (), cliquez sur Compute Engine > Instances de VM.
Trouvez la VM linux-instance dans la liste Instances de VM. Les détails de la VM s'affichent à droite de son nom.
- Cliquez sur SSH à droite du nom de la VM linux-instance.
Un shell interactif s'ouvre. Utilisez-le pour effectuer les opérations suivantes.
- Dans le shell (SSH), exécutez la commande suivante en remplaçant
<YOUR_API_KEY>
par la clé que vous venez de copier :
Tâche 2 : Créer votre requête API
gs://cloud-samples-data/speech/brooklyn_bridge.flac
. Avant de l'envoyer à l'API Speech-to-Text, vous pouvez l'écouter.
- Créez votre requête pour l'API dans un fichier
request.json
. Créez le fichierrequest.json
:
- Ouvrez le fichier en utilisant l'éditeur de ligne de commande de votre choix (
nano
,vim
,emacs
) ougcloud
, puis ajoutez le contenu suivant au fichierrequest.json
, en utilisant la valeururi
de l'exemple de fichier audio .raw :
- Enregistrez le fichier si nécessaire.
Le corps de la requête comporte deux objets : config
et audio
.
Dans config
, vous indiquez à l'API Speech-to-Text comment elle doit traiter la requête :
- Le paramètre
encoding
spécifie à l'API le type d'encodage audio du fichier envoyé.FLAC
est le type d'encodage des fichiers .raw. Pour en savoir plus sur les types d'encodage, consultez la documentation de référence de RecognitionConfig. - S'il n'est pas inclus dans la requête, le paramètre
languageCode
sera défini sur l'anglais par défaut.
Vous pouvez ajouter d'autres paramètres à votre objet config
, mais encoding
est le seul obligatoire.
Dans l'objet audio
, vous transmettez à l'API l'URI du fichier audio, qui est stocké dans Cloud Storage pour cet atelier.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous pouvez maintenant appeler l'API Speech-to-Text.
Tâche 3 : Appeler l'API Speech-to-Text
- Transmettez à l'API le corps de votre requête, ainsi que la variable d'environnement de la clé API, en exécutant la commande
curl
suivante (dans une seule ligne de commande) :
La réponse est stockée dans un fichier nommé result.json.
- Pour afficher le contenu du fichier, vous pouvez exécuter la commande suivante :
La réponse renvoyée par la commande curl
doit ressembler à ceci :
La valeur transcript
renvoie la transcription que l'API Speech a créée à partir de votre fichier audio, tandis que la valeur confidence
indique le niveau de confiance que l'API accorde à sa transcription de votre fichier audio.
Notez que vous avez appelé la méthode syncrecognize
dans la requête ci-dessus. L'API Speech-to-Text prend en charge les transcriptions audio synchrones et asynchrones.
Dans cet exemple, un fichier audio complet a été utilisé, mais vous pourriez tout aussi bien vous servir de la méthode syncrecognize
pour réaliser une transcription audio en streaming pendant que l'utilisateur parle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Tâche 4 : Faire une transcription audio dans une autre langue
Vous parlez plusieurs langues ? L'API Speech-to-Text peut transcrire du contenu audio dans plus de 100 langues.
Vous pouvez modifier le paramètre languageCode
dans le fichier request.json
. Vous trouverez la liste des langues disponibles dans le guide sur les langues acceptées.
Essayez avec un fichier audio en français (cliquez ici pour l'écouter).
- Modifiez votre fichier
request.json
comme suit :
-
Appelez Speech-to-Text en exécutant à nouveau la commande
curl
. -
Voici les résultats :
La réponse suivante devrait s'afficher :
Il s'agit d'un extrait d'une célèbre fable de La Fontaine. Si vous avez des fichiers audio dans une autre langue, vous pouvez essayer de les ajouter à Cloud Storage et modifier le paramètre languageCode
dans votre requête.
Félicitations !
Vous avez effectué une transcription audio avec l'API Speech. Vous avez transmis l'URI Cloud Storage de votre fichier audio à l'API et vous avez aussi vu comment transmettre une chaîne de votre contenu audio encodée en base64.
Terminer votre quête
Cet atelier d'auto-formation fait partie des quêtes Intro to ML: Language Processing et Language, Speech, Text & Translation with Google Cloud APIs. Une quête est une série d'ateliers associés qui constituent un parcours de formation. Si vous terminez une quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à n'importe quelle quête contenant cet atelier pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.
Atelier suivant
Continuez sur votre lancée en suivant l'atelier Mesurer et améliorer la précision de Speech ou essayez les suivants :
- Traduire du texte à l'aide de l'API Cloud Translation
- Classer du texte en catégories avec l'API Natural Language
Étapes suivantes et informations supplémentaires
- Consultez ces tutoriels dans la documentation.
- Essayez l'API Cloud Vision et l'API Natural Language.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 20 septembre 2023
Dernier test de l'atelier : 20 septembre 2023
Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.