Контрольні точки
Create an API Key
/ 30
Create your Speech API request
/ 30
Call the Speech API
/ 40
Speech-to-Text API: Qwik Start
GSP119
Огляд
Speech-to-Text API забезпечує зручну інтеграцію технологій розпізнавання мовлення Google із додатками розробників, а також дає змогу надсилати аудіофайли й отримувати із сервісу транскрибований текст.
Завдання курсу
Під час цієї практичної роботи ви навчитеся виконувати наведені нижче дії.
- Створювати ключ API
- Створювати запит до Speech-to-Text API
- Виконувати запит до Speech-to-Text API
Налаштування й вимоги
Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)
Ознайомтеся з наведеними нижче вказівками. На виконання практичної роботи відводиться обмежений час, і її не можна призупинити. Щойно ви натиснете Start Lab (Почати практичну роботу), з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичну роботу в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час виконання практичної роботи вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Щоб виконати цю практичну роботу, потрібно мати:
- стандартний веб-переглядач, наприклад Chrome (рекомендовано)
- достатню кількість часу, оскільки почавши практичну роботу, ви не зможете призупинити її
Як почати виконувати практичну роботу й увійти в Google Cloud Console
-
Натисніть кнопку Start Lab (Почати практичну роботу). Якщо за практичну роботу необхідно заплатити, відкриється спливаюче вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель Lab Details (Відомості про практичну роботу) з такими даними:
- кнопка Open Google Cloud console (Відкрити Google Cloud Console);
- час до закінчення;
- тимчасові облікові дані, які потрібно використовувати для доступу до цієї практичної роботи;
- інша інформація, необхідна для виконання цієї практичної роботи.
-
Натисніть Open Google Cloud console (Відкрити Google Cloud Console) або натисніть правою кнопкою миші й виберіть Open Link in Incognito Window (Відкрити посилання в анонімному вікні), якщо ви використовуєте вебпереглядач Chrome.
Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою Sign in (Вхід).
Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.
Примітка. Якщо з’явиться вікно Choose an account (Виберіть обліковий запис), натисніть Use Another Account (Увійти в інший обліковий запис). -
За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Sign in (Вхід).
{{{user_0.username | "Username"}}} Поле Username (Ім’я користувача) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
-
Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).
{{{user_0.password | "Password"}}} Поле Password (Пароль) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
Важливо. Обов’язково використовуйте облікові дані, призначені для відповідної практичної роботи. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата. -
Виконайте наведені нижче дії.
- Прийміть Умови використання.
- Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
- Не реєструйте безкоштовні пробні версії.
Через кілька секунд Google Cloud Console відкриється в новій вкладці.
Завдання 1. Створіть ключ API
Оскільки ви надсилатимете запит до Speech-to-Text API за допомогою команди curl
, вам потрібно згенерувати ключ API, який передаватиметься в URL-адресі цього запиту.
-
Для цього натисніть меню навігації > APIs & services (API і сервіси) > Credentials (Облікові дані).
-
Потім натисніть Create credentials (Створити облікові дані).
-
У спадному меню виберіть API key (Ключ API).
-
Скопіюйте щойно згенерований ключ і натисніть Close (Закрити).
Щоб підтвердити виконання завдання, натисніть Check my progress (Підтвердити виконання).
Збережіть отриманий ключ API як змінну середовища, щоб вам не потрібно було вводити його значення в кожному запиті.
Для виконання наступних кроків підключіться через протокол SSH до наданого вам екземпляра.
-
У меню навігації виберіть Compute Engine. У вікні VM instances (Екземпляри віртуальних машин) з’явиться екземпляр
linux-instance
. -
Натисніть кнопку SSH у рядку з екземпляром
linux-instance
. Відкриється інтерактивна оболонка. -
У командному рядку введіть наведений нижче фрагмент коду, замінивши
<YOUR_API_KEY>
на згенерований раніше ключ API.
Залишайтеся в цьому сеансі SSH до завершення практичної роботи.
Завдання 2. Створіть запит до Speech-to-Text API
gs://cloud-samples-tests/speech/brooklyn.flac
.
Прослухайте аудіофайл, перш ніж надсилати його до Speech-to-Text API.
- Створіть файл
request.json
у командному рядку SSH. За допомогою цього файлу ви надішлете свій запит до Speech-to-Text API.
- Відкрийте файл
request.json
:
Nano
, Vim
, Emacs
або gcloud
. У цій практичній роботі надано вказівки для текстового редактора Nano
.
- Додайте наведений нижче фрагмент коду у файл
request.json
зі значеннямuri
для тестового необробленого аудіофайлу.
- Натисніть
Ctrl
+X
, а потім –Y
, щоб зберегти файлrequest.json
, іEnter
, щоб закрити його.
У тілі запиту містяться об’єкти config
і audio
.
В об’єкті config
ви вказуєте, як Speech-to-Text API має обробити запит. Параметр encoding
надає API інформацію про тип аудіокодування для файлу, який ви надсилаєте. FLAC
– це тип кодування для файлів із розширенням .raw. Докладніше про типи кодування можна дізнатися в посібнику з RecognitionConfig.
Ви також можете додати інші параметри в об’єкт config
, але лише параметр encoding
є обов’язковим.
За допомогою об’єкта audio
ви передаєте API параметр uri для аудіофайлу в Cloud Storage.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Час виконати запит до Speech-to-Text API.
Завдання 3. Виконайте запит до Speech-to-Text API
- Передайте тіло запиту разом зі змінною середовища ключа API до Speech-to-Text API за допомогою команди
curl
(в одному командному рядку):
Вивід виглядатиме приблизно так:
Значення transcript
поверне від Speech-to-Text API транскрибований текст вашого аудіофайлу, а значення confidence
указуватиме, наскільки точно транскрибовано цей файл.
У запиті вище ви використовували метод syncrecognize
. Speech-to-Text API підтримує синхронне й асинхронне перетворення мовлення на текст. У цьому прикладі ви надіслали окремий аудіофайл, але за допомогою методу syncrecognize
можна також виконувати потокове транскрибування мовлення користувача.
Ви створили запит до Speech-to-Text API і виконали його.
- Виконайте наведену нижче команду, щоб зберегти відповідь у файлі
result.json
.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Вітаємо!
Ви отримали транскрибований текст з аудіофайлу за допомогою Speech-to-Text API.
Наступні кроки/Докладніше
Це завдання також входить до низки практичних робіт під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Такі практичні роботи можна знайти в каталозі за запитом "Qwik Starts".
Навчання й сертифікація Google Cloud
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 13 лютого 2024 року
Практичну роботу востаннє протестовано 13 жовтня 2023 року
© Google LLC 2024. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.