Interfejs Speech-to-Text API umożliwia integrację opracowanych przez Google technologii rozpoznawania mowy z aplikacjami deweloperskimi. Pozwala na wysyłanie nagrań głosowych i otrzymywanie ich transkrypcji wygenerowanych przez usługę.
Czego się nauczysz
Z tego modułu dowiesz się, jak:
utworzyć klucz interfejsu API,
utworzyć żądanie do interfejsu Speech-to-Text API,
wywołać Speech-to-Text API.
Konfiguracja i wymagania
Zanim klikniesz przycisk Rozpocznij moduł
Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.
W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.
Do ukończenia modułu potrzebne będą:
Dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito (zalecane) lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.
Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: w tym module używaj tylko konta do nauki. Jeśli użyjesz innego konta Google Cloud, mogą na nim zostać naliczone opłaty.
Rozpoczynanie modułu i logowanie się w konsoli Google Cloud
Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się okno, w którym możesz wybrać formę płatności.
Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:
przyciskiem Otwórz konsolę Google Cloud;
czasem, który Ci pozostał;
tymczasowymi danymi logowania, których musisz użyć w tym module;
innymi informacjami potrzebnymi do ukończenia modułu.
Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).
Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.
Wskazówka: otwórz karty obok siebie w osobnych oknach.
Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.
{{{user_0.username | "Username"}}}
Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.
Kliknij Dalej.
Skopiuj podane niżej hasło i wklej je w oknie powitania.
{{{user_0.password | "Password"}}}
Hasło znajdziesz też w panelu Szczegóły modułu.
Kliknij Dalej.
Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud.
Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
Na kolejnych stronach wykonaj następujące czynności:
Zaakceptuj Warunki korzystania z usługi.
Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
Nie rejestruj się w bezpłatnych wersjach próbnych.
Poczekaj, aż na karcie otworzy się konsola Google Cloud.
Uwaga: aby uzyskać dostęp do produktów i usług Google Cloud, kliknij Menu nawigacyjne lub wpisz nazwę usługi albo produktu w polu Szukaj.
Zadanie 1. Tworzenie klucza interfejsu API
Ponieważ w celu wysłania żądania do Speech-to-Text API będziesz korzystać z biblioteki curl, musisz wygenerować klucz interfejsu API, aby przekazać URL żądania.
Aby utworzyć klucz interfejsu API, kliknij Menu nawigacyjne > Interfejsy API i usługi > Dane logowania.
Następnie kliknij Utwórz dane logowania.
Z menu wybierz Klucz interfejsu API.
Skopiuj wygenerowany klucz i kliknij Zamknij.
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Utworzenie klucza interfejsu API
Po utworzeniu klucza interfejsu API należy zapisać go jako zmienną środowiskową, dzięki czemu unikniesz wprowadzania jego wartości przy każdym żądaniu.
Aby wykonać kolejne kroki, połącz się za pomocą SSH z udostępnioną instancją.
W Menu nawigacyjnym wybierz Compute Engine. Skorzystaj z instancji linux-instance podanej w oknie Instancje maszyn wirtualnych.
Kliknij przycisk SSH w linijce z instancją linux-instance. Czynność ta spowoduje przejście do interaktywnej powłoki.
Utwórz plik request.json w wierszu poleceń SSH. W celu utworzenia żądania do Speech-to-Text API użyjesz:
touch request.json
Otwórz request.json:
nano request.json
Uwaga:
możesz skorzystać z preferowanego edytora wiersza poleceń (nano, vim, emacs) lub gcloud. W tym module przedstawiamy instrukcje do nano.
Dodaj następujący kod do pliku request.json, używając wartości identyfikatora uri pliku dźwiękowego RAW:
Naciśnij control + x, a potem y, żeby zapisać, i naciśnij Enter, by zamknąć plik request.json.
W treści żądania znajdują się obiekty config oraz audio.
Dzięki obiektowi config informujesz Speech-to-Text API o tym, jak ma przetworzyć żądanie. W trakcie przesyłania pliku parametr encoding przekazuje interfejsowi API dane dotyczące tego, jakiego rodzaju kodowania audio używasz. FLAC to typ kodowania dla plików RAW. Więcej informacji o typach kodowania uzyskasz w przewodniku RecognitionConfig.
Istnieją też inne parametry, które można dodać do obiektu config, ale parametr encoding jest jedynym wymaganym.
W obiekcie audio interfejsowi API przekazuje się identyfikator URI pliku audio w Cloud Storage.
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Utworzenie żądania do interfejsu Speech-to-Text API
Teraz możesz wywołać Speech-to-Text API.
Zadanie 3. Wywoływanie Speech-to-Text API
Do interfejsu Speech-to-Text API przekaż treść żądania wraz ze zmienną środowiskową klucza interfejsu API oraz następującym poleceniem curl (umieść wszystko w jednym wierszu poleceń):
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
Wartość transcript zwróci transkrypcję Twojego pliku audio wygenerowaną przez interfejs Speech-to-Text API, natomiast wartość confidence pokazuje, w jakim stopniu ten interfejs jest pewny poprawności transkrypcji Twojego pliku.
Zapewne zauważysz, że w znajdującym się powyżej żądaniu wykorzystana została metoda syncrecognize. Interfejs Speech API obsługuje zarówno synchroniczną, jak i asynchroniczną transkrypcję związaną z zamianą mowy na tekst. W tym ćwiczeniu udało Ci się wysłać kompletny plik audio, ale możesz też użyć metody syncrecognize, aby zamienić mowę na tekst podczas strumieniowego przesyłania danych (gdy użytkownik mówi).
Udało Ci się utworzyć żądanie do interfejsu Speech-to-Text API i go wywołać.
Uruchom następujące polecenie, aby zapisać odpowiedź w pliku result.json:
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Wywołanie Speech-to-Text API
Gratulacje!
Udało Ci się uzyskać transkrypcję wejściowego pliku audio przy użyciu interfejsu Speech-to-Text API.
Kolejne kroki / Więcej informacji
Ten moduł należy do serii modułów Qwik Start. Opracowaliśmy je, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu modułów i znajdź kolejny moduł, który Cię interesuje.
Szkolenia i certyfikaty Google Cloud
…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.
Ostatnia aktualizacja instrukcji: 13 lutego 2024 r.
Ostatni test modułu: 13 października 2023 r.
Copyright 2025 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.
Moduły tworzą projekt Google Cloud i zasoby na określony czas.
Moduły mają ograniczenie czasowe i nie mają funkcji wstrzymywania. Jeśli zakończysz moduł, musisz go zacząć od początku.
Aby rozpocząć, w lewym górnym rogu ekranu kliknij Rozpocznij moduł.
Użyj przeglądania prywatnego
Skopiuj podaną nazwę użytkownika i hasło do modułu.
Kliknij Otwórz konsolę w trybie prywatnym.
Zaloguj się w konsoli
Zaloguj się z użyciem danych logowania do modułu. Użycie innych danych logowania może spowodować błędy lub naliczanie opłat.
Zaakceptuj warunki i pomiń stronę zasobów przywracania.
Nie klikaj Zakończ moduł, chyba że właśnie został przez Ciebie zakończony lub chcesz go uruchomić ponownie, ponieważ spowoduje to usunięcie wyników i projektu.
Ta treść jest obecnie niedostępna
Kiedy dostępność się zmieni, wyślemy Ci e-maila z powiadomieniem
Świetnie
Kiedy dostępność się zmieni, skontaktujemy się z Tobą e-mailem
Jeden moduł, a potem drugi
Potwierdź, aby zakończyć wszystkie istniejące moduły i rozpocząć ten
Aby uruchomić moduł, użyj przeglądania prywatnego
Uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.
Interfejs Speech-to-Text API umożliwia integrację funkcji rozpoznawania mowy z aplikacjami deweloperskimi – teraz możesz wysłać nagranie głosowe i otrzymać jego zapis tekstowy. Obejrzyj te krótkie filmy: Powerful Speech Recognition Using Google Machine Learning (Zaawansowane rozpoznawanie mowy przy użyciu systemów uczenia maszynowego opracowanych przez Google) i Google Cloud Speech: Qwik Start - Qwiklabs Preview (Google Cloud Speech: Qwik Start – omówienie z Qwiklabs).
Czas trwania:
Konfiguracja: 1 min
·
Dostęp na 30 min
·
Ukończono w 15 min