arrow_back

Dataflow: Qwik Start – szablony

Sprawdź swoją wiedzę i podziel się nią ze społecznością.
done
Zyskaj dostęp do ponad 700 praktycznych modułów oraz odznak umiejętności i szkoleń

Dataflow: Qwik Start – szablony

Moduł 45 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
info Ten moduł może zawierać narzędzia AI, które ułatwią Ci naukę.
Sprawdź swoją wiedzę i podziel się nią ze społecznością.
done
Zyskaj dostęp do ponad 700 praktycznych modułów oraz odznak umiejętności i szkoleń

GSP192

Moduły Google Cloud do samodzielnego ukończenia

Opis

Z tego modułu dowiesz się, jak utworzyć potok strumieniowy przy użyciu jednego z udostępnionych przez Google szablonów Dataflow. Dokładniej rzecz ujmując, użyjesz szablonu Pub/Sub do BigQuery, który odczytuje wiadomości napisane w formacie JSON z tematu Pub/Sub i przenosi je do tabeli BigQuery. Dokumentację tego szablonu znajdziesz w przewodniku dotyczącym rozpoczynania pracy z szablonami udostępnionymi przez Google.

Do utworzenia zbioru danych i tabeli BigQuery możesz użyć wiersza poleceń Cloud Shell lub konsoli Cloud. Wybierz jedną metodę, a następnie korzystaj z niej do końca tego modułu. Jeśli chcesz poznać działanie obu metod, przejdź moduł jeszcze raz.

Jakie zadania wykonasz

  • Utworzysz zbiór danych i tabelę BigQuery.
  • Utworzysz zasobnik Cloud Storage.
  • Utworzysz potok strumieniowy przy użyciu szablonu Dataflow Pub/Sub do BigQuery.

Konfiguracja

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie oddatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: jeśli masz już osobiste konto lub projekt w Google Cloud, nie używaj go w tym module, aby uniknąć naliczania opłat na koncie.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google Cloud;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).

    Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.

    {{{user_0.username | "Username"}}}

    Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.

  4. Kliknij Dalej.

  5. Skopiuj podane niżej hasło i wklej je w oknie powitania.

    {{{user_0.password | "Password"}}}

    Hasło znajdziesz też w panelu Szczegóły modułu.

  6. Kliknij Dalej.

    Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  7. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby wyświetlić menu z listą produktów i usług Google Cloud, w lewym górnym rogu kliknij Menu nawigacyjne. Ikona menu nawigacyjnego

Aktywowanie Cloud Shell

Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.

  1. Kliknij Aktywuj Cloud Shell Ikona aktywowania Cloud Shell na górze konsoli Google Cloud.

Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze PROJECT_ID. Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem PROJECT_ID dla tej sesji:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.

  1. (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
gcloud auth list
  1. Kliknij Autoryzuj.

  2. Dane wyjściowe powinny wyglądać tak:

Dane wyjściowe:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
gcloud config list project

Dane wyjściowe:

[core] project = <project_ID>

Przykładowe dane wyjściowe:

[core] project = qwiklabs-gcp-44776a13dea667a6 Uwaga: pełną dokumentację gcloud w Google Cloud znajdziesz w opisie narzędzia wiersza poleceń gcloud.

Zadanie 1. Sprawdzanie, czy interfejs Dataflow API został włączony ponownie

Aby zapewnić dostęp do potrzebnego interfejsu API, ponownie uruchom połączenie z Dataflow API.

  1. W konsoli Cloud wpisz „Dataflow API” na pasku wyszukiwania u góry. Kliknij wynik z Dataflow API.

  2. Kliknij Zarządzaj.

  3. Kliknij Wyłącz API.

Jeśli pojawi się prośba o potwierdzenie, kliknij Wyłącz.

  1. Kliknij Włącz.

Gdy interfejs API zostanie włączony, na stronie pojawi się opcja jego wyłączenia.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania.

Wyłączenie i ponownie włączenie Dataflow API

Zadanie 2. Tworzenie zbioru danych i tabeli BigQuery oraz zasobnika Cloud Storage przy użyciu Cloud Shell

Najpierw utworzymy zbiór danych i tabelę BigQuery.

Uwaga: w tym zadaniu użyjesz narzędzia wiersza poleceń bq. Jeśli chcesz wykonać te kroki przy użyciu konsoli Cloud, przejdź do zadania 3.
  1. Aby utworzyć zbiór danych o nazwie taxirides (przejazdy_taksówką), uruchom następujące polecenie:
bq mk taxirides

Wynik powinien wyglądać mniej więcej tak:

Dataset '' successfully created

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zbiór danych BigQuery, wyświetli się odpowiedni wynik.

Utworzenie zbioru danych BigQuery (nazwa: taxirides)

Uzyskanego zbioru danych użyjesz w następnym kroku do utworzenia instancji tabeli BigQuery.

  1. Aby to zrobić, uruchom następujące polecenie:
bq mk \ --time_partitioning_field timestamp \ --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\ timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\ passenger_count:integer -t taxirides.realtime

Wynik powinien wyglądać mniej więcej tak:

Table 'myprojectid:taxirides.realtime' successfully created

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć tabelę w zbiorze danych BigQuery, wyświetli się odpowiedni wynik.

Utworzenie tabeli w zbiorze danych BigQuery

Na pierwszy rzut oka polecenie bq mk wygląda na dość skomplikowane. Dokumentacja wiersza poleceń BigQuery pomoże nam je zrozumieć. Znajdziemy w niej na przykład informacje o schemacie:

  • To albo ścieżka do lokalnego pliku schematu JSON, albo rozdzielana przecinkami lista definicji kolumn mająca postać [FIELD]:[DATA_TYPE], [FIELD]:[DATA_TYPE].

W tym przypadku wykorzystamy tę drugą formę – listę rozdzieloną przecinkami.

Tworzenie zasobnika Cloud Storage przy użyciu Cloud Shell

Utworzyliśmy już instancję tabeli, czas więc utworzyć zasobnik.

Użyj identyfikatora projektu jako nazwy zasobnika, aby zapewnić jej globalną unikalność:

  • Aby to zrobić, uruchom następujące polecenia:
export BUCKET_NAME={{{project_0.project_id | "Bucket Name"}}} gsutil mb gs://$BUCKET_NAME/

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zasobnik Cloud Storage, wyświetli się odpowiedni wynik.

Utworzenie zasobnika w Cloud Storage

Po utworzeniu zasobnika przewiń tę stronę w dół do sekcji z instrukcją uruchamiania potoku.

Zadanie 3. Tworzenie zbioru danych i tabeli BigQuery oraz zasobnika Cloud Storage przy użyciu konsoli Google Cloud.

Uwaga: jeśli zadanie 2, które obejmuje te same czynności w wierszu poleceń, zostało już wykonane, pomiń zadanie 3.
  1. W menu po lewej stronie, w sekcji Big Data, kliknij BigQuery.

  2. Następnie kliknij Gotowe.

  3. Kliknij 3 kropki obok nazwy projektu w sekcji Eksplorator, a potem Utwórz zbiór danych.

  4. Jako identyfikator zbioru danych wpisz taxirides:

  5. W polu Lokalizacja danych wybierz us (wiele regionów w Stanach Zjednoczonych).

  6. Pozostaw inne ustawienia domyślne bez zmian i kliknij UTWÓRZ ZBIÓR DANYCH.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zbiór danych BigQuery, wyświetli się odpowiedni wynik.

Utworzenie zbioru danych BigQuery (nazwa: taxirides)
  1. Zbiór danych taxirides powinien się pojawić pod identyfikatorem projektu, w konsoli po lewej stronie.

  2. Kliknij 3 kropki obok zbioru danych taxirides i wybierz Otwórz.

  3. Potem po prawej stronie konsoli kliknij UTWÓRZ TABELĘ.

  4. W polu Miejsce docelowe > Nazwa tabeli wpisz realtime.

  5. W sekcji Schemat przesuń suwak obok opcji Edytuj jako tekst i wpisz tę treść:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp, meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Konsola powinna wyglądać mniej więcej tak:

Tworzenie strony tabeli

  1. Następnie kliknij Utwórz tabelę.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć tabelę w zbiorze danych BigQuery, wyświetli się odpowiedni wynik.

Utworzenie tabeli w zbiorze danych BigQuery

Tworzenie zasobnika Cloud Storage za pomocą konsoli Cloud

  1. Wróć do konsoli Cloud i otwórz Cloud Storage > Zasobniki > Utwórz zasobnik.

  2. Użyj identyfikatora projektu jako nazwy zasobnika, aby zapewnić jej globalną unikalność:

  3. Pozostaw inne ustawienia domyślne, a następnie kliknij Utwórz.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zasobnik Cloud Storage, wyświetli się odpowiedni wynik.

Utworzenie zasobnika w Cloud Storage

Zadanie 4. Uruchamianie potoku

Uruchom szablon Dataflow:

gcloud dataflow jobs run iotflow \ --gcs-location gs://dataflow-templates-{{{project_0.default_region | "Region"}}}/latest/PubSub_to_BigQuery \ --region {{{project_0.default_region | "Region"}}} \ --worker-machine-type e2-medium \ --staging-location gs://{{{project_0.project_id | "Bucket Name"}}}/temp \ --parameters inputTopic=projects/pubsub-public-data/topics/taxirides-realtime,outputTableSpec={{{project_0.project_id | "Table Name"}}}:taxirides.realtime

konsoli Google Cloud otwórz Menu nawigacyjne i kliknij Dataflow > Zadania, a zobaczysz zadanie Dataflow.

Więcej informacji znajdziesz w tym dokumencie.

Uwaga: możliwe, że trzeba będzie poczekać chwilę na zakończenie śledzenia aktywności.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się uruchomić potok Dataflow, wyświetli się odpowiedni wynik.

Uruchomienie potoku

Zobaczysz, jak tworzą się Twoje zasoby i stają się gotowe do użycia.

Teraz wyświetlimy dane zapisane w BigQuery, klikając opcję BigQuery w menu nawigacyjnym.

  • Po otwarciu interfejsu BigQuery pod nazwą Twojego projektu zobaczysz zbiór danych taxirides, a niżej tabelę realtime.
Uwaga: możliwe, że trzeba będzie poczekać kilka minut na wypełnienie tabeli BigQuery danymi.

Zadanie 5. Wyślij zapytanie

Zapytania możesz wysyłać przy użyciu standardowej wersji SQL.

  1. Edytorze BigQuery dodaj ten fragment, aby wysłać zapytanie dotyczące danych w projekcie:
SELECT * FROM `{{{project_0.project_id | "Bucket Name"}}}.taxirides.realtime` LIMIT 1000
  1. Teraz kliknij Uruchom.

W przypadku wystąpienia problemów lub błędów uruchom zapytanie ponownie (uruchomienie potoku zajmuje minutę).

  1. Gdy zapytanie się uruchomi, w panelu Wyniki zapytania wyświetlą się dane wyjściowe, które będą wyglądać tak:

Strona wyników zapytania

Dobra robota! Właśnie udało Ci się wyciągnąć z tematu Pub/Sub dane dotyczące 1000 przejazdów taksówką i przenieść je do tabeli BigQuery. Jak widać, szablony stanowią praktyczny i łatwy w użyciu sposób uruchamiania zadań Dataflow. Aby zobaczyć inne szablony Google w dokumentacji Dataflow, przejrzyj przewodnik dotyczący rozpoczynania pracy z szablonami udostępnionymi przez Google.

Zadanie 6. Sprawdź swoją wiedzę

Poniżej znajdziesz pytania jednokrotnego wyboru, które pomogą Ci utrwalić wiedzę zdobytą w tym module. Odpowiedz na nie najlepiej, jak potrafisz.

Gratulacje!

Utworzyłeś(-aś) potok strumieniowy przy użyciu szablonu Dataflow Pub/Sub do BigQuery, który odczytuje wiadomości napisane w formacie JSON z tematu Pub/Sub i przenosi je do tabeli BigQuery.

Kolejne kroki / Więcej informacji

Ten moduł należy do serii modułów Qwik Start. Opracowano je tak, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu Google Cloud Skills Boost i znajdź kolejny interesujący Cię moduł.

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 4 lutego 2024 r.

Ostatni test modułu: 10 listopada 2023 r.

Copyright 2024 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.

Ta treść jest obecnie niedostępna

Kiedy dostępność się zmieni, wyślemy Ci e-maila z powiadomieniem

Świetnie

Kiedy dostępność się zmieni, skontaktujemy się z Tobą e-mailem