arrow_back

Ocenianie jakości danych przy użyciu Dataplex

Sprawdź swoją wiedzę i podziel się nią ze społecznością.
done
Zyskaj dostęp do ponad 700 praktycznych modułów oraz odznak umiejętności i szkoleń

Ocenianie jakości danych przy użyciu Dataplex

Moduł 1 godz. 30 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
info Ten moduł może zawierać narzędzia AI, które ułatwią Ci naukę.
Sprawdź swoją wiedzę i podziel się nią ze społecznością.
done
Zyskaj dostęp do ponad 700 praktycznych modułów oraz odznak umiejętności i szkoleń

GSP1158

Moduły Google Cloud do samodzielnego ukończenia

Opis

Dataplex to inteligentna tkanina danych, która umożliwia organizacjom centralne wykrywanie i monitorowanie danych w jeziorach, hurtowniach i składnicach danych oraz zarządzanie nimi na potrzeby analiz przeprowadzanych na dużą skalę.

Cenną funkcją Dataplex jest możliwość definiowania i przeprowadzania kontroli jakości danych w zasobach Dataplex, takich jak tabele BigQuery i pliki w Cloud Storage. Za pomocą zadań dotyczących jakości danych w Dataplex możesz włączyć kontrole jakości danych w codzienne przepływy pracy przez sprawdzanie poprawności danych wchodzących w skład potoku produkcyjnego, regularne monitorowanie jakości danych pod kątem określonego zestawu kryteriów i tworzenie raportów dotyczących jakości danych na potrzeby spełnienia wymogów prawnych.

W tym module dowiesz się, jak ocenić jakość danych za pomocą Dataplex. Utworzysz własny plik specyfikacji jakości danych i wykorzystasz go, aby zdefiniować i uruchomić zadanie dotyczące jakości na danych BigQuery.

Jakie zadania wykonasz

  • Utworzysz jezioro danych, strefę i zasób Dataplex.
  • Wykonasz zapytanie na tabeli BigQuery, aby sprawdzić jakość danych.
  • Utworzysz i prześlesz plik specyfikacji jakości danych.
  • Zdefiniujesz i uruchomisz zadanie dotyczące jakości danych.
  • Przejrzysz wyniki zadania dotyczącego jakości danych.

Konfiguracja i wymagania

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie oddatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: jeśli masz już osobiste konto lub projekt w Google Cloud, nie używaj go w tym module, aby uniknąć naliczania opłat na koncie.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google Cloud;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).

    Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.

    {{{user_0.username | "Username"}}}

    Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.

  4. Kliknij Dalej.

  5. Skopiuj podane niżej hasło i wklej je w oknie powitania.

    {{{user_0.password | "Password"}}}

    Hasło znajdziesz też w panelu Szczegóły modułu.

  6. Kliknij Dalej.

    Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  7. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby wyświetlić menu z listą produktów i usług Google Cloud, w lewym górnym rogu kliknij Menu nawigacyjne. Ikona menu nawigacyjnego

Aktywowanie Cloud Shell

Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.

  1. Kliknij Aktywuj Cloud Shell Ikona aktywowania Cloud Shell na górze konsoli Google Cloud.

Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze PROJECT_ID. Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem PROJECT_ID dla tej sesji:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.

  1. (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
gcloud auth list
  1. Kliknij Autoryzuj.

  2. Dane wyjściowe powinny wyglądać tak:

Dane wyjściowe:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
gcloud config list project

Dane wyjściowe:

[core] project = <project_ID>

Przykładowe dane wyjściowe:

[core] project = qwiklabs-gcp-44776a13dea667a6 Uwaga: pełną dokumentację gcloud w Google Cloud znajdziesz w opisie narzędzia wiersza poleceń gcloud.

Włączanie Dataproc API

  1. Na pasku wyszukiwania u góry konsoli Google Cloud wpisz Cloud Dataproc API.

  2. Kliknij wynik z interfejsem Cloud Dataproc API w sekcji Marketplace.

  3. Kliknij Włącz.

Zadanie 1. Tworzenie jeziora danych, strefy i zasobu w Dataplex

Aby zdefiniować i uruchomić zadania dotyczące jakości danych, musisz najpierw utworzyć pewne zasoby Dataplex.

W tym zadaniu utworzysz nowe jezioro danych Dataplex na informacje o klientach sklepu internetowego, dodasz do jeziora strefę nieprzetworzoną, a potem dołączysz do strefy gotowy zbiór danych BigQuery jako nowy zasób.

Tworzenie jeziora

  1. Menu nawigacyjnym (Menu nawigacyjne) konsoli Google Cloud kliknij Analityka > Dataplex.

Jeśli pojawi się okno Welcome to the new Dataplex experience (Witamy w nowej usłudze Dataplex), kliknij Zamknij.

  1. W sekcji Zarządzanie jeziorami kliknij Zarządzaj.

  2. Kliknij Utwórz jezioro danych.

  3. Wpisz informacje potrzebne do utworzenia nowego jeziora:

Właściwość Wartość
Wyświetlana nazwa Ecommerce Lake
Identyfikator Pozostaw wartość domyślną.
Region

W pozostałych opcjach pozostaw wartości domyślne.

  1. Kliknij Utwórz.

Utworzenie jeziora może zająć do 3 minut.

Dodawanie strefy do jeziora

  1. Na karcie Zarządzanie kliknij nazwę jeziora.

  2. Kliknij Dodaj strefę.

  3. Wpisz informacje potrzebne do utworzenia nowej strefy:

Właściwość Wartość
Wyświetlana nazwa Customer Contact Raw Zone
Identyfikator Pozostaw wartość domyślną.
Typ Strefa nieprzetworzona
Lokalizacje danych Region

W pozostałych opcjach pozostaw wartości domyślne.

Przykładowo: opcja Włącz wykrywanie metadanych w sekcji Ustawienia wykrywania jest domyślnie włączona i pozwala uprawnionym użytkownikom wykrywać dane w strefie.

  1. Kliknij Utwórz.

Utworzenie strefy może zająć do 2 minut.

Następne zadanie możesz wykonać, gdy status strefy będzie Aktywny.

Dołączanie zasobu do strefy

  1. Kliknij nazwę strefy na karcie Strefy.

  2. Na karcie Zasoby kliknij Dodaj zasoby.

  3. Kliknij Dodaj zasób.

  4. Wpisz informacje potrzebne do dołączenia nowego zasobu:

Właściwość Wartość
Typ Zbiór danych BigQuery
Wyświetlana nazwa Contact Info
Identyfikator Pozostaw wartość domyślną.
Zbiór danych .customers

W pozostałych opcjach pozostaw wartości domyślne.

  1. Kliknij Gotowe.

  2. Kliknij Dalej.

  3. Ustawieniach wykrywania wybierz Odziedzicz, aby odziedziczyć ustawienia wykrywania z poziomu strefy. Następnie kliknij Dalej.

  4. Kliknij Prześlij.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Utworzenie jeziora danych, strefy i zasobu w Dataplex

Zadanie 2. Wykonywanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych

W poprzednim zadaniu utworzyliśmy nowy zasób Dataplex ze zbioru danych BigQuery o nazwie customers, który został utworzony wcześniej na potrzeby tego modułu. Zbiór danych zawiera tabelę contact_info, w której znajdują się nieprzetworzone dane kontaktowe klientów fikcyjnego sklepu internetowego.

W tym zadaniu wykonasz zapytanie na tej tabeli, aby zacząć wyszukiwać potencjalne problemy z jakością danych, które można będzie włączyć jako poszczególne kontrole w zadanie dotyczące jakości danych. Wskażesz też inny utworzony wcześniej zbiór danych, w którym będzie można zapisać wyniki zadania dotyczącego jakości danych w jednym z późniejszych kroków.

  1. Menu nawigacyjnym (Menu nawigacyjne) konsoli Google Cloud otwórz BigQuery > Obszar roboczy SQL.

  2. W panelu Eksplorator rozwiń strzałkę przy identyfikatorze projektu, aby wyświetlić zawartość:

Oprócz zbioru danych customer_contact_raw_zone utworzonego przez Dataplex do zarządzania tą strefą są tam 2 zbiory danych BigQuery, które zostały utworzone wcześniej na potrzeby tego modułu:

  • customers
  • customers_dq_dataset

Zbiór danych customers zawiera jedną tabelę o nazwie contact_info, w której znajdują się dane kontaktowe klientów, takie jak identyfikator klienta, jego imię i nazwisko, adres e-mail itp. To tabela, którą w tym module przeanalizujesz i sprawdzisz pod kątem problemów z jakością danych.

Zbiór danych customers_dq_dataset nie zawiera żadnych tabel. W późniejszym kroku, przy definiowaniu zadania dotyczącego jakości danych, wykorzystasz ten zbiór danych jako lokalizację docelową dla nowej tabeli z wynikami zadania dotyczącego jakości danych.

Lista zbiorów danych BigQuery

  1. W edytorze SQL kliknij Utwórz nowe zapytanie. Wklej to zapytanie, a potem kliknij Uruchom:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

To zapytanie wybiera 50 rekordów z oryginalnej tabeli i porządkuje je w wynikach według identyfikatora klienta.

  1. Przewiń wyniki w panelu Wyniki.

Zauważ, że w niektórych rekordach nie ma identyfikatora klienta lub adres e-mail jest niepoprawny, co może utrudnić zarządzanie zamówieniami klientów.

Niekompletne dane w tabeli contact_info

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Wykonanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych

Zadanie 3. Tworzenie i przesyłanie pliku specyfikacji jakości danych

Wymagania dotyczące kontroli jakości danych w Dataplex określa się za pomocą plików specyfikacji YAML CloudDQ. Utworzony plik specyfikacji YAML jest przesyłany do zasobnika Cloud Storage, który jest udostępniany zadaniu dotyczącemu jakości danych.

Plik YAML ma 4 kluczowe sekcje:

  • lista reguł do uruchomienia (mogą to być reguły wstępnie zdefiniowane lub dostosowane);
  • filtry wierszy pozwalające wybrać podzbiór danych do sprawdzenia poprawności;
  • powiązania reguł, które umożliwiają zastosowanie zdefiniowanych reguł w tabelach;
  • opcjonalne wymiary reguł, dzięki którym można określić typy reguł dopuszczalne w pliku YAML.

W tym zadaniu zdefiniujesz nowy plik specyfikacji YAML na potrzeby różnych kontroli jakości danych, które wskażą brakujące identyfikatory klienta i adresy e-mail w danej tabeli BigQuery. Po zdefiniowaniu pliku prześlesz go do utworzonego wcześniej zasobnika Cloud Storage, co pozwoli wykorzystać go później przy uruchamianiu zadania dotyczącego jakości danych.

Tworzenie pliku specyfikacji jakości danych

  1. Aby utworzyć nowy pusty plik na specyfikację jakości danych, uruchom w Cloud Shell to polecenie:
nano dq-customer-raw-data.yaml
  1. Wklej ten kod:
metadata_registry_defaults: dataplex: projects: {{{project_0.project_id | Project ID}}} locations: {{{project_0.default_region | Region}}} lakes: ecommerce-lake zones: customer-contact-raw-zone row_filters: NONE: filter_sql_expr: |- True INTERNATIONAL_ITEMS: filter_sql_expr: |- REGEXP_CONTAINS(item_id, 'INTNL') rule_dimensions: - consistency - correctness - duplication - completeness - conformance - integrity - timeliness - accuracy rules: NOT_NULL: rule_type: NOT_NULL dimension: completeness VALID_EMAIL: rule_type: REGEX dimension: conformance params: pattern: |- ^[^@]+[@]{1}[^@]+$ rule_bindings: VALID_CUSTOMER: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: id row_filter_id: NONE rule_ids: - NOT_NULL VALID_EMAIL_ID: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: email row_filter_id: NONE rule_ids: - VALID_EMAIL
  1. Przejrzyj kod, aby znaleźć 2 główne reguły dotyczące jakości danych zdefiniowane w tym pliku.

Plik dq-customer-raw-data.yaml rozpoczyna się od najważniejszych parametrów określających zasoby Dataplex, takich jak identyfikator projektu, region oraz nazwy jeziora danych i strefy Dataplex.

Potem wskazuje dozwolone wymiary reguł i 2 główne reguły:

  • Reguła dotycząca wartości NOT_NULL odnosi się do wymiaru kompletności, np. wartości null.
  • Reguła dotycząca wartości VALID_EMAIL odnosi się do wymiaru zgodności, np. wartości nieprawidłowych.

Reguły są powiązane z encjami (tabelami) i kolumnami za pomocą powiązań reguł do walidacji jakości danych:

  • Powiązanie pierwszej reguły nazwano VALID_CUSTOMER. Łączy ono regułę NOT_NULL z kolumną id w tabeli contact_info, co pozwoli sprawdzić, czy kolumna z identyfikatorami zawiera jakiekolwiek wartości null.
  • Drugie powiązanie reguły nazwano VALID_EMAIL_ID. Łączy ono regułę VALID_EMAIL z kolumną email w tabeli contact_info, co pozwoli sprawdzić adresy e-mail pod kątem poprawności.
  1. Naciśnij Ctrl + X, a potem wpisz Y, aby zapisać i zamknąć plik.

Przesyłanie pliku do Cloud Storage

  • Uruchom w Cloud Shell to polecenie, aby przesłać plik do zasobnika Cloud Storage utworzonego na potrzeby tego modułu:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Utworzenie i przesłanie pliku specyfikacji jakości danych

Zadanie 4. Definiowanie i uruchamianie zadania dotyczącego jakości danych w Dataplex

Proces kontroli jakości danych wykorzystuje plik specyfikacji YAML, aby wykonać zadanie dotyczące jakości danych. Na tej podstawie generuje wskaźniki jakości danych zapisywane do zbioru danych BigQuery.

W tym zadaniu zdefiniujesz i uruchomisz zadanie dotyczące jakości danych za pomocą pliku specyfikacji YAML przesłanego do Cloud Storage w poprzednim kroku. Przy definiowaniu zadania wskażesz również utworzony wcześniej zbiór danych BigQuery customer_dq_dataset jako miejsce do przechowywania wyników kontroli jakości danych.

  1. Menu nawigacyjnym (Menu nawigacyjne) konsoli Google Cloud kliknij Analityka > Dataplex.

  2. W sekcji Zarządzanie jeziorami kliknij Przetwarzanie.

  3. Kliknij Utwórz zadanie.

  4. W sekcji Sprawdzanie jakości danych kliknij Utwórz zadanie.

  5. Wpisz informacje potrzebne do utworzenia nowego zadania dotyczącego jakości danych:

Właściwość Wartość
Jezioro danych Dataplex ecommerce-lake
Wyświetlana nazwa Customer Data Quality Job
Identyfikator Pozostaw wartość domyślną.
Wybierz plik GCS -bucket/dq-customer-raw-data.yaml
Wybierz zbiór danych BigQuery .customers_dq_dataset
Tabela BigQuery dq_results
Konto usługi użytkownika Domyślne konto usługi Compute Engine

W pozostałych opcjach pozostaw wartości domyślne.

Uwaga: domyślne konto usługi Compute Engine zostało wcześniej skonfigurowane na potrzeby tego modułu tak, aby miało odpowiednie role i uprawnienia. Więcej informacji znajdziesz w dokumentacji Dataplex dotyczącej tworzenia konta usługi.

  1. Kliknij Dalej.

  2. W polu Uruchom wybierz Natychmiast.

  3. Kliknij Utwórz.

Wykonanie zadania może zająć kilka minut. Aby sprawdzić, czy zadanie zostało wykonane, może być konieczne odświeżenie strony.

Zadanie w stanie Ukończono

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Zdefiniowanie i uruchomienie zadania dotyczącego jakości danych w Dataplex

Zadanie 5. Przeglądanie wyników kontroli jakości danych w BigQuery

W tym zadaniu przejrzysz tabele w zbiorze danych customers_dq_dataset, aby znaleźć rekordy, w których brakuje wartości identyfikatora klienta lub znajduje się niepoprawny adres e-mail.

  1. Menu nawigacyjnym (Menu nawigacyjne) konsoli Google Cloud otwórz BigQuery > Obszar roboczy SQL.

  2. W panelu Eksplorator rozwiń strzałkę przy identyfikatorze projektu, aby wyświetlić zawartość:

  3. Rozwiń strzałkę przy zbiorze danych customer_dq_dataset.

  4. Kliknij tabelę dq_summary.

  5. Kliknij kartę Podgląd, aby wyświetlić wyniki.

Tabela dq summary zawiera przydatne informacje na temat ogólnej jakości danych, w tym liczbę rekordów, które nie są zgodne z 2 regułami zawartymi w pliku specyfikacji jakości danych.

  1. Przewiń do ostatniej kolumny o nazwie failed_records_query.

  2. Kliknij strzałkę w dół w pierwszym wierszu, aby rozwinąć tekst i wyświetlić całe zapytanie dla wyników reguły VALID_EMAIL.

Zwróć uwagę na to, że zapytanie jest dość długie i kończy się instrukcją ORDER BY _dq_validation_rule_id.

  1. Kliknij Utwórz nowe zapytanie. Skopiuj i wklej zapytanie do edytora SQL, a następnie kliknij Uruchom.

Wyniki zapytania zawierają nieprawidłowe wartości adresów e-mail w tabeli contact_info.

Wyniki jakości danych dla reguły VALID_EMAIL

  1. Powtórz kroki 7–8 dla drugiej komórki, która zawiera zapytanie dotyczące wyników reguły VALID_CUSTOMER.

Wyniki zapytania wskazują, że w tabeli contact_info jest 10 rekordów, w których brakuje wartości.

Wyniki jakości danych dla reguły VALID_CUSTOMER

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Przejrzenie wyników jakości danych w tabeli BigQuery

Gratulacje!

Udało Ci się ocenić jakość danych przy użyciu Dataplex przez utworzenie własnego pliku specyfikacji jakości danych i wykorzystanie go do wykonania zadania dotyczącego jakości danych na tabeli BigQuery.

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 4 lipca 2023 r.

Ostatni test modułu: 4 lipca 2023 r.

Copyright 2025 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.

Ta treść jest obecnie niedostępna

Kiedy dostępność się zmieni, wyślemy Ci e-maila z powiadomieniem

Świetnie

Kiedy dostępność się zmieni, skontaktujemy się z Tobą e-mailem