Контрольні точки
Create a lake, zone, and asset
/ 20
Query BigQuery table to review data quality
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Review data quality results in BigQuery
/ 20
Перевірка якості даних у Dataplex
- GSP1158
- Огляд
- Налаштування й вимоги
- Завдання 1. Створіть озеро, зону й об’єкт Dataplex
- Завдання 2. Виконайте запит до таблиці BigQuery, щоб перевірити якість даних
- Завдання 3. Створіть і завантажте файл зі специфікацією якості даних
- Завдання 4. Налаштуйте й запустіть завдання з перевірки якості даних у Dataplex
- Завдання 5. Перегляньте результати перевірки якості даних у BigQuery
- Вітаємо!
GSP1158
Огляд
Dataplex – це інтелектуальна матриця даних, завдяки якій організації можуть централізовано шукати, контролювати й відстежувати дані, а також керувати ними в озерах, сховищах і вітринах із метою аналізу у великих масштабах.
Цей сервіс дає змогу налаштовувати й запускати перевірки якості даних для об’єктів Dataplex, зокрема таблиць BigQuery й файлів Cloud Storage. За допомогою завдань Dataplex можна інтегрувати перевірку якості даних у повсякденні робочі процеси, зокрема перевіряти дані, які є частиною виробничого конвеєра, регулярно відстежувати їх якість на основі низки критеріїв і створювати звіти, щоб дотримуватися нормативних вимог.
Під час цієї практичної роботи ви навчитеся перевіряти якість даних за допомогою Dataplex. Для цього ви створите власний файл зі специфікацією, на основі якого налаштуєте завдання з перевірки якості даних, а потім виконаєте його для даних BigQuery.
Завдання
- Створіть озеро, зону й об’єкт Dataplex
- Виконайте запит до таблиці BigQuery, щоб перевірити якість даних
- Створіть і завантажте файл зі специфікацією якості даних
- Налаштуйте й запустіть завдання з перевірки якості даних
- Перегляньте результати перевірки якості даних
Налаштування й вимоги
Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)
Ознайомтеся з наведеними нижче вказівками. На виконання практичної роботи відводиться обмежений час, і її не можна призупинити. Щойно ви натиснете Start Lab (Почати практичну роботу), з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичну роботу в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час виконання практичної роботи вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Щоб виконати цю практичну роботу, потрібно мати:
- стандартний веб-переглядач, наприклад Chrome (рекомендовано)
- достатню кількість часу, оскільки почавши практичну роботу, ви не зможете призупинити її
Як почати виконувати практичну роботу й увійти в Google Cloud Console
-
Натисніть кнопку Start Lab (Почати практичну роботу). Якщо за практичну роботу необхідно заплатити, відкриється спливаюче вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель Lab Details (Відомості про практичну роботу) з такими даними:
- кнопка Open Google Cloud console (Відкрити Google Cloud Console);
- час до закінчення;
- тимчасові облікові дані, які потрібно використовувати для доступу до цієї практичної роботи;
- інша інформація, необхідна для виконання цієї практичної роботи.
-
Натисніть Open Google Cloud console (Відкрити Google Cloud Console) або натисніть правою кнопкою миші й виберіть Open Link in Incognito Window (Відкрити посилання в анонімному вікні), якщо ви використовуєте вебпереглядач Chrome.
Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою Sign in (Вхід).
Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.
Примітка. Якщо з’явиться вікно Choose an account (Виберіть обліковий запис), натисніть Use Another Account (Увійти в інший обліковий запис). -
За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Sign in (Вхід).
{{{user_0.username | "Username"}}} Поле Username (Ім’я користувача) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
-
Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).
{{{user_0.password | "Password"}}} Поле Password (Пароль) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
Важливо. Обов’язково використовуйте облікові дані, призначені для відповідної практичної роботи. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата. -
Виконайте наведені нижче дії.
- Прийміть Умови використання.
- Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
- Не реєструйте безкоштовні пробні версії.
Через кілька секунд Google Cloud Console відкриється в новій вкладці.
Як активувати Cloud Shell
Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.
- Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) .
Щойно ви підключитеся, вас буде автентифіковано, а проект отримає ваш PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ). Вивід міститиме рядок зі значенням PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ) для цього сеансу:
gcloud
– це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.
- (Необов’язково) Щоб вивести поточне ім’я облікового запису, введіть таку команду:
-
Натисніть Authorize (Авторизувати).
-
Вихідні дані матимуть такий вигляд:
Вивід:
- (Необов’язково) Щоб вивести ідентифікатор проекту, введіть таку команду:
Вивід:
Приклад виводу:
gcloud
, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.
Увімкніть Dataproc API
-
У рядку пошуку вгорі Google Cloud Console введіть Cloud Dataproc API.
-
Виберіть серед результатів у розділі Marketplace Cloud Dataproc API.
-
Натисніть Enable (Увімкнути).
Завдання 1. Створіть озеро, зону й об’єкт Dataplex
Щоб налаштувати й запустити завдання з перевірки якості даних, спершу потрібно створити деякі ресурси Dataplex.
У цьому завданні ви створите нове озеро даних Dataplex для зберігання інформації про клієнтів електронної комерції, додасте до озера необроблену зону, а потім долучите до неї попередньо створений набір даних BigQuery як новий об’єкт.
Створіть озеро даних
- У меню навігації () Google Cloud Console натисніть Analytics (Аналітика) > Dataplex.
Якщо з’явиться запит Welcome to the new Dataplex experience
(Вітаємо в новому інтерфейсі Dataplex), натисніть Close (Закрити).
-
У розділі Manage lakes (Керувати озерами даних) натисніть Manage (Керувати).
-
Виберіть Create lake (Створити озеро даних).
-
Введіть необхідну інформацію, щоб створити нове озеро.
Властивість | Значення |
---|---|
Відображувана назва |
Ecommerce Lake (Озеро даних електронної комерції) |
Ідентифікатор | Залиште значення за умовчанням. |
Регіон |
Залиште інші значення за умовчанням.
- Натисніть Create (Створити).
Озеро даних буде створено протягом 3 хвилин.
Додайте зону в озеро даних
-
Натисніть назву потрібного озера на вкладці Manage (Керувати).
-
Виберіть Add zone (Додати зону).
-
Введіть необхідну інформацію, щоб створити нову зону.
Властивість | Значення |
---|---|
Відображувана назва |
Customer Contact Raw Zone (Необроблена зона з контактною інформацією клієнтів) |
Ідентифікатор | Залиште значення за умовчанням. |
Тип | Необроблена зона |
Місцезнаходження даних | Регіональне |
Залиште інші значення за умовчанням.
Наприклад, за умовчанням буде ввімкнено параметр Enable metadata discovery (Увімкнути пошук метаданих) у розділі Discovery settings (Налаштування пошуку), який дає авторизованим користувачам змогу знаходити дані в зоні.
- Натисніть Create (Створити).
Зону буде створено протягом 2 хвилин.
Додайте об’єкт у зону
-
Натисніть назву потрібної зони на вкладці Zones (Зони).
-
На вкладці Assets (Об’єкти) виберіть Add assets (Додати об’єкти).
-
Натисніть Add an asset (Додати об’єкт).
-
Введіть необхідну інформацію, щоб долучити новий об’єкт.
Властивість | Значення |
---|---|
Тип | Набір даних BigQuery |
Відображувана назва |
Contact Info (Контактна інформація) |
Ідентифікатор | Залиште значення за умовчанням. |
Набір даних |
|
Залиште інші значення за умовчанням.
-
Натисніть Done (Готово).
-
Натисніть Continue (Продовжити).
-
У розділі Discovery settings (Налаштування пошуку) виберіть параметр Inherit (Успадкувати), щоб об’єкт успадкував налаштування пошуку на рівні зони, а потім натисніть Continue (Продовжити).
-
Натисніть Submit (Надіслати).
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Завдання 2. Виконайте запит до таблиці BigQuery, щоб перевірити якість даних
У попередньому завданні ви створили новий об’єкт Dataplex на основі набору даних BigQuery під назвою customers, який було підготовлено для цієї практичної роботи. Цей набір даних включає таблицю contact_info, яка містить необроблену контактну інформацію клієнтів вигаданої компанії електронної комерції.
На цьому етапі ви виконаєте запит до таблиці, щоб виявити потенційні проблеми з якістю даних, які пізніше можна буде включити в завдання з перевірки як критерії. Ви також визначите ще один попередньо створений набір даних, який використовуватиметься для зберігання результатів перевірки якості даних в одному з наступних завдань.
-
У меню навігації () Google Cloud Console натисніть BigQuery > SQL Workspace (Робоча область SQL).
-
На панелі Explorer (Провідник) натисніть стрілку поруч з ідентифікатором потрібного проекту, щоб розгорнути вміст.
Крім набору даних customer_contact_raw_zone, створеного Dataplex для керування цією зоною, для практичної роботи також було підготовлено інші два набори даних BigQuery:
- customers
- customers_dq_dataset
Набір даних customers містить одну таблицю під назвою contact_info, яка включає контактну інформацію клієнтів, зокрема ідентифікатор, ім’я, електронну адресу тощо. У межах практичної роботи ви перевірите цю таблицю на наявність проблем із якістю даних.
Набір даних customers_dq_dataset не містить таблиць. Налаштовуючи завдання з перевірки якості даних в одному з наступних завдань, ви використовуватимете цей набір даних, щоб зберегти нову таблицю з його результатами.
- У Редакторі SQL натисніть Compose a new query (Створити новий запит). Вставте наведений нижче запит і натисніть Run (Виконати).
Цей запит вибере з вихідної таблиці 50 записів, упорядкує їх за ідентифікатором клієнта й виведе результат.
- Перегляньте результати на панелі Results (Результати).
Зверніть увагу, що деякі записи не містять ідентифікаторів клієнтів або в них указано неправильні електронні адреси. Це може спричинити труднощі з керуванням замовленнями.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Завдання 3. Створіть і завантажте файл зі специфікацією якості даних
У Dataplex вимоги для перевірки якості даних можна визначити за допомогою файлів YAML у CloudDQ, які містять відповідну специфікацію. Для цього файл YAML потрібно завантажити в сегмент Cloud Storage і надати доступ до нього в завданні з перевірки якості даних.
Файл YAML має чотири основні розділи:
- список стандартних або налаштованих правил, які потрібно виконати;
- фільтри рядків, що дають змогу вибрати підмножину даних для перевірки;
- прив’язки правил, які застосовують визначені правила до таблиць;
- необов’язкові параметри правил, завдяки яким можна вказати, які типи правил може містити файл YAML.
У цьому завданні ви створите новий файл YAML зі специфікацією для перевірки якості даних, щоб знайти відсутні ідентифікатори клієнтів і електронні адреси в таблиці BigQuery. Налаштувавши його, ви завантажите цей файл у попередньо створений сегмент Cloud Storage, щоб скористатися ним пізніше під час виконання перевірки якості даних.
Створіть файл зі специфікацією якості даних
- Виконайте наведену нижче команду в Cloud Shell, щоб створити новий порожній файл для специфікації якості даних.
- Вставте наведений нижче код.
- Перегляньте цей код, щоб дізнатись, які два основні правила для перевірки якості даних налаштовано в цьому файлі.
Спершу у файлі dq-customer-raw-data.yaml
указано ключові параметри ресурсів Dataplex, зокрема ідентифікатор проекту, регіон, а також назву озера й зони Dataplex.
Після цього в ньому визначено два наведені нижче основні правила і їх дозволені параметри.
- Правило NOT_NULL стосується повноти даних, тобто перевіряє, що значення не відсутні.
- Правило VALID_EMAIL стосується відповідності даних і перевіряє, що значення дійсні.
Ці правила застосовуються до відповідних об’єктів (таблиць) і стовпців за допомогою прив’язок.
- Перша прив’язка під назвою VALID_CUSTOMER застосовує правило NOT_NULL до стовпця id в таблиці contact_info. Це правило перевірятиме, чи містить стовпець ID порожні значення.
- Друга прив’язка VALID_EMAIL_ID застосовує правило VALID_EMAIL до стовпця email у таблиці contact_info. Це правило перевірятиме, чи є електронні адреси в цьому стовпці дійсними.
- Щоб зберегти зміни й закрити файл, натисніть
Ctrl + X
, а потім –Y
.
Завантажте файл у Cloud Storage
- Виконайте наведену нижче команду в Cloud Shell, щоб завантажити файл у сегмент Cloud Storage, створений для цієї практичної роботи.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Завдання 4. Налаштуйте й запустіть завдання з перевірки якості даних у Dataplex
Щоб перевірити якість даних, потрібно виконати завдання, налаштоване за допомогою файлу YAML зі специфікацією. Коли завдання виконається, показники якості даних буде записано в набір даних BigQuery.
На цьому етапі ви налаштуєте й виконаєте завдання з перевірки якості даних, скориставшись файлом YAML зі специфікацією, який завантажили в Cloud Storage у попередньому кроці. Під час налаштування вам також потрібно буде вказати, що результати перевірки слід зберегти в попередньо створеному наборі даних BigQuery під назвою customer_dq_dataset.
-
У меню навігації () Google Cloud Console натисніть Analytics (Аналітика) > Dataplex.
-
У розділі Manage lakes (Керувати озерами даних) натисніть Process (Обробити).
-
Виберіть Create task (Створити завдання).
-
У розділі Check data quality (Перевірити якість даних) натисніть Create task (Створити завдання).
-
Введіть необхідну інформацію, щоб створити нове завдання з перевірки якості даних.
Властивість | Значення |
---|---|
Озеро даних Dataplex | ecommerce-lake |
Відображувана назва |
Customer Data Quality Job (Завдання з перевірки якості даних клієнтів) |
Ідентифікатор | Залиште значення за умовчанням. |
Виберіть файл GCS |
|
Виберіть набір даних BigQuery |
|
Таблиця BigQuery | dq_results |
Сервісний обліковий запис користувача | Сервісний обліковий запис Compute Engine за умовчанням |
Залиште інші значення за умовчанням.
Зверніть увагу, що для виконання цієї практичної роботи сервісному обліковому запису Compute Engine за умовчанням було попередньо призначено всі необхідні ролі й дозволи IAM. Щоб дізнатися більше, перегляньте розділ Як створити сервісний обліковий запис у документації Dataplex.
-
Натисніть Continue (Продовжити).
-
Для параметра Start (Початок) виберіть опцію Immediately (Негайно).
-
Натисніть Create (Створити).
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Завдання 5. Перегляньте результати перевірки якості даних у BigQuery
У цьому завданні вам потрібно перевірити таблиці в наборі даних customers_dq_dataset, щоб визначити, які записи не містять ідентифікаторів клієнтів або містять недійсні електронні адреси.
-
У меню навігації () Google Cloud Console натисніть BigQuery > SQL Workspace (Робоча область SQL).
-
На панелі Explorer (Провідник) натисніть стрілку поруч з ідентифікатором потрібного проекту, щоб розгорнути вміст.
-
Натисніть стрілку біля набору даних customer_dq_dataset.
-
Виберіть таблицю dq_summary.
-
Щоб переглянути результати, натисніть вкладку Preview (Попередній перегляд).
Таблиця dq summary містить корисну інформацію про загальну якість даних, зокрема кількість записів, які не відповідають двом правилам, указаним у файлі зі специфікацією.
-
Прокрутіть сторінку до останнього стовпця під назвою failed_records_query.
-
Натисніть стрілку вниз у першому рядку, щоб розгорнути повний текст запиту для результатів правила VALID_EMAIL і переглянути його.
Зверніть увагу, що запит досить довгий і закінчується рядком ORDER BY _dq_validation_rule_id
.
- Натисніть Compose new query (Створити новий запит). Скопіюйте й вставте запит у Редакторі SQL, а потім натисніть Run (Виконати).
У результатах запиту показуватиметься, які електронні адреси в таблиці contact_info не є дійсними.
- Повторіть кроки 7–8 у другій клітинці, яка містить запит для результатів правила VALID_CUSTOMER.
Згідно з результатами цього запиту, 10 записів у таблиці contact_info не містять ідентифікаторів.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Вітаємо!
Ви перевірили якість даних за допомогою Dataplex, створивши власний файл зі специфікацією, на основі якого налаштували завдання з перевірки якості даних, а потім виконали його для таблиці BigQuery.
Навчання й сертифікація Google Cloud
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 4 липня 2023 року
Практичну роботу востаннє протестовано 4 липня 2023 року
© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.