Контрольні точки
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Огляд
- Налаштування й вимоги
- Завдання 1. Створіть у своєму проекті сегмент Cloud Storage
- Завдання 2. Ініціалізуйте Cloud Dataprep
- Завдання 3. Створіть потік
- Завдання 4. Імпортуйте набори даних
- Завдання 5. Підготуйте файл із кандидатами
- Завдання 6. Очистьте файл "Contributions" і об’єднайте його з файлом "Candidates"
- Завдання 7. Підсумок даних
- Завдання 8. Перейменуйте стовпці
- Вітаємо!
Цю практичну роботу було розроблено спільно з нашими партнерами з компанії Trifacta. Оскільки компанія Trifacta є спонсором цієї практичної роботи, ми можемо надавати їй доступ до вашої особистої інформації за умови, що ви погодилися отримувати новини про продукти, оголошення й пропозиції в профілі вашого облікового запису.
GSP105
Огляд
Cloud Dataprep by Trifacta – це інтелектуальний сервіс даних для візуального вивчення, очищення й підготовки даних для аналізу. Сервіс Cloud Dataprep безсерверний і працює з будь-якими обсягами даних. Для його використання не потрібно розгортати інфраструктуру чи керувати нею. Легко працюйте з даними лише за допомогою миші. Писати код не потрібно.
Під час цієї практичної роботи ви навчитеся керувати набором даних за допомогою Dataprep. Ви імпортуватимете набори даних і виправлятимете невідповідності, а також перетворюватимете дані й об’єднуватимете їх. Навіть якщо зараз ці процеси для вас нові, уже наприкінці цієї практичної роботи ви матимете про них уявлення.
Завдання
У цій практичній роботі ви дізнаєтесь, як за допомогою Dataprep виконувати наведені нижче завдання.
- Імпортувати дані
- Виправляти невідповідності даних
- Перетворювати дані
- Об’єднувати дані
Налаштування й вимоги
Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)
Ознайомтеся з наведеними нижче вказівками. На виконання практичної роботи відводиться обмежений час, і її не можна призупинити. Щойно ви натиснете Start Lab (Почати практичну роботу), з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичну роботу в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час виконання практичної роботи вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Щоб виконати цю практичну роботу, потрібно мати:
- стандартний веб-переглядач, наприклад Chrome (рекомендовано)
- достатню кількість часу, оскільки почавши практичну роботу, ви не зможете призупинити її
Як почати виконувати практичну роботу й увійти в Google Cloud Console
-
Натисніть кнопку Start Lab (Почати практичну роботу). Якщо за практичну роботу необхідно заплатити, відкриється спливаюче вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель Lab Details (Відомості про практичну роботу) з такими даними:
- кнопка Open Google Cloud console (Відкрити Google Cloud Console);
- час до закінчення;
- тимчасові облікові дані, які потрібно використовувати для доступу до цієї практичної роботи;
- інша інформація, необхідна для виконання цієї практичної роботи.
-
Натисніть Open Google Cloud console (Відкрити Google Cloud Console) або натисніть правою кнопкою миші й виберіть Open Link in Incognito Window (Відкрити посилання в анонімному вікні), якщо ви використовуєте вебпереглядач Chrome.
Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою Sign in (Вхід).
Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.
Примітка. Якщо з’явиться вікно Choose an account (Виберіть обліковий запис), натисніть Use Another Account (Увійти в інший обліковий запис). -
За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Sign in (Вхід).
{{{user_0.username | "Username"}}} Поле Username (Ім’я користувача) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
-
Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).
{{{user_0.password | "Password"}}} Поле Password (Пароль) також можна знайти на панелі Lab Details (Відомості про практичну роботу).
-
Натисніть Next (Далі).
Важливо. Обов’язково використовуйте облікові дані, призначені для відповідної практичної роботи. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата. -
Виконайте наведені нижче дії.
- Прийміть Умови використання.
- Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
- Не реєструйте безкоштовні пробні версії.
Через кілька секунд Google Cloud Console відкриється в новій вкладці.
Як активувати Cloud Shell
Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.
- Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) .
Щойно ви підключитеся, вас буде автентифіковано, а проект отримає ваш PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ). Вивід міститиме рядок зі значенням PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ) для цього сеансу:
gcloud
– це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.
- (Необов’язково) Щоб вивести поточне ім’я облікового запису, введіть таку команду:
-
Натисніть Authorize (Авторизувати).
-
Вихідні дані матимуть такий вигляд:
Вивід:
- (Необов’язково) Щоб вивести ідентифікатор проекту, введіть таку команду:
Вивід:
Приклад виводу:
gcloud
, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.
Завдання 1. Створіть у своєму проекті сегмент Cloud Storage
-
У Cloud Console виберіть меню навігації() > Cloud Storage > Buckets (Сегменти).
-
Натисніть Create bucket (Створити сегмент).
-
У діалоговому вікні Create a bucket (Створити сегмент) заповніть поле Name (Назва), указавши унікальну назву сегмента. Інші налаштування залиште без змін.
-
Зніміть прапорець біля опції Enforce public access prevention on this bucket (Заборонити загальний доступ до цього сегмента) у розділі
Choose how to control access to objects (Налаштуйте контроль доступу до об’єктів)
. -
Натисніть Create (Створити).
Ви створили сегмент. Запам’ятайте назву семента, адже вона знадобиться вам у наступних кроках.
Перевірка виконаного завдання
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо сегмент Cloud Storage створено правильно, ви побачите оцінку.
Завдання 2. Ініціалізуйте Cloud Dataprep
- Відкрийте Cloud Shell і виконайте таку команду:
Має з’явитися повідомлення про ідентифікацію сервісу.
-
Виберіть меню навігації > Dataprep.
-
Поставте прапорець, щоб прийняти Умови використання Google Dataprep, і натисніть Accept (Прийняти).
-
Поставте прапорець, щоб надати компанії Trifacta доступ до даних вашого облікового запису, і натиснітьAgree and Continue (Прийняти й продовжити).
-
Натисніть Allow (Дозволити), щоб надати компанії Trifacta доступ до даних вашого проекту.
-
Натисніть ім’я користувача для навчання, щоб увійти в сервіс Cloud Dataprep by Trifacta. Ваше ім’я користувача Username (Ім’я користувача) буде наведено на панелі ліворуч у вікні практичної роботи.
-
Натисніть Allow (Дозволити), щоб надати сервісу Cloud Dataprep доступ до вашого облікового запису для практичних робіт у Google Cloud.
-
Поставте прапорець, щоб погодитися з Умовами використання Trifacta, і натисніть Accept (Прийняти).
-
На екрані First time setup (Початкові налаштування) натисніть Continue (Продовжити), щоб створити сховище за умовчанням.
Відкриється сторінка Dataprep.
Перевірка виконаного завдання
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо Cloud Dataprep правильно ініційовано зі сховищем за умовчанням, ви побачите оцінку.
Завдання 3. Створіть потік
Cloud Dataprep використовує робочу область flow
для доступу до наборів даних і керування ними.
- Натисніть значок Flows (Потоки) > Create (Створити) і виберіть Blank Flow (Порожній потік):
- Натисніть Untitled Flow (Потік без назви) і додайте назву й опис потоку. Оскільки в цій практичній роботі використовуються дані Федеральної виборчої комісії США за 2016 рік, укажіть назву потоку "FEC-2016" і додайте опис "United States Federal Elections Commission 2016".
- Натисніть OK.
Відкриється сторінка потоку FEC-2016.
Завдання 4. Імпортуйте набори даних
У цьому розділі ви навчитесь імпортувати й додавати дані в потік FEC-2016.
-
Натисніть Add Datasets (Додати набори даних) і перейдіть за посиланням Import Datasets (Імпортувати набори даних).
-
На панелі меню ліворуч виберіть Cloud Storage для імпорту даних із Cloud Storage, а потім натисніть значок олівця, щоб змінити шлях до файлу.
- У текстовому полі Choose a file or folder (Виберіть файл або папку) введіть
gs://spls/gsp105
і натисніть Go (Вибрати).
Можливо, знадобиться розширити екран, щоб побачити кнопки Go (Вибрати) й Cancel (Скасувати).
-
Натисніть us-fec/.
-
Натисніть значок + поруч із файлом
cn-2016.txt
, щоб створити набір даних і додати його на панель праворуч. Натисніть назву набору даних на панелі праворуч і змініть її на "Candidate Master 2016". -
У той самий спосіб додайте набір даних
itcont-2016-orig.txt
і перейменуйте його на "Campaign Contributions 2016". -
Обидва набори даних відображатимуться на панелі праворуч. Натисніть Import & Add to Flow (Імпортувати й додати до потоку).
Обидва набори даних відображатимуться як потік.
Завдання 5. Підготуйте файл із кандидатами
- За умовчанням буде вибрано набір даних "Candidate Master 2016". На панелі праворуч натисніть Edit Recipe (Змінити схему).
Сторінка зміни набору даних "Candidate Master 2016" відкриється у вигляді таблиці.
Сторінка зміни – це місце, де ви можете створити власну схему трансформації і побачити результати цього процесу на прикладі. Якщо ці результати вас влаштують, застосуйте трансформацію до свого набору даних.
- Угорі кожного стовпця вказано назву й значення, що визначають тип даних. Натисніть значок стовпця, щоб переглянути типи даних:
-
Зверніть увагу, що після натискання назви стовпця праворуч відкривається панель Details (Відомості).
-
Натисніть значок X у верхньому правому куті панелі Details (Відомості), щоб закрити її.
У наступних кроках ви дізнаєтесь, як переглядати дані у вигляді таблиці й застосовувати трансформації до своєї схеми даних.
- Стовпець "Column5" містить дані за 1990–2064 роки. Розширте його (як у випадку з електронною таблицею), щоб відокремити кожен рік. Натисніть, щоб вибрати верхній сегмент, що позначатиме 2016 рік.
У кроці, який ви створите далі, потрібно буде вибрати потрібні значення.
- Праворуч на панелі Suggestions (Пропозиції) у розділі Keep rows (Зберегти рядки) натисніть Add (Додати), щоб додати цей крок у свою схему.
Праворуч на панелі "Recipe" (Схема) з’явиться такий крок:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- У стовпці 6 "State" (Штат) наведіть курсор на невідповідний фрагмент заголовка (позначено червоним кольором), щоб вибрати невідповідні рядки.
Прокрутіть униз і знайдіть невідповідні значення (позначено червоним кольором). Зверніть увагу, що більшість із цих записів мають значення "P" у стовпці 7 і "US" у стовпці 6. Така невідповідність виникає через те, що стовпець 6 позначено як "State" (Штат) (відмічено прапорцем), однак у ньому є значення, що не позначають штат (наприклад, "US").
- Щоб виправити цю невідповідність, угорі панелі "Suggestions" (Пропозиції) натисніть значок X для скасування трансформації, а потім натисніть значок прапорця в стовпці 6 і змініть його на стовпець "String".
Невідповідності буде виправлено, і стовпець буде позначено зеленим кольором.
- Відфільтруйте лише кандидатів у президенти, тобто записи, що мають значення "P" у стовпці 7. На гістограмі стовпця 7 наведіть курсор на два сегменти, щоб побачити, який із них має значення "H", а який — "P". Натисніть сегмент зі значенням "P".
- Праворуч на панелі "Suggestions" (Пропозиції) натиснітьAdd (Додати), щоб додати крок у схему.
Завдання 6. Очистьте файл "Contributions" і об’єднайте його з файлом "Candidates"
На сторінці "Join" (Об’єднати) можна додати свій поточний набір даних до іншого набору чи схеми на основі спільної для обох наборів даних інформації.
Перед об’єднанням із файлом "Candidates" файл "Contributions" потрібно очистити.
- Угорі сторінки з таблицею натисніть FEC-2016 (засіб вибору набору даних).
-
Натисніть, щоб вибрати затінений набір даних Campaign Contributions 2016.
-
На панелі праворуч натисніть Add (Додати) > Recipe (Схема) і виберіть Edit Recipe (Змінити схему).
-
У верхньому правому куті сторінки натисніть значок Recipe (Схема) і виберіть Add New Step (Додати новий крок).
Вилучіть зайві роздільники в наборі даних.
- Вставте наведену нижче команду мовою Wrangle у поле "Search" (Пошук).
Інструмент Transformation Builder аналізує команду мовою Wrangle і заповнює поля трансформації "Find" (Знайти) і "Replace" (Замінити).
-
Натисніть Add (Додати), щоб додати трансформацію в схему.
-
Додайте до схеми ще один крок. Натисніть New Step (Новий крок) і введіть "Join" (Об’єднати) у полі пошуку.
-
Натисніть Join datasets (Об’єднати набори даних), щоб перейти на сторінку поєднань.
-
Виберіть набір даних "Candidate Master 2016", щоб об’єднати його з набором "Campaign Contributions 2016" і внизу праворуч натисніть Accept (Прийняти).
- Праворуч наведіть курсор на розділ "Об’єднати ключі" і натисніть значок олівця (позначає функцію "Змінити").
Dataprep визначає спільні ключі. Є багато спільних значень, які Dataprep пропонує як ключі об’єднання (Join Keys).
- На панелі "Add Key" (Додати ключ) розділу "Suggested join keys" (Пропоновані ключі об’єднання) натисніть column2 = column11.
- Натисніть Save and Continue (Зберегти й продовжити).
Відкриються стовпці 2 й 11 для перевірки.
- Натисніть Next (Далі) і поставте прапорець ліворуч від мітки "Column" (Стовпець), щоб додати всі стовпці з обох наборів даних в єдиний об’єднаний набір.
- Натисніть Review (Перевірити), а потім виберіть Add to Recipe (Додати в схему), щоб повернутися до таблиці.
Завдання 7. Підсумок даних
Створіть інформативний підсумок, узагальнивши, усереднивши й підрахувавши внески в стовпці 16 і згрупувавши кандидатів за ідентифікаторами, іменами й партіями в стовпцях 2, 24, 8 відповідно.
- Праворуч угорі панелі "Recipe" (Схема) натиснітьNew Step (Новий крок) і введіть наведену нижче формулу в поле пошуку Transformation (Трансформація), щоб переглянути зведені дані.
З’явиться зразок об’єднаних і зведених даних у вигляді підсумкової таблиці кандидатів у президенти США й показників внесків у їхні кампанії 2016 року.
- Натисніть Add (Додати), щоб відкрити підсумкову таблицю основних кандидатів у президенти США з показниками внесків у їхні кампанії 2016 року.
Завдання 8. Перейменуйте стовпці
Ви можете перейменовувати стовпці, щоб полегшити аналіз даних.
- Кожен етап перейменування й округлення потрібно додавати у схему окремо. Для цього натисніть New Step (Новий крок) і введіть:
-
Натисніть Add (Додати).
-
Додайте наведений нижче крок New Step (Новий крок) востаннє, щоб округлити середню суму внеску.
- Натисніть Add (Додати).
Результати виглядатимуть приблизно так:
Вітаємо!
Ви навчилися додавати набір даних і створювати схеми для об’єднання даних у значущі результати за допомогою Dataprep.
Наступні кроки/Докладніше
Ця робота входить до низки практичних робіт під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Такі практичні роботи можна знайти в каталозі за запитом "Qwik Starts".
Навчання й сертифікація Google Cloud
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 6 червня 2024 року
Практичну роботу востаннє протестовано 6 червня 2024 року
© Google LLC 2024. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.