
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Цю практичну роботу було розроблено спільно з нашими партнерами з компанії Trifacta. Оскільки компанія Trifacta є спонсором цієї практичної роботи, ми можемо надавати їй доступ до вашої особистої інформації за умови, що ви погодилися отримувати новини про продукти, оголошення й пропозиції в профілі вашого облікового запису.
Cloud Dataprep by Trifacta – це інтелектуальний сервіс даних для візуального вивчення, очищення й підготовки даних для аналізу. Сервіс Cloud Dataprep безсерверний і працює з будь-якими обсягами даних. Для його використання не потрібно розгортати інфраструктуру чи керувати нею. Легко працюйте з даними лише за допомогою миші. Писати код не потрібно.
Під час цієї практичної роботи ви навчитеся керувати набором даних за допомогою Dataprep. Ви імпортуватимете набори даних і виправлятимете невідповідності, а також перетворюватимете дані й об’єднуватимете їх. Навіть якщо зараз ці процеси для вас нові, уже наприкінці цієї практичної роботи ви матимете про них уявлення.
У цій практичній роботі ви дізнаєтесь, як за допомогою Dataprep виконувати наведені нижче завдання.
Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Для цього практичного заняття потрібно мати:
Натисніть кнопку Start Lab (Почати практичне заняття). Якщо за практичне заняття необхідно заплатити, відкриється вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель "Відомості про практичне заняття" з такими компонентами:
Натисніть Відкрити консоль Google або натисніть правою кнопкою миші й виберіть Відкрити анонімне вікно, якщо ви використовуєте вебпереглядач Chrome.
Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою "Увійти".
Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.
За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Вхід.
Поле "Ім’я користувача" також можна знайти на панелі "Відомості про практичне заняття".
Натисніть Далі.
Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).
Поле "Пароль" також можна знайти на панелі "Відомості про практичне заняття".
Натисніть Далі.
Що від вас очікується
Через кілька секунд консоль Google Cloud відкриється в новій вкладці.
Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.
Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) .
У вікнах, що відкриються, виконайте наведені нижче дії.
Щойно ви підключитеся, вас буде автентифіковано, а проєкт отримає ваш Project_ID (Ідентифікатор проєкту) –
gcloud
– це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.
Вивід:
Вивід:
gcloud
, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.
У Cloud Console виберіть меню навігації() > Cloud Storage > Buckets (Сегменти).
Натисніть Create bucket (Створити сегмент).
У діалоговому вікні Create a bucket (Створити сегмент) заповніть поле Name (Назва), указавши унікальну назву сегмента. Інші налаштування залиште без змін.
Зніміть прапорець біля опції Enforce public access prevention on this bucket (Заборонити загальний доступ до цього сегмента) у розділі Choose how to control access to objects (Налаштуйте контроль доступу до об’єктів)
.
Натисніть Create (Створити).
Ви створили сегмент. Запам’ятайте назву семента, адже вона знадобиться вам у наступних кроках.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо сегмент Cloud Storage створено правильно, ви побачите оцінку.
Має з’явитися повідомлення про ідентифікацію сервісу.
Виберіть меню навігації > Dataprep.
Поставте прапорець, щоб прийняти Умови використання Google Dataprep, і натисніть Accept (Прийняти).
Поставте прапорець, щоб надати компанії Trifacta доступ до даних вашого облікового запису, і натиснітьAgree and Continue (Прийняти й продовжити).
Натисніть Allow (Дозволити), щоб надати компанії Trifacta доступ до даних вашого проекту.
Натисніть ім’я користувача для навчання, щоб увійти в сервіс Cloud Dataprep by Trifacta. Ваше ім’я користувача Username (Ім’я користувача) буде наведено на панелі ліворуч у вікні практичної роботи.
Натисніть Allow (Дозволити), щоб надати сервісу Cloud Dataprep доступ до вашого облікового запису для практичних робіт у Google Cloud.
Поставте прапорець, щоб погодитися з Умовами використання Trifacta, і натисніть Accept (Прийняти).
На екрані First time setup (Початкові налаштування) натисніть Continue (Продовжити), щоб створити сховище за умовчанням.
Відкриється сторінка Dataprep.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо Cloud Dataprep правильно ініційовано зі сховищем за умовчанням, ви побачите оцінку.
Cloud Dataprep використовує робочу область flow
для доступу до наборів даних і керування ними.
Відкриється сторінка потоку FEC-2016.
У цьому розділі ви навчитесь імпортувати й додавати дані в потік FEC-2016.
Натисніть Add Datasets (Додати набори даних) і перейдіть за посиланням Import Datasets (Імпортувати набори даних).
На панелі меню ліворуч виберіть Cloud Storage для імпорту даних із Cloud Storage, а потім натисніть значок олівця, щоб змінити шлях до файлу.
gs://spls/gsp105
і натисніть Go (Вибрати).Можливо, знадобиться розширити екран, щоб побачити кнопки Go (Вибрати) й Cancel (Скасувати).
Натисніть us-fec/.
Натисніть значок + поруч із файлом cn-2016.txt
, щоб створити набір даних і додати його на панель праворуч. Натисніть назву набору даних на панелі праворуч і змініть її на "Candidate Master 2016".
У той самий спосіб додайте набір даних itcont-2016-orig.txt
і перейменуйте його на "Campaign Contributions 2016".
Обидва набори даних відображатимуться на панелі праворуч. Натисніть Import & Add to Flow (Імпортувати й додати до потоку).
Обидва набори даних відображатимуться як потік.
Сторінка зміни набору даних "Candidate Master 2016" відкриється у вигляді таблиці.
Сторінка зміни – це місце, де ви можете створити власну схему трансформації і побачити результати цього процесу на прикладі. Якщо ці результати вас влаштують, застосуйте трансформацію до свого набору даних.
Зверніть увагу, що після натискання назви стовпця праворуч відкривається панель Details (Відомості).
Натисніть значок X у верхньому правому куті панелі Details (Відомості), щоб закрити її.
У наступних кроках ви дізнаєтесь, як переглядати дані у вигляді таблиці й застосовувати трансформації до своєї схеми даних.
У кроці, який ви створите далі, потрібно буде вибрати потрібні значення.
Праворуч на панелі "Recipe" (Схема) з’явиться такий крок:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
Прокрутіть униз і знайдіть невідповідні значення (позначено червоним кольором). Зверніть увагу, що більшість із цих записів мають значення "P" у стовпці 7 і "US" у стовпці 6. Така невідповідність виникає через те, що стовпець 6 позначено як "State" (Штат) (відмічено прапорцем), однак у ньому є значення, що не позначають штат (наприклад, "US").
Невідповідності буде виправлено, і стовпець буде позначено зеленим кольором.
На сторінці "Join" (Об’єднати) можна додати свій поточний набір даних до іншого набору чи схеми на основі спільної для обох наборів даних інформації.
Перед об’єднанням із файлом "Candidates" файл "Contributions" потрібно очистити.
Натисніть, щоб вибрати затінений набір даних Campaign Contributions 2016.
На панелі праворуч натисніть Add (Додати) > Recipe (Схема) і виберіть Edit Recipe (Змінити схему).
У верхньому правому куті сторінки натисніть значок Recipe (Схема) і виберіть Add New Step (Додати новий крок).
Вилучіть зайві роздільники в наборі даних.
Інструмент Transformation Builder аналізує команду мовою Wrangle і заповнює поля трансформації "Find" (Знайти) і "Replace" (Замінити).
Натисніть Add (Додати), щоб додати трансформацію в схему.
Додайте до схеми ще один крок. Натисніть New Step (Новий крок) і введіть "Join" (Об’єднати) у полі пошуку.
Натисніть Join datasets (Об’єднати набори даних), щоб перейти на сторінку поєднань.
Виберіть набір даних "Candidate Master 2016", щоб об’єднати його з набором "Campaign Contributions 2016" і внизу праворуч натисніть Accept (Прийняти).
Dataprep визначає спільні ключі. Є багато спільних значень, які Dataprep пропонує як ключі об’єднання (Join Keys).
Відкриються стовпці 2 й 11 для перевірки.
Створіть інформативний підсумок, узагальнивши, усереднивши й підрахувавши внески в стовпці 16 і згрупувавши кандидатів за ідентифікаторами, іменами й партіями в стовпцях 2, 24, 8 відповідно.
З’явиться зразок об’єднаних і зведених даних у вигляді підсумкової таблиці кандидатів у президенти США й показників внесків у їхні кампанії 2016 року.
Ви можете перейменовувати стовпці, щоб полегшити аналіз даних.
Натисніть Add (Додати).
Додайте наведений нижче крок New Step (Новий крок) востаннє, щоб округлити середню суму внеску.
Результати виглядатимуть приблизно так:
Ви навчилися додавати набір даних і створювати схеми для об’єднання даних у значущі результати за допомогою Dataprep.
Ця робота входить до низки практичних робіт під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Такі практичні роботи можна знайти в каталозі за запитом "Qwik Starts".
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 6 червня 2024 року
Практичну роботу востаннє протестовано 6 червня 2024 року
© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one