arrow_back

Dataflow Qwik Start – Python

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataflow Qwik Start – Python

Lab 30 годин universal_currency_alt 1 кредит show_chart Початковий
info This lab may incorporate AI tools to support your learning.
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP207

Логотип Google Cloud Self-Paced Labs

Огляд

Apache Beam SDK – це модель програмування з відкритим кодом для конвеєрів обробки даних. У Google Cloud можна визначати конвеєри за допомогою програми Apache Beam, а потім запускати їх у Dataflow.

Під час цієї практичної роботи ви налаштуєте середовище для розробки на Python для Dataflow за допомогою Apache Beam SDK для Python і запустите тестовий конвеєр Dataflow.

Завдання

У цій практичній роботі ви навчитеся виконувати наведені нижче дії.

  • Створювати сегмент Cloud Storage для зберігання результатів обробки конвеєра Dataflow
  • Установлювати Apache Beam SDK для Python
  • Віддалено запускати конвеєр Dataflow

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичної роботи відводиться обмежений час, і її не можна призупинити. Щойно ви натиснете Start Lab (Почати практичну роботу), з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичну роботу в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час виконання практичної роботи вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Щоб виконати цю практичну роботу, потрібно мати:

  • стандартний веб-переглядач, наприклад Chrome (рекомендовано)
Примітка. Виконуйте практичну роботу в режимі анонімного перегляду. Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його конфліктів з обліковим записом для навчання.
  • достатню кількість часу, оскільки почавши практичну роботу, ви не зможете призупинити її
Примітка. Якщо ви маєте особистий обліковий запис або проект Google Cloud, не використовуйте їх для доступу до цієї практичної роботи. Так ви уникнете додаткових стягнень з вашого облікового запису.

Як почати виконувати практичну роботу й увійти в Google Cloud Console

  1. Натисніть кнопку Start Lab (Почати практичну роботу). Якщо за практичну роботу необхідно заплатити, відкриється спливаюче вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель Lab Details (Відомості про практичну роботу) з такими даними:

    • кнопка Open Google Cloud console (Відкрити Google Cloud Console);
    • час до закінчення;
    • тимчасові облікові дані, які потрібно використовувати для доступу до цієї практичної роботи;
    • інша інформація, необхідна для виконання цієї практичної роботи.
  2. Натисніть Open Google Cloud console (Відкрити Google Cloud Console) або натисніть правою кнопкою миші й виберіть Open Link in Incognito Window (Відкрити посилання в анонімному вікні), якщо ви використовуєте вебпереглядач Chrome.

    Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою Sign in (Вхід).

    Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.

    Примітка. Якщо з’явиться вікно Choose an account (Виберіть обліковий запис), натисніть Use Another Account (Увійти в інший обліковий запис).
  3. За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Sign in (Вхід).

    {{{user_0.username | "Username"}}}

    Поле Username (Ім’я користувача) також можна знайти на панелі Lab Details (Відомості про практичну роботу).

  4. Натисніть Next (Далі).

  5. Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).

    {{{user_0.password | "Password"}}}

    Поле Password (Пароль) також можна знайти на панелі Lab Details (Відомості про практичну роботу).

  6. Натисніть Next (Далі).

    Важливо. Обов’язково використовуйте облікові дані, призначені для відповідної практичної роботи. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата.
  7. Виконайте наведені нижче дії.

    • Прийміть Умови використання.
    • Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
    • Не реєструйте безкоштовні пробні версії.

Через кілька секунд Google Cloud Console відкриється в новій вкладці.

Примітка. Щоб переглянути меню зі списком продуктів і сервісів Google Cloud, натисніть меню навігації вгорі ліворуч. Значок меню навігації

Як активувати Cloud Shell

Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.

  1. Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) Значок активації Cloud Shell.

Щойно ви підключитеся, вас буде автентифіковано, а проект отримає ваш PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ). Вивід міститиме рядок зі значенням PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ) для цього сеансу:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud – це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.

  1. (Необов’язково) Щоб вивести поточне ім’я облікового запису, введіть таку команду:
gcloud auth list
  1. Натисніть Authorize (Авторизувати).

  2. Вихідні дані матимуть такий вигляд:

Вивід:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Необов’язково) Щоб вивести ідентифікатор проекту, введіть таку команду:
gcloud config list project

Вивід:

[core] project = <project_ID>

Приклад виводу:

[core] project = qwiklabs-gcp-44776a13dea667a6 Примітка. Щоб знайти повну документацію щодо gcloud, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.

Укажіть регіон

  • Щоб указати регіон проекту для цієї практичної роботи, виконайте наведену нижче команду в Cloud Shell:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}

Увімкніть Dataflow API

Щоб переконатися, що потрібний API підключений, перезапустіть підключення до Dataflow API.

  1. У рядку пошуку вгорі Cloud Console введіть "Dataflow API". Виберіть серед результатів Dataflow API.

  2. Натисніть Manage (Керувати).

  3. Виберіть Disable API (Вимкнути API).

Якщо з’явиться запит із пропозицією підтвердити дію, натисніть Disable (Вимкнути).

  1. Натисніть Enable (Увімкнути).

Коли API ввімкнеться, на сторінці з’явиться опція вимкнути його.

Завдання 1. Створіть сегмент Cloud Storage

Під час запуску конвеєра за допомогою Dataflow результати зберігатимуться в сегменті Cloud Storage. У цьому завданні ви створюєте сегмент Cloud Storage для результатів обробки конвеєра, який ви запустите під час виконання наступного завдання.

  1. У меню навігації (Значок меню навігації) натисніть Cloud Storage > Buckets (Сегменти).
  2. Натисніть Create bucket (Створити сегмент).
  3. У вікні Create bucket (Створити сегмент) укажіть наведені нижче атрибути.
  • Name (Назва): щоб забезпечити унікальну назву сегмента, використовуйте назву -bucket. Не використовуйте в назві сегмента конфіденційну інформацію, оскільки простір імен сегментів є глобальним і загальнодоступним.
  • Location type (Тип місцезнаходження): Multi-region (Мультирегіон)
  • Location (Місцезнаходження): us
  • Місце зберігання даних сегмента.
  1. Натисніть Create (Створити).

  2. Якщо з’явиться вікно Public access will be prevented (Загальний доступ буде заборонено), натисніть Confirm (Підтвердити).

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Check my progress (Підтвердити виконання). Якщо завдання виконано правильно, з’явиться оцінка.

Створіть сегмент Cloud Storage.

Завдання 2. Установіть Apache Beam SDK для Python

  1. Щоб перевірити, чи використовуєте ви підтримувану версію Python, спочатку запустіть образ Docker для Python3.9:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

Ця команда дає змогу отримати контейнер Docker з останньою стабільною версією Python 3.9 і відкриває командну оболонку, за допомогою якої всередині контейнера можна виконати наведені нижче команди.

  1. Коли контейнер буде запущено, установіть останню версію Apache Beam SDK для Python, виконавши таку команду у віртуальному середовищі:
pip install 'apache-beam[gcp]'==2.42.0

Можуть з’явитися попередження щодо залежностей. Під час виконання цієї практичної роботи на них можна не зважати.

  1. Запустіть тестовий файл wordcount.py локально, виконавши таку команду:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

Також може з’явитися схоже повідомлення:

INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner. INFO:oauth2client.client:Attempting refresh to obtain initial access_token

Це повідомлення можна ігнорувати.

  1. Тепер відобразіть список файлів, розташованих у вашому локальному хмарному середовищі, щоб отримати назву файлу OUTPUT_FILE:
ls
  1. Скопіюйте назву файлу OUTPUT_FILE і вставте її в команду cat:
cat <назва файлу>

У результаті буде виведено всі слова у файлі й кількість повторень для кожного слова.

Завдання 3. Віддалено запустіть тестовий конвеєр Dataflow

  1. Установіть змінну середовища "BUCKET" для раніше створеного сегмента:
BUCKET=gs://<назва сегмента, указана вище>
  1. Запустіть тестовий файл wordcount.py віддалено:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region {{{project_0.default_region | "значення, введене на початку практичної роботи"}}}

Зачекайте, доки у виводі з’явиться таке повідомлення:

JOB_MESSAGE_DETAILED: Workers have started successfully.

Продовжте виконання практичної роботи.

Завдання 4. Перевірте правильність виконання завдання Dataflow

  1. Відкрийте меню навігації і виберіть Dataflow зі списку сервісів.

Спочатку для завдання wordcount в полі status (статус) відображатиметься значення Running (Активне).

  1. Натисніть його назву, щоб переглянути процес виконання. Коли біля всіх пунктів з’являться прапорці, ви можете продовжити переглядати журнали в Cloud Shell.

Після завершення процесу статус зміниться на Succeeded (Виконано).

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо завдання виконано правильно, з’явиться оцінка.

Віддалено запустіть тестовий конвеєр.
  1. У Cloud Console натисніть меню навігації > Cloud Storage.

  2. Натисніть назву сегмента. Ви маєте побачити каталоги results (результати) і staging (підоготовчий).

  3. Відкрийте папку під назвою results (результати). У ній мають міститися файли виводу, створені під час виконання вашого завдання.

  4. Натисніть файл, щоб переглянути дані про кількість слів у ньому.

Завдання 5. Перевірте свої знання

Дайте відповідь на запитання з кількома варіантами відповіді нижче, щоб закріпити розуміння понять, які зустрічаються в практичній роботі.

Вітаємо!

Ви навчилися налаштовувати середовище для розробки на Python для Dataflow за допомогою Apache Beam SDK для Python і запустили тестовий конвеєр Dataflow.

Наступні кроки/Докладніше

Ця робота також входить до низки практичних робіт під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Перелік практичних робіт Qwik Starts наведено в каталозі Google Cloud Skills Boost.

Якщо вас зацікавила книга, на основі якої створено цю практичну роботу, це Data Science on the Google Cloud Platform (Наука про дані з Google Cloud Platform, видавництво O’Reilly Media, Inc).

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 4 лютого 2024 року

Практичну роботу востаннє протестовано 4 травня 2023 року

© Google LLC 2024. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.

This content is not currently available

We will notify you via email when it becomes available

Great!

We will contact you via email if it becomes available