arrow_back

Dataflow: Qwik Start - Python

Login Gabung
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

Dataflow: Qwik Start - Python

Lab 30 menit universal_currency_alt 1 Kredit show_chart Pengantar
info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

GSP207

Lab Mandiri Google Cloud

Ringkasan

Apache Beam SDK adalah model pemrograman open source untuk pipeline data. Di Google Cloud, Anda dapat menentukan pipeline dengan program Apache Beam, lalu menggunakan Dataflow untuk menjalankan pipeline Anda.

Di lab ini, Anda akan menyiapkan lingkungan pengembangan Python untuk Dataflow (menggunakan Apache Beam SDK untuk Python) dan menjalankan pipeline Dataflow.

Yang akan Anda lakukan

Di lab ini, Anda akan mempelajari cara:

  • Membuat bucket Cloud Storage untuk menyimpan hasil pipeline Dataflow
  • Menginstal Apache Beam SDK untuk Python
  • Menjalankan pipeline Dataflow dari jarak jauh

Penyiapan dan persyaratan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:

    • Tombol Open Google Cloud console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

    Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.

    {{{user_0.username | "Username"}}}

    Anda juga dapat menemukan Username di panel Lab Details.

  4. Klik Next.

  5. Salin Password di bawah dan tempel ke dialog Welcome.

    {{{user_0.password | "Password"}}}

    Anda juga dapat menemukan Password di panel Lab Details.

  6. Klik Next.

    Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  7. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk melihat menu dengan daftar produk dan layanan Google Cloud, klik Navigation menu di kiri atas. Ikon Navigation menu

Mengaktifkan Cloud Shell

Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.

  1. Klik Activate Cloud Shell Ikon Activate Cloud Shell di bagian atas konsol Google Cloud.

Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke PROJECT_ID Anda. Output berisi baris yang mendeklarasikan PROJECT_ID untuk sesi ini:

Project Cloud Platform Anda dalam sesi ini disetel ke YOUR_PROJECT_ID

gcloud adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.

  1. (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
gcloud auth list
  1. Klik Authorize.

  2. Output Anda sekarang akan terlihat seperti ini:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net Untuk menyetel akun aktif, jalankan: $ gcloud config set account `ACCOUNT`
  1. (Opsional) Anda dapat menampilkan daftar project ID dengan perintah ini:
gcloud config list project

Output:

[core] project = <project_ID>

Contoh output:

[core] project = qwiklabs-gcp-44776a13dea667a6 Catatan: Untuk mendapatkan dokumentasi gcloud yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.

Menetapkan region

  • Di Cloud Shell, jalankan perintah berikut untuk menetapkan region project untuk lab ini:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}

Memastikan Dataflow API berhasil diaktifkan

Untuk memastikan akses ke API yang diperlukan, mulai ulang koneksi ke Dataflow API.

  1. Di Konsol Cloud, masukkan "Dataflow API" di kotak penelusuran teratas. Klik hasil untuk Dataflow API.

  2. Klik Manage.

  3. Klik Disable API.

Jika diminta untuk mengonfirmasi, klik Disable.

  1. Klik Enable.

Jika API sudah diaktifkan kembali, halaman akan menampilkan opsi untuk menonaktifkannya.

Tugas 1. Membuat bucket Cloud Storage

Saat Anda menjalankan pipeline menggunakan Dataflow, hasilnya akan disimpan di bucket Cloud Storage. Dalam tugas ini, Anda akan membuat bucket Cloud Storage untuk hasil pipeline yang Anda jalankan di tugas berikutnya.

  1. Pada Navigation menu (Ikon Navigation menu), klik Cloud Storage > Buckets.
  2. Klik Create bucket.
  3. Pada dialog Create bucket, tentukan atribut berikut:
  • Name: Untuk memastikan nama unik bucket, gunakan nama berikut ini: -bucket. Perlu diperhatikan bahwa nama ini tidak boleh berisi informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat oleh publik.
  • Location type: Multi-region
  • Location: us
  • Lokasi tempat data bucket akan disimpan.
  1. Klik Create.

  2. Jika melihat pesan Public access will be prevented, klik Confirm.

Menguji tugas yang sudah selesai

Klik Check my progress untuk memverifikasi tugas yang telah diselesaikan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.

Membuat bucket Cloud Storage.

Tugas 2. Menginstal Apache Beam SDK untuk Python

  1. Untuk memastikan Anda menggunakan versi Python yang didukung, mulai dengan menjalankan Image Docker Python3.9:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

Perintah ini menarik container Docker dengan versi stabil terbaru Python 3.9, lalu membuka shell perintah untuk menjalankan perintah berikut di dalam container.

  1. Setelah container berjalan, instal versi terbaru Apache Beam SDK untuk Python dengan menjalankan perintah berikut dari lingkungan virtual:
pip install 'apache-beam[gcp]'==2.42.0

Anda akan melihat beberapa peringatan yang ditampilkan berkaitan dengan dependensi. Peringatan tersebut aman untuk diabaikan di lab ini.

  1. Jalankan contoh wordcount.py secara lokal dengan menjalankan perintah berikut:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

Anda akan melihat pesan yang mirip dengan yang berikut ini:

INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner. INFO:oauth2client.client:Attempting refresh to obtain initial access_token

Anda dapat mengabaikan pesan ini.

  1. Kini Anda dapat menampilkan daftar file yang ada di lingkungan cloud lokal untuk mendapatkan nama OUTPUT_FILE:
ls
  1. Salin nama OUTPUT_FILE dan cat ke dalamnya:
cat <file name>

Hasil Anda menampilkan setiap kata dalam file dan frekuensi munculnya kata tersebut.

Tugas 3. Menjalankan contoh pipeline Dataflow dari jarak jauh

  1. Tetapkan variabel lingkungan BUCKET ke bucket yang Anda buat sebelumnya:
BUCKET=gs://<bucket name provided earlier>
  1. Sekarang Anda akan menjalankan contoh wordcount.py dari jarak jauh:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region {{{project_0.default_region | "filled in at lab start"}}}

Tunggu sampai Anda melihat pesan di output:

JOB_MESSAGE_DETAILED: Workers have started successfully.

Lalu lanjutkan lab.

Tugas 4. Memeriksa apakah tugas Dataflow Anda berhasil

  1. Buka Navigation menu, lalu klik Dataflow dari daftar layanan.

Di awal, Anda akan melihat tugas wordcount Anda dengan status Running.

  1. Klik nama untuk melihat prosesnya. Jika semua kotak telah dicentang, Anda dapat melanjutkan melihat log di Cloud Shell.

Prosesnya selesai saat statusnya Succeeded.

Menguji tugas yang sudah selesai

Klik Check my progress untuk memverifikasi tugas yang telah diselesaikan. Jika berhasil menyelesaikan tugas, Anda akan diberi skor penilaian.

Menjalankan Contoh Pipeline dari Jarak Jauh.
  1. Klik Navigation menu > Cloud Storage di Konsol Cloud.

  2. Klik nama bucket Anda. Di bucket, Anda akan melihat direktori results dan staging.

  3. Klik folder results dan Anda akan melihat file output yang dibuat oleh tugas Anda:

  4. Klik file untuk melihat jumlah katanya:

Tugas 5. Menguji pemahaman Anda

Berikut ini beberapa pertanyaan pilihan ganda untuk memperkuat pemahaman Anda terhadap konsep lab ini. Jawab pertanyaan tersebut sebaik mungkin.

Selamat!

Anda telah mempelajari cara menyiapkan lingkungan pengembangan Python untuk Dataflow (menggunakan Apache Beam SDK untuk Python) dan menjalankan contoh pipeline Dataflow.

Langkah berikutnya/Pelajari lebih lanjut

Lab ini merupakan bagian dari rangkaian lab yang disebut Qwik Start. Lab ini dirancang agar Anda dapat mencoba berbagai fitur yang tersedia dengan Google Cloud. Telusuri "Qwik Starts" di katalog Google Cloud Skills Boost untuk menemukan lab berikutnya yang ingin Anda ikuti.

Jika ingin mendapatkan salinan buku Anda sendiri, lab ini didasarkan pada: Data Science on the Google Cloud Platform: O'Reilly Media, Inc.

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui: 4 Februari 2024

Lab Terakhir Diuji: 4 Mei 2023

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Konten ini tidak tersedia untuk saat ini

Kami akan memberi tahu Anda melalui email saat konten tersedia

Bagus!

Kami akan menghubungi Anda melalui email saat konten tersedia