arrow_back

Dataflow: Qwik Start - Python

Sign in Join
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataflow: Qwik Start - Python

Lab 30 minutes universal_currency_alt 1 Credit show_chart Introductory
info This lab may incorporate AI tools to support your learning.
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP207

Google Cloud Rehbersiz Laboratuvarları

Genel bakış

Apache Beam SDK, veri ardışık düzenleri için bir açık kaynak programlama modelidir. Google Cloud'da, Apache Beam programıyla bir ardışık düzen tanımlayabilir ve ardından ardışık düzeninizi çalıştırmak için Dataflow'u kullanabilirsiniz.

Bu laboratuvarda, Python geliştirme ortamınızı Dataflow için ayarlayacak (Python için Apache Beam SDK'yı kullanarak) ve örnek bir Dataflow ardışık düzeni çalıştıracaksınız.

Neler yapacaksınız?

Bu laboratuvarda şunları öğreneceksiniz:

  • Dataflow ardışık düzeninin sonuçlarını depolamak üzere bir Cloud Storage paketi oluşturma
  • Python için Apache Beam SDK'yı yükleme
  • Uzaktan Dataflow ardışık düzeni çalıştırma

Kurulum ve şartlar

Laboratuvarı Başlat düğmesini tıklamadan önce

Buradaki talimatları okuyun. Laboratuvarlar süreli olduğundan duraklatılamaz. Laboratuvarı Başlat'ı tıkladığınızda başlayan zamanlayıcı, Google Cloud kaynaklarının ne süreyle kullanımınıza açık durumda kalacağını gösterir.

Bu uygulamalı laboratuvarı kullanarak, laboratuvar etkinliklerini gerçek bir bulut ortamında (Simülasyon veya demo ortamında değil.) gerçekleştirebilirsiniz. Bu olanağın sunulabilmesi için size yeni, geçici kimlik bilgileri verilir. Bu kimlik bilgilerini laboratuvar süresince Google Cloud'da oturum açmak ve Google Cloud'a erişmek için kullanırsınız.

Bu laboratuvarı tamamlamak için şunlar gerekir:

  • Standart bir internet tarayıcısına erişim (Chrome Tarayıcı önerilir).
Not: Bu laboratuvarı çalıştırmak için tarayıcıyı gizli pencerede açın. Aksi takdirde, kişisel hesabınızla öğrenci hesabınız arasında oluşabilecek çakışmalar nedeniyle kişisel hesabınızdan ek ücret alınabilir.
  • Laboratuvarı tamamlamak için yeterli süre. (Laboratuvarlar, başlatıldıktan sonra duraklatılamaz)
Not: Kişisel bir Google Cloud hesabınız veya projeniz varsa bu laboratuvarda kullanmayın. Aksi takdirde hesabınızdan ek ücret alınabilir.

Laboratuvarınızı başlatma ve Google Cloud Console'da oturum açma

  1. Laboratuvarı Başlat düğmesini tıklayın. Laboratuvar için ödeme yapmanız gerekiyorsa ödeme yöntemini seçebileceğiniz bir pop-up açılır. Soldaki Laboratuvar Ayrıntıları panelinde şunlar yer alır:

    • Google Cloud Console'u aç düğmesi
    • Kalan süre
    • Bu laboratuvarda kullanmanız gereken geçici kimlik bilgileri
    • Bu laboratuvarda ilerlemek için gerekebilecek diğer bilgiler
  2. Google Cloud Console'u aç'ı tıklayın (veya Chrome Tarayıcı'yı kullanıyorsanız sağ tıklayıp Bağlantıyı gizli pencerede aç'ı seçin).

    Laboratuvar, kaynakları çalıştırır ve sonra Oturum açın sayfasını gösteren başka bir sekme açar.

    İpucu: Sekmeleri ayrı pencerelerde, yan yana açın.

    Not: Hesap seçin iletişim kutusunu görürseniz Başka bir hesap kullan'ı tıklayın.
  3. Gerekirse aşağıdaki kullanıcı adını kopyalayıp Oturum açın iletişim kutusuna yapıştırın.

    {{{user_0.username | "Username"}}}

    Kullanıcı adını Laboratuvar ayrıntıları panelinde de bulabilirsiniz.

  4. İleri'yi tıklayın.

  5. Aşağıdaki şifreyi kopyalayıp Hoş geldiniz iletişim kutusuna yapıştırın.

    {{{user_0.password | "Password"}}}

    Şifreyi Laboratuvar ayrıntıları panelinde de bulabilirsiniz.

  6. İleri'yi tıklayın.

    Önemli: Laboratuvarın sizinle paylaştığı giriş bilgilerini kullanmanız gerekir. Google Cloud hesabınızın kimlik bilgilerini kullanmayın. Not: Bu laboratuvarda kendi Google Cloud hesabınızı kullanabilmek için ek ücret ödemeniz gerekebilir.
  7. Sonraki sayfalarda ilgili düğmeleri tıklayarak ilerleyin:

    • Şartları ve koşulları kabul edin.
    • Geçici bir hesap kullandığınızdan kurtarma seçenekleri veya iki faktörlü kimlik doğrulama eklemeyin.
    • Ücretsiz denemelere kaydolmayın.

Birkaç saniye sonra Google Cloud Console bu sekmede açılır.

Not: Google Cloud ürün ve hizmetlerinin listelendiği menüyü görmek için sol üstteki Gezinme menüsü'nü tıklayın. Gezinme menüsü simgesi

Cloud Shell'i etkinleştirme

Cloud Shell, çok sayıda geliştirme aracı içeren bir sanal makinedir. 5 GB boyutunda kalıcı bir ana dizin sunar ve Google Cloud üzerinde çalışır. Cloud Shell, Google Cloud kaynaklarınıza komut satırı erişimi sağlar.

  1. Google Cloud Console'un üst kısmından Cloud Shell'i etkinleştir Cloud Shell'i etkinleştir simgesi simgesini tıklayın.

Bağlandığınızda, kimliğiniz doğrulanmış olur. Proje ise PROJECT_ID'nize göre ayarlanmıştır. Çıkış, bu oturum için PROJECT_ID'yi tanımlayan bir satır içerir:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud, Google Cloud'un komut satırı aracıdır. Cloud Shell'e önceden yüklenmiştir ve sekmeyle tamamlamayı destekler.

  1. (İsteğe bağlı) Etkin hesap adını şu komutla listeleyebilirsiniz:
gcloud auth list
  1. Yetkilendir'i tıklayın.

  2. Çıkışınız aşağıdaki gibi görünecektir:

Çıkış:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (İsteğe bağlı) Proje kimliğini şu komutla listeleyebilirsiniz:
gcloud config list project

Çıkış:

[core] project = <project_ID>

Örnek çıkış:

[core] project = qwiklabs-gcp-44776a13dea667a6 Not: gcloud ile ilgili tüm belgeleri, Google Cloud'daki gcloud CLI'ya genel bakış rehberinde bulabilirsiniz.

Bölgeyi belirleme

  • Cloud Shell'de şu komutu çalıştırarak bu laboratuvar için proje bölgesini ayarlayın:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}

Dataflow API'nin etkinleştirildiğini doğrulama

Gerekli API'ye erişilebilmesi için Dataflow API bağlantısını yeniden başlatın.

  1. Cloud Console'un üst kısmındaki arama çubuğuna "Dataflow API" yazın. Listelenen sonuçlarda Dataflow API'yi tıklayın.

  2. Yönet'i tıklayın.

  3. API'yi devre dışı bırak'ı tıklayın.

Onaylamanız istenirse Devre dışı bırak'ı tıklayın.

  1. Etkinleştir'i tıklayın.

API tekrar etkinleştirildiğinde, sayfada devre dışı bırakma seçeneği gösterilir.

1. görev: Cloud Storage paketi oluşturma

Dataflow'u kullanarak bir ardışık düzen çalıştırdığınızda, sonuçlarınız bir Cloud Storage paketinde saklanır. Bu görevde, sonraki bir görevde çalıştıracağınız ardışık düzenin sonuçlarını saklamak için bir Cloud Storage paketi oluşturacaksınız.

  1. Gezinme menüsünde (Gezinme menüsü simgesi), Cloud Storage > Paketler'i tıklayın.
  2. Paket oluştur'u tıklayın.
  3. Paket oluştur iletişim kutusunda, aşağıdaki özellikleri belirtin:
  • Ad: Paket adının benzersiz olması için şu adı kullanın: -bucket. Paket adı alanı global ve herkese görünür olduğundan paket adında hassas bilgiler olmadığını unutmayın.
  • Konum türü: Çoklu bölge
  • Konum: us
  • Paket verilerinin depolanacağı konum.
  1. Oluştur'u tıklayın.

  2. Herkese açık erişimin engelleneceğini belirten bir uyarı alırsanız Onayla'yı tıklayın.

Tamamlanan görevi test etme

Tamamladığınız görevi doğrulamak için İlerleme durumumu kontrol et'i tıklayın. Görevi başarıyla tamamladıysanız size bir değerlendirme puanı verilir.

Cloud Storage paketi oluşturun.

2. görev: Python için Apache Beam SDK'yı yükleme

  1. Python'un desteklenen bir sürümünü kullandığınızdan emin olmak için öncelikle Python3.9 Docker görüntüsünü çalıştırın:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

Bu komut, Python 3.9'un en kararlı sürümünün bulunduğu bir Docker container'ını çeker, ardından container'ınızda aşağıdaki komutları çalıştırmanız için bir komut kabuğu açar.

  1. Container çalışmaya başladıktan sonra bir sanal ortamdan aşağıdaki komutu çalıştırarak Python için Apache Beam SDK'nın en son sürümünü yükleyin:
pip install 'apache-beam[gcp]'==2.42.0

Bağımlılıklarla ilgili olarak döndürülen bazı uyarılar göreceksiniz. Söz konusu uyarıları bu laboratuvarda güvenle yoksayabilirsiniz.

  1. Şu komutu çalıştırarak wordcount.py örneğini yerel olarak çalıştırın:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

Bu durumda, şuna benzer bir mesaj görebilirsiniz:

INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner. INFO:oauth2client.client:Attempting refresh to obtain initial access_token

Bu mesajı yoksayabilirsiniz.

  1. Şimdi yerel bulut ortamınızda bulunan dosyaları listeleyerek OUTPUT_FILE'ın adını öğrenebilirsiniz:
ls
  1. OUTPUT_FILE'ın adını kopyalayın ve cat komutuna dahil edin:
cat <dosya adı>

Sonuçlarınızda, dosyadaki her bir kelime ve bu kelimenin kaç kez geçtiği gösterilir.

3. görev: Uzaktan örnek Dataflow ardışık düzeni çalıştırma

  1. BUCKET ortam değişkenini daha önce oluşturduğunuz paket olarak ayarlayın:
BUCKET=gs://<daha önce belirttiğiniz paket adı>
  1. Şimdi wordcount.py örneğini uzaktan çalıştıracaksınız:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region {{{project_0.default_region | "filled in at lab start"}}}

Çıkışta şu mesajı görene kadar bekleyin:

JOB_MESSAGE_DETAILED: Workers have started successfully.

Ardından laboratuvara devam edin.

4. görev: Dataflow işinizin başarılı olup olmadığını kontrol etme

  1. Gezinme menüsünü açın ve hizmet listesinden Dataflow'u tıklayın.

İlk olarak wordcount işinizin durumunun Çalışıyor olduğunu göreceksiniz.

  1. İşlemi izlemek için adı tıklayın. Tüm kutular işaretlendiğinde Cloud Shell'deki günlükleri izlemeye devam edebilirsiniz.

Durum Başarılı olduğunda işlem tamamlanmıştır.

Tamamlanan görevi test etme

Tamamladığınız görevi doğrulamak için İlerleme durumumu kontrol et'i tıklayın. Görevi başarıyla tamamladıysanız size bir değerlendirme puanı verilir.

Örnek ardışık düzeni uzaktan çalıştırın.
  1. Cloud Console'da Navigasyon menüsü > Cloud Storage'ı tıklayın.

  2. Paketinizin adını tıklayın. Paketinizde results ve staging dizinlerini göreceksiniz.

  3. results klasörünü tıkladığınızda, işinizin oluşturduğu çıkış dosyalarını göreceksiniz:

  4. İçerdiği kelime sayısını görmek için dosyalardan birini tıklayın.

5. görev: Öğrendiklerinizi test etme

Aşağıda, bu laboratuvarda ele alınan kavramları daha iyi anlamanızı sağlayacak bir çoktan seçmeli soru yer almaktadır. Soruyu elinizden geldiğince yanıtlamaya çalışın.

Tebrikler!

Python geliştirme ortamınızı Dataflow için ayarlamayı (Python için Apache Beam SDK'yı kullanarak) öğrendiniz ve örnek bir Dataflow ardışık düzeni çalıştırdınız.

Sonraki adımlar / Daha fazla bilgi

Bu laboratuvar, Qwik Starts laboratuvar serisinin bir parçasıdır. Bu laboratuvarlar, Google Cloud'daki pek çok özelliği biraz olsun tanıtabilmek için tasarlamıştır. Katılabileceğiniz bir sonraki laboratuvarı bulmak için Google Cloud Öğrenim Merkezi kataloğunda "Qwik Starts" araması yapın.

Bu laboratuvarın temel aldığı kitabı şu adresten satın alabilirsiniz: Data Science on the Google Cloud Platform: O'Reilly Media, Inc.

Google Cloud eğitimi ve sertifikası

...Google Cloud teknolojilerinden en iyi şekilde yararlanmanıza yardımcı olur. Derslerimizde teknik becerilere odaklanırken en iyi uygulamalara da yer veriyoruz. Gerekli yetkinlik seviyesine hızlıca ulaşmanız ve öğrenim maceranızı sürdürebilmeniz için sizlere yardımcı olmayı amaçlıyoruz. Temel kavramlardan ileri seviyeye kadar farklı eğitim programlarımız mevcut. Ayrıca, yoğun gündeminize uyması için talep üzerine sağlanan, canlı ve sanal eğitim alternatiflerimiz de var. Sertifikasyonlar ise Google Cloud teknolojilerindeki becerilerinizi ve uzmanlığınızı doğrulamanıza ve kanıtlamanıza yardımcı oluyor.

Kılavuzun Son Güncellenme Tarihi: 4 Şubat 2024

Laboratuvarın Son Test Edilme Tarihi: 4 Mayıs 2023

Telif Hakkı 2024 Google LLC Tüm hakları saklıdır. Google ve Google logosu, Google LLC şirketinin ticari markalarıdır. Diğer tüm şirket ve ürün adları ilişkili oldukları şirketlerin ticari markaları olabilir.

This content is not currently available

We will notify you via email when it becomes available

Great!

We will contact you via email if it becomes available