
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Disable and re-enable the Dataflow API
/ 10
Create a Cloud Storage Bucket
/ 10
Copy Files to Your Bucket
/ 10
Create the BigQuery Dataset (name: lake)
/ 20
Build a Data Ingestion Dataflow Pipeline
/ 10
Build a Data Transformation Dataflow Pipeline
/ 10
Build a Data Enrichment Dataflow Pipeline
/ 10
Build a Data lake to Mart Dataflow Pipeline
/ 20
In Google Cloud können Sie Datenpipelines erstellen, die mithilfe von Python-Code Daten aus öffentlich verfügbaren Datasets aufnehmen und mithilfe dieser Google Cloud-Dienste nach BigQuery übertragen:
In diesem Lab erstellen Sie mit diesen Diensten eine eigene Datenpipeline, inklusive eigenem Design und Implementierungsdetails, damit Ihr Prototyp die Anforderungen erfüllt. Öffnen Sie unbedingt die Python-Dateien und lesen Sie die Kommentare, wenn Sie dazu aufgefordert werden.
Aufgaben in diesem Lab:
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
Sie finden das Passwort auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Klicken Sie sich durch die nachfolgenden Seiten:
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.
Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren .
Klicken Sie sich durch die folgenden Fenster:
Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID,
gcloud
ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.
Ausgabe:
Ausgabe:
gcloud
finden Sie in Google Cloud in der Übersicht zur gcloud CLI.
Damit Sie Zugriff auf die erforderliche API haben, starten Sie die Verbindung zur Dataflow API neu.
Geben Sie in der Cloud Console oben in der Suchleiste „Dataflow API“ ein. Klicken Sie auf das Ergebnis für Dataflow API.
Klicken Sie auf Verwalten.
Klicken Sie auf API deaktivieren.
Wenn Sie zur Bestätigung aufgefordert werden, klicken Sie auf Deaktivieren.
Wenn die API wieder aktiviert ist, wird auf der Seite die Option zur Deaktivierung angezeigt.
Klicken Sie auf Fortschritt prüfen.
Klicken Sie auf Fortschritt prüfen.
gsutil
Dateien in den gerade erstellten Cloud Storage-Bucket:Klicken Sie auf Fortschritt prüfen.
lake
. In dieses Dataset werden all Ihre Tabellen in BigQuery geladen:Klicken Sie auf Fortschritt prüfen.
In diesem Abschnitt erstellen Sie einen Dataflow, für den nur Anfügungen zulässig sind und der Daten in die BigQuery-Tabelle aufnimmt. Sie können sich mit dem integrierten Code-Editor den Code in der Google Cloud Console anzeigen lassen und diesen bearbeiten.
Sie erstellen nun eine Dataflow-Pipeline mit einer TextIO-Quelle und einem BigQuery-Ziel, um Dateien in BigQuery aufzunehmen. Dazu führen Sie die folgenden Schritte aus:
Rufen Sie im Code-Editor die Option dataflow-python-examples
> dataflow_python_examples
auf und öffnen Sie die Datei data_ingestion.py
. Lesen Sie die Kommentare, in denen die Funktion des Codes erklärt wird. Mit diesem Code wird in das Dataset lake eine Tabelle in BigQuery eingefügt.
Der Dataflow-Job in diesem Lab erfordert Python 3.8
. Damit Sie mit der richtigen Version arbeiten, werden die Dataflow-Prozesse in einem Python 3.8-Docker-Container ausgeführt.
Mit diesem Befehl wird ein Docker-Container mit der neuesten stabilen Version von Python 3.8 abgerufen und eine Befehlsshell für die nächsten Befehle im Container ausgeführt. Das Flag -v
stellt den Quellcode als Volume
für den Container bereit. Dadurch können wir ihn im Cloud Shell-Editor bearbeiten und weiterhin darauf im ausgeführten Container zugreifen.
apache-beam
in diesem ausgeführten Container mit dem folgenden Befehl:Klicken Sie auf den Namen des Jobs, um sich den Fortschritt anzeigen zu lassen. Sobald Erfolgreich als Jobstatus angezeigt wird, können Sie den nächsten Schritt ausführen. Diese Dataflow-Pipeline benötigt ca. fünf Minuten, um zu starten, die Aufgabe auszuführen und dann herunterzufahren.
Rufen Sie BigQuery (Navigationsmenü > BigQuery) auf, um zu überprüfen, ob Ihre Daten angezeigt werden.
lake
anzuzeigen.usa_names
anzeigen zu lassen.usa_names
nicht sehen, aktualisieren Sie die Seite oder rufen Sie die Tabellen mit der klassischen BigQuery-Benutzeroberfläche auf.
Klicken Sie auf Fortschritt prüfen.
Sie erstellen nun eine Dataflow-Pipeline mit einer TextIO-Quelle und einem BigQuery-Ziel, um Dateien in BigQuery aufzunehmen. Dazu führen Sie die folgenden Schritte aus:
Öffnen Sie im Code-Editor die Datei data_transformation.py
. Lesen Sie die Kommentare, in denen die Funktion des Codes erklärt wird.
Sie führen die Dataflow-Pipeline in der Cloud aus. Damit fahren Sie die erforderlichen Worker hoch und nach Abschluss wieder herunter.
Klicken Sie im Navigationsmenü auf Dataflow und dann auf den Namen dieses Jobs, um dessen Status aufzurufen. Diese Dataflow-Pipeline benötigt ca. fünf Minuten, um zu starten, die Aufgabe auszuführen und dann herunterzufahren.
Sobald der Jobstatus in Dataflow Erfolgreich lautet, gehen Sie zu BigQuery, um zu überprüfen, ob Ihre Daten dargestellt wurden.
Die Tabelle usa_names_transformed sollte unter dem Dataset lake
angezeigt werden.
Klicken Sie auf die Tabelle und gehen Sie zum Tab Vorschau, um Beispiele zu den Daten aus usa_names_transformed
aufzurufen.
usa_names_transformed
nicht sehen, aktualisieren Sie die Seite oder rufen Sie die Tabellen mit der klassischen BigQuery-Benutzeroberfläche auf.
Klicken Sie auf Fortschritt prüfen.
Sie erstellen nun eine Dataflow-Pipeline mit einer TextIO-Quelle und einem BigQuery-Ziel, um Dateien in BigQuery aufzunehmen. Dazu führen Sie die folgenden Schritte aus:
Öffnen Sie im Code-Editor die Datei data_enrichment.py
.
Lesen Sie die Kommentare, in denen die Funktion des Codes erklärt wird. Wenn Sie diesen Code ausführen, werden die Daten in BigQuery dargestellt.
Die Zeile 83 sieht aktuell in etwa so aus:
Hier führen Sie die Dataflow-Pipeline in der Cloud aus.
Klicken Sie im Navigationsmenü auf Dataflow, um den Status Ihres Jobs anzuzeigen. Diese Dataflow-Pipeline benötigt ca. fünf Minuten, um zu starten, die Aufgabe auszuführen und dann herunterzufahren.
Sobald der Jobstatus in Dataflow Erfolgreich lautet, rufen Sie BigQuery auf, um zu überprüfen, ob Ihre Daten eingefügt wurden.
Die Tabelle usa_names_enriched sollte unter dem Dataset lake
angezeigt werden.
usa_names_enriched
aufzurufen.usa_names_enriched
nicht sehen, aktualisieren Sie die Seite oder rufen Sie die Tabellen mit der klassischen BigQuery-Benutzeroberfläche auf.
Klicken Sie auf Fortschritt prüfen.
Als Nächstes erstellen Sie eine Dataflow-Pipeline, mit der Daten aus zwei BigQuery-Datenquellen gelesen und die Datenquellen dann verknüpft werden. Dabei führen Sie insbesondere Folgendes aus:
Öffnen Sie im Code-Editor die Datei data_lake_to_mart.py
. Lesen Sie die Kommentare, in denen die Funktion des Codes erklärt wird. Mit diesem Code werden zwei Tabellen verknüpft und deren Daten in BigQuery eingefügt.
Führen Sie jetzt die Dataflow-Pipeline in der Cloud aus.
Gehen Sie zu Navigationsmenü > Dataflow und klicken Sie auf den Namen dieses neuen Jobs, um den Status aufzurufen. Diese Dataflow-Pipeline benötigt ca. fünf Minuten, um zu starten, die Aufgabe auszuführen und dann herunterzufahren.
Sobald der Jobstatus in Dataflow Erfolgreich lautet, rufen Sie BigQuery auf, um zu überprüfen, ob Ihre Daten dargestellt wurden.
Die Tabelle orders_denormalized_sideinput sollte unter dem Dataset lake
angezeigt werden.
orders_denormalized_sideinputlake
anzeigen zu lassen.orders_denormalized_sideinput
nicht sehen, aktualisieren Sie die Seite oder rufen Sie die Tabellen mit der klassischen BigQuery-Benutzeroberfläche auf.
Klicken Sie auf Fortschritt prüfen.
Im Folgenden stellen wir Ihnen einige Multiple-Choice-Fragen, um Ihr bisher erworbenes Wissen zu testen und zu festigen. Beantworten Sie die Fragen so gut Sie können.
Sie haben Python-Code mithilfe von Dataflow ausgeführt, um Daten in BigQuery aufzunehmen und die Daten zu transformieren.
Wenn Sie sich noch gründlicher informieren möchten, sehen Sie sich die offiziellen Dokumentationen zu folgenden Themen an:
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 11. Februar 2024 aktualisiert
Lab zuletzt am 12. Oktober 2023 getestet
© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.
Diese Inhalte sind derzeit nicht verfügbar
Bei Verfügbarkeit des Labs benachrichtigen wir Sie per E-Mail
Sehr gut!
Bei Verfügbarkeit kontaktieren wir Sie per E-Mail
One lab at a time
Confirm to end all existing labs and start this one