Prüfpunkte
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Übersicht
- Einrichtung und Anforderungen
- Aufgabe 1: Cloud Storage-Bucket in Ihrem Projekt erstellen
- Aufgabe 2: Cloud Dataprep initialisieren
- Aufgabe 3: Ablauf erstellen
- Aufgabe 4: Datasets importieren
- Aufgabe 5: Kandidatendatei vorbereiten
- Aufgabe 6: Datei mit Wahlkampfspenden Wrangle-codieren und mit der Kandidatendatei verknüpfen
- Aufgabe 7: Datenzusammenfassung
- Aufgabe 8: Spalten umbenennen
- Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Dieses Lab wurde in Zusammenarbeit mit unserem Partner Trifacta entwickelt. Ihre personenbezogenen Daten werden möglicherweise an Trifacta, den Lab-Sponsor, weitergegeben, wenn Sie zugestimmt haben, Produktupdates, Mitteilungen und Angebote in Ihrem Kontoprofil zu erhalten.
GSP105
Übersicht
Cloud Dataprep von Trifacta ist ein intelligenter Datendienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von Daten für die Analyse. Als serverloser Dienst ist Cloud Dataprep für Daten jeder Größenordnung geeignet. Dabei muss keine Infrastruktur bereitgestellt oder verwaltet werden. Die Datenvorbereitung erfolgt einfach per Klick und ohne Code.
In diesem Lab verwenden Sie Dataprep, um ein Dataset zu bearbeiten. Sie importieren Datasets, korrigieren nicht übereinstimmende Daten, transformieren Daten und verknüpfen sie. Falls dies für Sie neu ist, wissen Sie spätestens am Ende dieses Labs, was damit gemeint ist.
Aufgaben
Aufgaben in diesem Lab:
- Daten importieren
- Nicht übereinstimmende Daten korrigieren
- Daten transformieren
- Daten verknüpfen
Einrichtung und Anforderungen
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
- Einen Standardbrowser (empfohlen wird Chrome)
- Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Lab starten und bei der Google Cloud Console anmelden
-
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Pop-up-Fenster geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich Details zum Lab mit diesen Informationen:
- Schaltfläche Google Cloud Console öffnen
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
-
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite Anmelden geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden. -
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}} Sie finden den Nutzernamen auch im Bereich Details zum Lab.
-
Klicken Sie auf Weiter.
-
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}} Sie finden das Passwort auch im Bereich Details zum Lab.
-
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos. Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen. -
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Cloud Shell aktivieren
Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.
- Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren .
Wenn Sie verbunden sind, sind Sie bereits authentifiziert und das Projekt ist auf Ihre Project_ID,
gcloud
ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.
- (Optional) Sie können den aktiven Kontonamen mit diesem Befehl auflisten:
- Klicken Sie auf Autorisieren.
Ausgabe:
- (Optional) Sie können die Projekt-ID mit diesem Befehl auflisten:
Ausgabe:
gcloud
finden Sie in Google Cloud in der Übersicht zur gcloud CLI.
Aufgabe 1: Cloud Storage-Bucket in Ihrem Projekt erstellen
-
Klicken Sie in der Cloud Console auf das Navigationsmenü () > Cloud Storage > Buckets.
-
Klicken Sie auf Bucket erstellen.
-
Geben Sie im Dialogfeld Bucket erstellen unter Name einen eindeutigen Namen für den Bucket ein. Übernehmen Sie für die restlichen Einstellungen die Standardwerte.
-
Entfernen Sie unter
Legen Sie fest, wie der Zugriff auf Objekte gesteuert wird
das Häkchen bei Verhinderung des öffentlichen Zugriffs für diesen Bucket erzwingen. -
Klicken Sie auf Erstellen.
Sie haben den Bucket erstellt. Merken Sie sich den Bucket-Namen für spätere Schritte.
Abgeschlossene Aufgabe testen
Klicken Sie auf Fortschritt prüfen. Wenn Sie den Cloud Storage-Bucket erstellt haben, erhalten Sie ein Testergebnis.
Aufgabe 2: Cloud Dataprep initialisieren
- Öffnen Sie Cloud Shell und führen Sie den folgenden Befehl aus:
Sie sollten eine Meldung sehen, dass die Dienstidentität erstellt wurde.
-
Klicken Sie im Navigationsmenü auf Dataprep.
-
Klicken Sie auf das Kästchen zum Akzeptieren der Google Dataprep-Nutzungsbedingungen und dann auf Akzeptieren.
-
Klicken Sie auf das Kästchen für die Weitergabe Ihrer Kontoinformationen an Trifacta und dann auf Zustimmen und fortfahren.
-
Klicken Sie auf Zulassen, um Trifacta den Zugriff auf Projektdaten zu gestatten.
-
Klicken Sie auf Ihren Studenten-Nutzernamen, um sich bei Cloud Dataprep von Trifacta anzumelden. Sie finden ihn unter Nutzername im linken Bereich des Labs.
-
Klicken Sie auf Zulassen, um Cloud Dataprep den Zugriff auf Ihr Google Cloud-Lab-Konto zu gewähren.
-
Bestätigen Sie, dass Sie mit den Nutzungsbedingungen von Trifacta einverstanden sind, und klicken Sie dann auf Akzeptieren.
-
Klicken Sie auf dem Bildschirm Ersteinrichtung auf Fortfahren, um den Standardspeicherort zu erstellen.
Dataprep wird geöffnet.
Abgeschlossene Aufgabe testen
Klicken Sie auf Fortschritt prüfen. Wenn Sie Cloud Dataprep mit einem Standardspeicherort initialisiert haben, erhalten Sie ein Testergebnis.
Aufgabe 3: Ablauf erstellen
Cloud Dataprep hat einen flow
-Arbeitsbereich für den Zugriff auf und die Bearbeitung von Datasets.
- Klicken Sie auf das Symbol für Abläufe und dann auf die Schaltfläche Erstellen. Wählen Sie Leerer Ablauf aus:
- Klicken Sie auf Unbenannter Ablauf. Geben Sie einen Namen und eine Beschreibung für den Ablauf ein. Da in diesem Lab Daten der United States Federal Election Commission von 2016 verwendet werden, nennen Sie den Ablauf „FEC-2016“ und geben Sie als Beschreibung „United States Federal Election Commission 2016“ ein.
- Klicken Sie auf OK.
Die Seite mit dem Ablauf „FEC-2016“ wird geöffnet.
Aufgabe 4: Datasets importieren
In diesem Abschnitt importieren Sie Daten und fügen sie dem Ablauf „FEC‑2016“ hinzu.
-
Klicken Sie auf Datasets hinzufügen und dann auf den Link Datasets importieren.
-
Wählen Sie im Menü auf der linken Seite die Option Cloud Storage aus, um Datasets aus Cloud Storage zu importieren. Klicken Sie dann auf den Stift, um den Dateipfad zu bearbeiten.
- Geben Sie
gs://spls/gsp105
in das Textfeld Datei oder Ordner auswählen ein und klicken Sie auf Los.
Möglicherweise müssen Sie das Browserfenster erweitern, um die Schaltflächen Los und Abbrechen zu sehen.
-
Klicken Sie auf us‑fec/.
-
Klicken Sie auf das Plussymbol (+) neben
cn‑2016.txt
, um ein Dataset zu erstellen, das im rechten Bereich angezeigt wird. Klicken Sie auf den Titel im Dataset im rechten Bereich und benennen Sie es in „Candidate Master 2016“ um. -
Fügen Sie auf die gleiche Weise das Dataset
itcont-2016-orig.txt
hinzu und benennen Sie es in „Campaign Contributions 2016“ um. -
Wenn beide Datasets im rechten Bereich zu sehen sind, klicken Sie auf Importieren und zu Ablauf hinzufügen.
Es werden beide Datasets als ein Ablauf aufgelistet.
Aufgabe 5: Kandidatendatei vorbereiten
- Das Dataset „Candidate Master 2016“ ist standardmäßig ausgewählt. Klicken Sie im rechten Bereich auf Schema bearbeiten.
Die Transformationsseite „Candidate Master 2016“ wird in der Rasteransicht geöffnet.
Auf dieser Seite erstellen Sie das Transformationsschema und sehen, zu welchen Ergebnissen die Anwendung auf die Stichprobe führt. Wenn Sie damit zufrieden sind, führen Sie den Job für Ihr Dataset aus.
- Jede Spaltenüberschrift hat einen Namen und einen Wert zur Angabe des Datentyps. Wenn Sie die Datentypen sehen möchten, klicken Sie auf das Spaltensymbol:
-
Wenn Sie auf den Namen der Spalte klicken, öffnet sich außerdem rechts der Bereich Details.
-
Klicken Sie im Bereich Details oben rechts auf das X, um diesen Bereich zu schließen.
In den folgenden Schritten untersuchen Sie Daten in der Rasteransicht und wenden Transformationsschritte auf Ihr Schema an.
- Column5 enthält Daten für die Jahre 1990 bis 2064. Erweitern Sie Column5 (wie bei einer Tabelle), um die einzelnen Jahre zu trennen. Klicken Sie auf die größte Säule, die das Jahr 2016 darstellt.
Dadurch wird ein Schritt erstellt, in dem diese Werte ausgewählt sind.
- Klicken Sie rechts im Bereich Vorschläge im Abschnitt Zeilen beibehalten auf Hinzufügen, um diesen Schritt dem Schema hinzuzufügen.
Das Steuerfeld „Recipe“ (Schema) auf der rechten Seite enthält nun den folgenden Schritt:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- Bewegen Sie den Mauszeiger auf den nicht übereinstimmenden (roten) Teil der Überschrift von Column6 (Bundesstaat) und klicken Sie darauf, um die nicht passenden Zeilen auszuwählen.
Scrollen Sie nach unten (rot markiert) und suchen Sie die nicht übereinstimmenden Werte. Sie werden feststellen, dass die meisten Einträge den Wert „P“ in Column7 und „US“ in Column6 haben. Die Abweichung tritt auf, weil Column6 eine als „Bundesstaat“ gekennzeichnete Spalte ist (erkennbar am Flaggensymbol), aber nichtbundesstaatliche Werte (z. B. „US“) enthält.
- Klicken Sie zum Beheben dieses Problems oben rechts im Bereich „Vorschläge“ auf das X, um die Transformation abzubrechen. Klicken Sie dann auf das Flaggensymbol in Column6 und ändern Sie diese in eine „String“-Spalte.
Die Abweichung wurde damit behoben und die Spaltenmarkierung ist nun grün.
- Filtern Sie nur nach den Präsidentschaftskandidaten. Dies sind die Datensätze mit dem Wert „P“ in Column7. Bewegen Sie im Histogramm in Column7 den Mauszeiger über die beiden Klassen, um zu sehen, welche „H“ und welche „P“ ist. Klicken Sie auf die Klasse „P“.
- Klicken Sie rechts im Bereich „Vorschläge“ auf Hinzufügen, um den Schritt für das Schema zu übernehmen.
Aufgabe 6: Datei mit Wahlkampfspenden Wrangle-codieren und mit der Kandidatendatei verknüpfen
Auf der Seite „Verknüpfen“ können Sie das aktuelle Dataset auf der Grundlage von gemeinsamen Informationen einem anderen Dataset oder Schema hinzufügen.
Bevor Sie die Datei mit Wahlkampfspenden mit der Kandidatendatei verknüpfen, bereinigen Sie die Datei mit Wahlkampfspenden.
- Klicken Sie oben auf der Seite mit der Rasteransicht auf FEC-2016 (die Schaltfläche zur Dataset-Auswahl).
-
Klicken Sie auf den ausgegrauten Eintrag Campaign Contributions 2016.
-
Klicken Sie rechts auf Hinzufügen > Schema und dann auf Schema bearbeiten.
-
Klicken Sie rechts oben auf der Seite auf das Schemasymbol und dann auf Neuen Schritt hinzufügen.
Entfernen Sie zusätzliche Trennzeichen im Dataset.
- Fügen Sie den folgenden Wrangle-Sprachbefehl in das Suchfeld ein:
Der Wrangle-Befehl wird im Transformation Builder analysiert und die Felder „Suchen“ und „Ersetzen“ werden für die Transformation ausgefüllt.
-
Klicken Sie auf Hinzufügen, um die Transformation dem Schema hinzuzufügen.
-
Fügen Sie dem Schema einen weiteren neuen Schritt hinzu. Klicken Sie auf Neuer Schritt und geben Sie dann „Verknüpfen“ in das Suchfeld ein.
-
Klicken Sie auf Datasets verknüpfen, um die entsprechende Seite zu öffnen.
-
Klicken Sie auf „Candidate Master 2016“, um das Dataset mit „Campaign Contributions 2016“ zu verknüpfen, und dann rechts unten auf Akzeptieren.
- Bewegen Sie den Mauszeiger rechts auf den Abschnitt „Join-Schlüssel“ und klicken Sie dann auf den Stift (Symbol „Bearbeiten“).
Dataprep leitet gängige Schlüssel ab. Das Programm schlägt viele häufige Werte als Join-Schlüssel vor.
- Klicken Sie im Bereich „Schlüssel hinzufügen“ unter dem Abschnitt mit den vorgeschlagenen Join-Schlüsseln auf column2 = column11.
- Klicken Sie auf Speichern und fortfahren.
Die Spalten 2 und 11 werden zur Überprüfung geöffnet.
- Klicken Sie auf Weiter. Aktivieren Sie dann das Kästchen links neben dem Label „Spalte“, um alle Spalten beider Datasets dem verknüpften Dataset hinzuzufügen.
- Klicken Sie auf Überprüfen und dann auf Zu Schema hinzufügen, um zur Rasteransicht zurückzukehren.
Aufgabe 7: Datenzusammenfassung
Erstellen Sie eine hilfreiche Übersicht, indem Sie die Wahlkampfspenden in Spalte 16 zusammenfassen, Mittelwerte ermitteln und zählen sowie die Kandidaten nach ID, Name und Parteizugehörigkeit in den Spalten 2, 24 bzw. 8 gruppieren.
- Klicken Sie oben rechts im Bereich „Schema“ auf Neuer Schritt und geben Sie die folgende Formel in das Suchfeld Transformation ein, um sich eine Vorschau der aggregierten Daten anzeigen zu lassen.
Es wird eine Erstprobe der verknüpften und aggregierten Daten angezeigt, die eine Übersichtstabelle der US-Präsidentschaftskandidaten und ihrer Wahlkampfspenden im Jahr 2016 darstellt.
- Klicken Sie auf Hinzufügen, um eine Übersichtstabelle der wichtigsten US-Präsidentschaftskandidaten und ihrer Wahlkampfspenden im Jahr 2016 zu öffnen.
Aufgabe 8: Spalten umbenennen
Sie können die Interpretation der Daten vereinfachen, indem Sie die Spalten umbenennen.
- Fügen Sie die Umbenennungs- und Rundungsschritte einzeln zum Schema hinzu, indem Sie auf Neuer Schritt klicken. Geben Sie dann Folgendes ein:
-
Klicken Sie dann auf Hinzufügen.
-
Fügen Sie folgenden letzten Eintrag mit Neuer Schritt hinzu, um den Betrag in der Spalte „Durchschnittlicher Beitrag“ zu runden:
- Klicken Sie dann auf Hinzufügen.
Die Ergebnisse sehen in etwa so aus:
Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Sie haben Dataprep zum Hinzufügen eines Datasets verwendet und Schemas erstellt, um die Daten zu aussagekräftigen Ergebnissen zu verarbeiten.
Weitere Informationen
Dieses Lab gehört zu der Reihe „Qwik Starts“. Die Labs geben Ihnen einen kleinen Vorgeschmack auf die vielen Funktionen von Google Cloud. Wählen Sie im Lab-Katalog unter „Qwik Starts“ einfach das nächste Lab aus, das Sie durchgehen möchten.
Google Cloud-Schulungen und -Zertifizierungen
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 6. Juni 2024 aktualisiert
Lab zuletzt am 6. Juni 2024 getestet
© 2024 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.