
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dieses Lab wurde in Zusammenarbeit mit unserem Partner Trifacta entwickelt. Ihre personenbezogenen Daten werden möglicherweise an Trifacta, den Lab-Sponsor, weitergegeben, wenn Sie zugestimmt haben, Produktupdates, Mitteilungen und Angebote in Ihrem Kontoprofil zu erhalten.
Cloud Dataprep von Trifacta ist ein intelligenter Datendienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von Daten für die Analyse. Als serverloser Dienst ist Cloud Dataprep für Daten jeder Größenordnung geeignet. Dabei muss keine Infrastruktur bereitgestellt oder verwaltet werden. Die Datenvorbereitung erfolgt einfach per Klick und ohne Code.
In diesem Lab verwenden Sie Dataprep, um ein Dataset zu bearbeiten. Sie importieren Datasets, korrigieren nicht übereinstimmende Daten, transformieren Daten und verknüpfen sie. Falls dies für Sie neu ist, wissen Sie spätestens am Ende dieses Labs, was damit gemeint ist.
Aufgaben in diesem Lab:
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
Sie finden das Passwort auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Klicken Sie sich durch die nachfolgenden Seiten:
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.
Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren .
Klicken Sie sich durch die folgenden Fenster:
Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID,
gcloud
ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.
Ausgabe:
Ausgabe:
gcloud
finden Sie in Google Cloud in der Übersicht zur gcloud CLI.
Klicken Sie in der Cloud Console auf das Navigationsmenü () > Cloud Storage > Buckets.
Klicken Sie auf Bucket erstellen.
Geben Sie im Dialogfeld Bucket erstellen unter Name einen eindeutigen Namen für den Bucket ein. Übernehmen Sie für die restlichen Einstellungen die Standardwerte.
Entfernen Sie unter Legen Sie fest, wie der Zugriff auf Objekte gesteuert wird
das Häkchen bei Verhinderung des öffentlichen Zugriffs für diesen Bucket erzwingen.
Klicken Sie auf Erstellen.
Sie haben den Bucket erstellt. Merken Sie sich den Bucket-Namen für spätere Schritte.
Klicken Sie auf Fortschritt prüfen. Wenn Sie den Cloud Storage-Bucket erstellt haben, erhalten Sie ein Testergebnis.
Sie sollten eine Meldung sehen, dass die Dienstidentität erstellt wurde.
Klicken Sie im Navigationsmenü auf Dataprep.
Klicken Sie auf das Kästchen zum Akzeptieren der Google Dataprep-Nutzungsbedingungen und dann auf Akzeptieren.
Klicken Sie auf das Kästchen für die Weitergabe Ihrer Kontoinformationen an Trifacta und dann auf Zustimmen und fortfahren.
Klicken Sie auf Zulassen, um Trifacta den Zugriff auf Projektdaten zu gestatten.
Klicken Sie auf Ihren Studenten-Nutzernamen, um sich bei Cloud Dataprep von Trifacta anzumelden. Sie finden ihn unter Nutzername im linken Bereich des Labs.
Klicken Sie auf Zulassen, um Cloud Dataprep den Zugriff auf Ihr Google Cloud-Lab-Konto zu gewähren.
Bestätigen Sie, dass Sie mit den Nutzungsbedingungen von Trifacta einverstanden sind, und klicken Sie dann auf Akzeptieren.
Klicken Sie auf dem Bildschirm Ersteinrichtung auf Fortfahren, um den Standardspeicherort zu erstellen.
Dataprep wird geöffnet.
Klicken Sie auf Fortschritt prüfen. Wenn Sie Cloud Dataprep mit einem Standardspeicherort initialisiert haben, erhalten Sie ein Testergebnis.
Cloud Dataprep hat einen flow
-Arbeitsbereich für den Zugriff auf und die Bearbeitung von Datasets.
Die Seite mit dem Ablauf „FEC-2016“ wird geöffnet.
In diesem Abschnitt importieren Sie Daten und fügen sie dem Ablauf „FEC‑2016“ hinzu.
Klicken Sie auf Datasets hinzufügen und dann auf den Link Datasets importieren.
Wählen Sie im Menü auf der linken Seite die Option Cloud Storage aus, um Datasets aus Cloud Storage zu importieren. Klicken Sie dann auf den Stift, um den Dateipfad zu bearbeiten.
gs://spls/gsp105
in das Textfeld Datei oder Ordner auswählen ein und klicken Sie auf Los.Möglicherweise müssen Sie das Browserfenster erweitern, um die Schaltflächen Los und Abbrechen zu sehen.
Klicken Sie auf us‑fec/.
Klicken Sie auf das Plussymbol (+) neben cn‑2016.txt
, um ein Dataset zu erstellen, das im rechten Bereich angezeigt wird. Klicken Sie auf den Titel im Dataset im rechten Bereich und benennen Sie es in „Candidate Master 2016“ um.
Fügen Sie auf die gleiche Weise das Dataset itcont-2016-orig.txt
hinzu und benennen Sie es in „Campaign Contributions 2016“ um.
Wenn beide Datasets im rechten Bereich zu sehen sind, klicken Sie auf Importieren und zu Ablauf hinzufügen.
Es werden beide Datasets als ein Ablauf aufgelistet.
Die Transformationsseite „Candidate Master 2016“ wird in der Rasteransicht geöffnet.
Auf dieser Seite erstellen Sie das Transformationsschema und sehen, zu welchen Ergebnissen die Anwendung auf die Stichprobe führt. Wenn Sie damit zufrieden sind, führen Sie den Job für Ihr Dataset aus.
Wenn Sie auf den Namen der Spalte klicken, öffnet sich außerdem rechts der Bereich Details.
Klicken Sie im Bereich Details oben rechts auf das X, um diesen Bereich zu schließen.
In den folgenden Schritten untersuchen Sie Daten in der Rasteransicht und wenden Transformationsschritte auf Ihr Schema an.
Dadurch wird ein Schritt erstellt, in dem diese Werte ausgewählt sind.
Das Steuerfeld „Recipe“ (Schema) auf der rechten Seite enthält nun den folgenden Schritt:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
Scrollen Sie nach unten (rot markiert) und suchen Sie die nicht übereinstimmenden Werte. Sie werden feststellen, dass die meisten Einträge den Wert „P“ in Column7 und „US“ in Column6 haben. Die Abweichung tritt auf, weil Column6 eine als „Bundesstaat“ gekennzeichnete Spalte ist (erkennbar am Flaggensymbol), aber nichtbundesstaatliche Werte (z. B. „US“) enthält.
Die Abweichung wurde damit behoben und die Spaltenmarkierung ist nun grün.
Auf der Seite „Verknüpfen“ können Sie das aktuelle Dataset auf der Grundlage von gemeinsamen Informationen einem anderen Dataset oder Schema hinzufügen.
Bevor Sie die Datei mit Wahlkampfspenden mit der Kandidatendatei verknüpfen, bereinigen Sie die Datei mit Wahlkampfspenden.
Klicken Sie auf den ausgegrauten Eintrag Campaign Contributions 2016.
Klicken Sie rechts auf Hinzufügen > Schema und dann auf Schema bearbeiten.
Klicken Sie rechts oben auf der Seite auf das Schemasymbol und dann auf Neuen Schritt hinzufügen.
Entfernen Sie zusätzliche Trennzeichen im Dataset.
Der Wrangle-Befehl wird im Transformation Builder analysiert und die Felder „Suchen“ und „Ersetzen“ werden für die Transformation ausgefüllt.
Klicken Sie auf Hinzufügen, um die Transformation dem Schema hinzuzufügen.
Fügen Sie dem Schema einen weiteren neuen Schritt hinzu. Klicken Sie auf Neuer Schritt und geben Sie dann „Verknüpfen“ in das Suchfeld ein.
Klicken Sie auf Datasets verknüpfen, um die entsprechende Seite zu öffnen.
Klicken Sie auf „Candidate Master 2016“, um das Dataset mit „Campaign Contributions 2016“ zu verknüpfen, und dann rechts unten auf Akzeptieren.
Dataprep leitet gängige Schlüssel ab. Das Programm schlägt viele häufige Werte als Join-Schlüssel vor.
Die Spalten 2 und 11 werden zur Überprüfung geöffnet.
Erstellen Sie eine hilfreiche Übersicht, indem Sie die Wahlkampfspenden in Spalte 16 zusammenfassen, Mittelwerte ermitteln und zählen sowie die Kandidaten nach ID, Name und Parteizugehörigkeit in den Spalten 2, 24 bzw. 8 gruppieren.
Es wird eine Erstprobe der verknüpften und aggregierten Daten angezeigt, die eine Übersichtstabelle der US-Präsidentschaftskandidaten und ihrer Wahlkampfspenden im Jahr 2016 darstellt.
Sie können die Interpretation der Daten vereinfachen, indem Sie die Spalten umbenennen.
Klicken Sie dann auf Hinzufügen.
Fügen Sie folgenden letzten Eintrag mit Neuer Schritt hinzu, um den Betrag in der Spalte „Durchschnittlicher Beitrag“ zu runden:
Die Ergebnisse sehen in etwa so aus:
Sie haben Dataprep zum Hinzufügen eines Datasets verwendet und Schemas erstellt, um die Daten zu aussagekräftigen Ergebnissen zu verarbeiten.
Dieses Lab gehört zu der Reihe „Qwik Starts“. Die Labs geben Ihnen einen kleinen Vorgeschmack auf die vielen Funktionen von Google Cloud. Wählen Sie im Lab-Katalog unter „Qwik Starts“ einfach das nächste Lab aus, das Sie durchgehen möchten.
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 6. Juni 2024 aktualisiert
Lab zuletzt am 6. Juni 2024 getestet
© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.
Diese Inhalte sind derzeit nicht verfügbar
Bei Verfügbarkeit des Labs benachrichtigen wir Sie per E-Mail
Sehr gut!
Bei Verfügbarkeit kontaktieren wir Sie per E-Mail
One lab at a time
Confirm to end all existing labs and start this one