
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Run Cloud Dataprep jobs to BigQuery
/ 100
Dieses Lab wurde mit unserem Partner Alteryx entwickelt. Ihre personenbezogenen Daten werden möglicherweise an Alteryx, den Lab-Sponsor, weitergegeben, wenn Sie in Ihrem Kontoprofil zugestimmt haben, Produktupdates, Mitteilungen und Angebote zu erhalten.
Dataprep von Trifacta ist ein intelligenter Dienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von strukturierten und unstrukturierten Daten für die Analyse. In diesem Lab machen Sie sich mit der Benutzeroberfläche (UI) von Dataprep vertraut und erstellen eine Pipeline zur Datentransformation, die Ergebnisse in BigQuery ausgibt.
In diesem Lab arbeiten Sie in BigQuery mit einem ecommerce-Dataset, das Millionen von Google Analytics-Sitzungsdatensätzen des Google Merchandise Store enthält. Sie untersuchen die verfügbaren Felder und Zeilen und bereiten die Daten für die Analyse vor.
Aufgaben in diesem Lab:
Sie sollten zuerst das Lab Mit Cloud Dataprep in Google Cloud arbeiten durchgehen, bevor Sie mit diesem Lab beginnen.
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Pop-up-Fenster geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich Details zum Lab mit diesen Informationen:
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite Anmelden geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
Sie finden den Nutzernamen auch im Bereich Details zum Lab.
Klicken Sie auf Weiter.
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
Sie finden das Passwort auch im Bereich Details zum Lab.
Klicken Sie auf Weiter.
Klicken Sie sich durch die nachfolgenden Seiten:
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Sie sollten eine Meldung sehen, dass die Dienstidentität erstellt wurde.
Wählen Sie in der Cloud Console im Navigationsmenü unter Analytics die Option Dataprep aus.
Bevor Sie Dataprep öffnen können, müssen Sie bestätigen, dass Sie mit den Nutzungsbedingungen von Google Dataprep einverstanden sind, und dann auf Akzeptieren klicken.
Klicken Sie auf das Kästchen und dann auf Zustimmen und fortfahren, wenn Sie dazu aufgefordert werden, Kontoinformationen für Alteryx freizugeben.
Klicken Sie auf Zulassen, damit Alteryx auf Ihr Projekt zugreifen kann.
Wählen Sie zum Anmelden Ihre Qwiklabs-Anmeldedaten aus und klicken Sie auf Zulassen.
Klicken Sie auf das Kästchen und dann auf Akzeptieren, um den Nutzungsbedingungen von Alteryx zuzustimmen.
Wenn Sie aufgefordert werden, den Standardspeicherort für den Storage-Bucket zu verwenden, klicken Sie auf Weiter.
Zwar liegt der Fokus dieses Labs vor allem auf Cloud Dataprep, Sie benötigen jedoch BigQuery als Endpunkt für die Aufnahme des Datasets in die Pipeline und als Ziel für die Ausgabe, wenn die Pipeline erstellt ist.
Klicken Sie in der Cloud Console im Navigationsmenü auf BigQuery.
Zuerst wird das Fenster Willkommen bei BigQuery in der Cloud Console geöffnet, das einen Link zur Kurzanleitung und Informationen zu Aktualisierungen der Benutzeroberfläche enthält.
Klicken Sie auf Fertig.
Wählen Sie im Bereich Explorer den Namen Ihres Projekts aus:
ecommerce
ein.Klicken Sie auf DATASET ERSTELLEN. Sie sehen jetzt das Dataset unter Ihrem Projekt im linken Bereich.
Kopieren Sie die folgende SQL-Abfrage und fügen Sie sie in den Abfrageeditor ein:
Klicken Sie auf AUSFÜHREN. Mit dieser Abfrage wird eine Teilmenge des öffentlichen ecommerce-Roh-Datasets (entspricht Sitzungsdaten eines Tages oder ca. 56.000 Datensätzen) in eine neue Tabelle mit dem Namen all_sessions_raw_dataprep
kopiert. Die Tabelle wurde dem ecommerce-Dataset hinzugefügt, damit Sie Daten in Cloud Dataprep untersuchen und bereinigen können.
Überprüfen Sie, ob die neue Tabelle Ihrem E-Commerce
-Dataset hinzugefügt wurde:
In dieser Aufgabe verbinden Sie Cloud Dataprep mit der BigQuery-Datenquelle. Gehen Sie auf der Cloud Dataprep-Seite so vor:
Klicken Sie rechts oben auf Ablauf erstellen.
Benennen Sie den unbenannten Ablauf um und geben Sie folgende Details an:
Ecommerce Analytics Pipeline
Revenue reporting table
Klicken Sie auf OK.
Wenn das Pop-up Was ist ein Ablauf?
angezeigt wird, wählen Sie Keine Assistenten anzeigen aus.
Klicken Sie im Kästchen „Dataset“ auf das Symbol Hinzufügen.
Wählen Sie im Dialogfeld Datasets zum Ablauf hinzufügen die Option Datasets importieren aus.
Klicken Sie im linken Bereich auf BigQuery.
Wenn das ecommerce-Dataset geladen ist, klicken Sie darauf.
Klicken Sie links von der Tabelle all_sessions_raw_dataprep
auf das Symbol für Dataset erstellen („+“-Zeichen).
Klicken Sie rechts unten auf Import & Add to Flow (Importieren und zu Ablauf hinzufügen).
Die Datenquelle wird automatisch aktualisiert. Sie können jetzt mit der nächsten Aufgabe fortfahren.
In dieser Aufgabe laden und untersuchen Sie eine Stichprobe des Datasets in Cloud Dataprep.
Cloud Dataprep lädt eine Stichprobe des Datasets in die Transformer-Ansicht. Dieser Vorgang kann einige Sekunden dauern. Anschließend können Sie die Daten untersuchen.
Beantworten Sie folgende Fragen:
Antwort: 32 Spalten
Antwort: Etwa 12.000 Zeilen
channelGrouping
?channelGrouping
.
Antwort: Verweis. Eine verweisende Seite ist normalerweise eine andere Website, die einen Link zu Ihrer Website enthält. Ein Beispiel wäre eine Website, auf der ein Produkt auf unserer E-Commerce-Website bewertet und verlinkt wurde. Dies wird als ein anderer Akquisekanal erfasst als eine Suchmaschine, über die Besucher auf die Seite gelangen.
Antwort: USA, Indien, Vereinigtes Königreich
Antwort: Fehlende Werte für das Feld totalTransactionRevenue
. Das bedeutet, dass bei vielen Sitzungen in dieser Stichprobe kein Umsatz generiert wurde. Später werden Sie diese Werte herausfiltern, sodass die endgültige Tabelle nur Kundentransaktionen und damit verbundene Umsätze enthält.
timeOnSite
(Zeit auf der Website) in Sekunden, die maximale Anzahl an pageviews
(Seitenaufrufen) und die maximale Punktzahl für sessionQualityDim
(Dimension „Sitzungsqualität“) in der Stichprobe? (Tipp: Klicken Sie rechts neben der Spalte timeOnSite
auf Um das Fenster mit den Details zu schließen, klicken Sie rechts oben auf die Schaltfläche Spaltendetails schließen (X). Wiederholen Sie dann den Vorgang, um eine Detailansicht zu den Spalten pageviews
und sessionQualityDim
zu erhalten.
Antworten:
timeOnSite
nur einmal pro Sitzung gezählt werden. Auf die Eindeutigkeit von Besucher‑ und Sitzungsdaten werden wir in einem späteren Lab eingehen.
sessionQualityDim
an: Sind die Datenwerte gleichmäßig verteilt?Antwort: Nein, es sind mehr niedrige Werte (Sitzungen von geringer Qualität) vorhanden, was auch zu erwarten war.
Antwort: 1.8.2017 (entspricht Daten von einem Tag)
productSKU
(Produktartikelnummer) einen roten Balken. Wenn ja, was könnte das bedeuten?Antwort: Ein roter Balken zeigt nicht übereinstimmende Werte an. Beim Erfassen von Daten versucht Cloud Dataprep, den Typ jeder Spalte automatisch zu identifizieren. Wenn Sie unter der Spalte productSKU
keinen roten Balken sehen, bedeutet dies, dass Cloud Dataprep den Typ für die Spalte (d. h. den Typ „String“) korrekt identifiziert hat. Falls ein roter Balken zu sehen ist, bedeutet das, dass Cloud Dataprep genügend Zahlenwerte gefunden hat, um (fälschlicherweise) zu bestimmen, dass der Typ „Ganzzahl“ sein sollte. Cloud Dataprep hat auch einige nicht ganzzahlige Werte erkannt und diese Werte daher als nicht übereinstimmend gekennzeichnet. Tatsächlich ist der Wert für productSKU
nicht immer ganzzahlig (z. B. könnte ein korrekter Wert auch "GGOEGOCD078399" lauten). In diesem Fall hat Cloud Dataprep den Spaltentyp also fälschlicherweise als „Ganzzahl“ anstatt als „String“ identifiziert. Sie werden das Problem später in diesem Lab beheben.
v2ProductName
(Produktname) an: Welche Produkte sind am beliebtesten?Antwort: Nest-Produkte
v2ProductCategory
(Produktkategorie) an: Welche Produktkategorien sind am beliebtesten?Antworten:
Die beliebtesten Produktkategorien sind:
Nest
Taschen
(not set) – bedeutet, dass einige Sitzungen keiner Kategorie zugeordnet sind
Richtig oder falsch? Die häufigste productVariant
ist COLOR
.
Antwort: Falsch. Es ist (not set), da es für die meisten Produkte (über 80 %) keine Varianten gibt.
Antwort: PAGE
und EVENT
Beim Besuch Ihrer Website können verschiedene Nutzerinteraktionen erfasst werden, z. B. in Form von aufgezeichneten Sitzungsdaten beim Betrachten einer SEITE oder während eines besonderen EREIGNISSES wie beim Klicken auf ein Produkt. Es können zeitgleich mehrere Treffertypen ausgelöst werden. Um Doppelzählungen zu vermeiden, werden Sie daher häufig nach Typ filtern. Wir werden uns dies in einem späteren Lab näher ansehen.
productQuantity
(Produktmenge)?Antwort: 100 (Ihre Antwort kann abweichen)
productQuantity
gibt an, wie viele Einheiten eines Produkts in den Warenkorb gelegt wurden. Die Zahl 100 bedeutet, dass 100 Einheiten eines einzelnen Produkts hinzugefügt wurden.
currencyCode
(Währungscode) für Transaktionen?Antwort: USD (US-Dollar)
itemQuantity
(Artikelmenge) oder itemRevenue
(Artikelumsatz)?Antwort: Nein, alle Werte sind NULL
oder es sind keine Werte angegeben.
transactionId
(Transaktions-ID) sind gültig? Was bedeutet das für das ecommerce
-Dataset?eCommerceAction_type
(E-Commerce-Aktionstyp) gibt es und was ist der häufigste Wert?Antwort: In unserem Beispiel wurden sieben Werte gefunden. Der häufigste Wert ist 0
, was auf einen unbekannten Typ hinweist. Das ist logisch, da bei den meisten Websitzungen auf unserer Website keine E-Commerce-Aktionen durchgeführt werden und die Besucher sich nur auf der Website umsehen.
eCommerceAction_type = 6
laut dem Schema dar?eCommerceAction_type
und lesen Sie sich die Beschreibung für die Zuordnung durch.
Antwort: 6 ist „Abgeschlossener Kauf“ zugeordnet. Später in diesem Lab werden Sie diese Zuordnung in die Datenpipeline aufnehmen.
In dieser Aufgabe bereinigen Sie die Daten, indem Sie nicht verwendete Spalten löschen, doppelte Einträge entfernen, berechnete Felder erstellen und unerwünschte Zeilen herausfiltern.
Wie bereits erwähnt, werden Sie die Spalten itemQuantity und itemRevenue löschen, da sie nur NULL-Werte enthalten und daher für dieses Lab nicht nützlich sind.
Ihr Team hat Sie darüber informiert, dass im Quell-Dataset möglicherweise doppelte Sitzungswerte vorhanden sind. Sie können diese Werte durch eine Deduplizierung entfernen.
Klicken Sie im rechten Bereich auf Hinzufügen.
Sehen Sie sich das Schema an, das Sie bis jetzt erstellt haben. Es sollte in etwa so aussehen:
Ihr Team hat Sie gebeten, eine Tabelle mit allen Besuchersitzungen zu erstellen, aus denen der Kauf von mindestens einem Artikel auf der Website hervorgegangen ist. Sie müssen nun also Sitzungen mit dem Umsatz NULL herausfiltern.
Durch diesen Schritt werden im Dataset nur Transaktionen mit Umsatz berücksichtigt (bei denen der Wert für totalTransactionRevenue nicht NULL ist).
Das Dataset enthält Sitzungen verschiedener Typen, z. B. PAGE (für Seitenaufrufe) oder EVENT (für ausgelöste Ereignisse wie „angesehene Produktkategorien“ oder „in den Warenkorb gelegt“). Um zu vermeiden, dass Seitenaufrufe während einer Sitzung doppelt gezählt werden, verwenden Sie einen Filter, der nur auf Seitenaufrufe bezogene Treffer berücksichtigt.
Klicken Sie im Histogramm unter der Spalte Typ auf den Balken für PAGE. Alle Zeilen vom Typ PAGE sind jetzt grün markiert.
Klicken Sie im Bereich Vorschläge unter Zeilen behalten auf Hinzufügen.
Suchen Sie in der Schemadokumentation nach visitId und lesen Sie sich die zugehörige Beschreibung durch, um herauszufinden, ob die ID über alle Besuchersitzungen hinweg oder nur für den Besucher eindeutig ist.
visitId
: eine ID für diese Sitzung. Sie ist ein Teil des Werts, der normalerweise als utmb
-Cookie gespeichert wird, und nur für den Besucher eindeutig. Verwenden Sie für eine vollständig eindeutige ID eine Kombination aus „fullVisitorId“ (vollständige Besucher-ID) und „visitId“.Wie Sie sehen, ist visitId
nicht für alle Besucher eindeutig. Sie müssen also eine eindeutige ID erstellen.
Wie Sie festgestellt haben, enthält das Dataset keine separate Spalte für eine eindeutige Besuchersitzung. Eine eindeutige ID für jede Sitzung erstellen Sie, indem Sie die Felder fullVisitorId und visitId verketten.
Wählen Sie unter Spalten die Optionen fullVisitorId
und visitId
aus.
Geben Sie unter Trennzeichen einen Bindestrich ein: -
.
Geben Sie unter Neuer Spaltenname den Namen unique_session_id
ein.
Die unique_session_id
(eindeutige Sitzungs-ID) ist nun eine Kombination aus fullVisitorId
und visitId
. In einem nachfolgenden Lab werden Sie untersuchen, ob jede Zeile im Dataset die Ebene einer eindeutigen Sitzung (eine Zeile pro Besuchersitzung) oder eine noch detailliertere Ebene aufweist.
Wie Sie bereits gesehen haben, handelt es sich bei den Werten in der Spalte eCommerceAction_type
um Ganzzahlen, die den tatsächlichen E-Commerce-Aktionen entsprechen, die in dieser Sitzung ausgeführt wurden. Beispiel: 3 = „In den Warenkorb legen“ oder 5 = „Zur Kasse“. Diese Zuordnung ist für die Endnutzer nicht sofort ersichtlich. Deshalb erstellen Sie ein berechnetes Feld, das den Namen des Werts enthält.
Geben Sie unter Spalte zur Evaluierung eCommerceAction_type
an.
Klicken Sie unter Cases (1) achtmal auf Hinzufügen, sodass insgesamt neun Cases angezeigt werden.
Vergleich |
Neuer Wert |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Geben Sie unter Neuer Spaltenname den Namen eCommerceAction_label
ein. Behalten Sie in allen anderen Feldern die Standardwerte bei.
Klicken Sie auf Hinzufügen.
Wie im Schema erwähnt, enthält die Spalte totalTransactionRevenue Werte, die an Analytics übergeben und mit 10^6 multipliziert werden (z. B. würde 2,40 als 2.400.000 ausgegeben werden). Dividieren Sie die Inhalte dieser Spalte nun durch 10^6, um die ursprünglichen Werte zu erhalten.
DIVIDE(totalTransactionRevenue,1000000)
. Unter Neuer Spaltenname geben Sie totalTransactionRevenue1
ein. Sehen Sie sich die Vorschau für die Umwandlung an:totalTransactionRevenue1
ein roter Balken angezeigt. Klicken Sie rechts neben der Spalte totalTransactionRevenue1
auf Wählen Sie auf der Seite Job ausführen die Option Dataflow + BigQuery als Ausführungsumgebung aus.
Klicken Sie unter Veröffentlichungsaktionen rechts neben CSV erstellen auf Bearbeiten.
Wählen Sie auf der folgenden Seite links im Menü die Option BigQuery aus.
Wählen Sie das ecommerce-Dataset aus.
Klicken Sie im rechten Bereich auf Neue Tabelle erstellen.
Benennen Sie die Tabelle revenue_reporting.
Wählen Sie Tabelle bei jeder Ausführung löschen aus.
Klicken Sie auf Aktualisieren.
Klicken Sie auf AUSFÜHREN.
Sobald der Cloud Dataprep-Job abgeschlossen ist, aktualisieren Sie die BigQuery-Seite und überprüfen Sie, ob die Ausgabetabelle revenue_reporting existiert.
Klicken Sie auf Fortschritt prüfen.
Sie haben das ecommerce-Dataset untersucht und mit Cloud Dataprep eine Pipeline zur Datentransformation erstellt.
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 11. Februar 2024 aktualisiert
Lab zuletzt am 20. September 2023 getestet
© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.
Diese Inhalte sind derzeit nicht verfügbar
Bei Verfügbarkeit des Labs benachrichtigen wir Sie per E-Mail
Sehr gut!
Bei Verfügbarkeit kontaktieren wir Sie per E-Mail
One lab at a time
Confirm to end all existing labs and start this one