arrow_back

Eine Pipeline zur Datentransformation mit Cloud Dataprep erstellen

Anmelden Teilnehmen
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Eine Pipeline zur Datentransformation mit Cloud Dataprep erstellen

Lab 1 Stunde 15 Minuten universal_currency_alt 5 Guthabenpunkte show_chart Mittelstufe
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dieses Lab wurde mit unserem Partner Alteryx entwickelt. Ihre personenbezogenen Daten werden möglicherweise an Alteryx, den Lab-Sponsor, weitergegeben, wenn Sie in Ihrem Kontoprofil zugestimmt haben, Produktupdates, Mitteilungen und Angebote zu erhalten.

GSP430

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

Dataprep von Trifacta ist ein intelligenter Dienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von strukturierten und unstrukturierten Daten für die Analyse. In diesem Lab machen Sie sich mit der Benutzeroberfläche (UI) von Dataprep vertraut und erstellen eine Pipeline zur Datentransformation, die Ergebnisse in BigQuery ausgibt.

In diesem Lab arbeiten Sie in BigQuery mit einem ecommerce-Dataset, das Millionen von Google Analytics-Sitzungsdatensätzen des Google Merchandise Store enthält. Sie untersuchen die verfügbaren Felder und Zeilen und bereiten die Daten für die Analyse vor.

Aufgaben

Aufgaben in diesem Lab:

  • BigQuery-Datasets mit Dataprep verbinden
  • Dataset-Qualität mit Dataprep untersuchen
  • Pipeline zur Datentransformation mit Dataprep erstellen
  • Transformationsjobs ausführen und Ausgaben an BigQuery senden

Einrichtung und Anforderungen

Hinweis: Für dieses Lab müssen Sie Google Chrome verwenden. Andere Browser werden derzeit von Dataprep nicht unterstützt.

Sie sollten zuerst das Lab Mit Cloud Dataprep in Google Cloud arbeiten durchgehen, bevor Sie mit diesem Lab beginnen.

Vor dem Klick auf „Start Lab“ (Lab starten)

Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.

In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.

Für dieses Lab benötigen Sie Folgendes:

  • Einen Standardbrowser (empfohlen wird Chrome)
Hinweis: Nutzen Sie den privaten oder Inkognitomodus, um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
  • Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Hinweis: Wenn Sie über ein persönliches Google Cloud-Konto oder -Projekt verfügen, verwenden Sie es nicht für dieses Lab. So werden zusätzliche Kosten für Ihr Konto vermieden.

Lab starten und bei der Google Cloud Console anmelden

  1. Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Pop-up-Fenster geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich Details zum Lab mit diesen Informationen:

    • Schaltfläche Google Cloud Console öffnen
    • Restzeit
    • Temporäre Anmeldedaten für das Lab
    • Ggf. weitere Informationen für dieses Lab
  2. Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).

    Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite Anmelden geöffnet.

    Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.

    Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden.
  3. Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.

    {{{user_0.username | "Username"}}}

    Sie finden den Nutzernamen auch im Bereich Details zum Lab.

  4. Klicken Sie auf Weiter.

  5. Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.

    {{{user_0.password | "Password"}}}

    Sie finden das Passwort auch im Bereich Details zum Lab.

  6. Klicken Sie auf Weiter.

    Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos. Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen.
  7. Klicken Sie sich durch die nachfolgenden Seiten:

    • Akzeptieren Sie die Nutzungsbedingungen.
    • Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
    • Melden Sie sich nicht für kostenlose Testversionen an.

Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.

Hinweis: Wenn Sie sich eine Liste der Google Cloud-Produkte und ‑Dienste ansehen möchten, klicken Sie oben links auf das Navigationsmenü. Symbol für Navigationsmenü

Aufgabe 1: Dataprep in der Google Cloud Console öffnen

  1. Öffnen Sie Cloud Shell und führen Sie den folgenden Befehl aus:
gcloud beta services identity create --service=dataprep.googleapis.com

Sie sollten eine Meldung sehen, dass die Dienstidentität erstellt wurde.

  1. Wählen Sie in der Cloud Console im Navigationsmenü unter Analytics die Option Dataprep aus.

  2. Bevor Sie Dataprep öffnen können, müssen Sie bestätigen, dass Sie mit den Nutzungsbedingungen von Google Dataprep einverstanden sind, und dann auf Akzeptieren klicken.

  3. Klicken Sie auf das Kästchen und dann auf Zustimmen und fortfahren, wenn Sie dazu aufgefordert werden, Kontoinformationen für Alteryx freizugeben.

  4. Klicken Sie auf Zulassen, damit Alteryx auf Ihr Projekt zugreifen kann.

  5. Wählen Sie zum Anmelden Ihre Qwiklabs-Anmeldedaten aus und klicken Sie auf Zulassen.

  6. Klicken Sie auf das Kästchen und dann auf Akzeptieren, um den Nutzungsbedingungen von Alteryx zuzustimmen.

  7. Wenn Sie aufgefordert werden, den Standardspeicherort für den Storage-Bucket zu verwenden, klicken Sie auf Weiter.

Aufgabe 2: BigQuery-Dataset erstellen

Zwar liegt der Fokus dieses Labs vor allem auf Cloud Dataprep, Sie benötigen jedoch BigQuery als Endpunkt für die Aufnahme des Datasets in die Pipeline und als Ziel für die Ausgabe, wenn die Pipeline erstellt ist.

Datenfluss-Pipeline

  1. Klicken Sie in der Cloud Console im Navigationsmenü auf BigQuery.

  2. Zuerst wird das Fenster Willkommen bei BigQuery in der Cloud Console geöffnet, das einen Link zur Kurzanleitung und Informationen zu Aktualisierungen der Benutzeroberfläche enthält.

  3. Klicken Sie auf Fertig.

  4. Wählen Sie im Bereich Explorer den Namen Ihres Projekts aus:

Bereich „Explorer“

  1. Klicken Sie im linken Bereich unter Explorer auf das Symbol Aktionen ansehen (Symbol „Aktionen ansehen“), das sich rechts neben Ihrer Projekt-ID befindet. Klicken Sie dann auf Dataset erstellen.
  • Geben Sie für Dataset-ID ecommerce ein.
  • Übernehmen Sie für alle anderen Werte die Standardeinstellung.
  1. Klicken Sie auf DATASET ERSTELLEN. Sie sehen jetzt das Dataset unter Ihrem Projekt im linken Bereich.

  2. Kopieren Sie die folgende SQL-Abfrage und fügen Sie sie in den Abfrageeditor ein:

#standardSQL CREATE OR REPLACE TABLE ecommerce.all_sessions_raw_dataprep OPTIONS( description="Raw data from analyst team to ingest into Cloud Dataprep" ) AS SELECT * FROM `data-to-insights.ecommerce.all_sessions_raw` WHERE date = '20170801'; # limiting to one day of data 56k rows for this lab
  1. Klicken Sie auf AUSFÜHREN. Mit dieser Abfrage wird eine Teilmenge des öffentlichen ecommerce-Roh-Datasets (entspricht Sitzungsdaten eines Tages oder ca. 56.000 Datensätzen) in eine neue Tabelle mit dem Namen all_sessions_raw_dataprep kopiert. Die Tabelle wurde dem ecommerce-Dataset hinzugefügt, damit Sie Daten in Cloud Dataprep untersuchen und bereinigen können.

  2. Überprüfen Sie, ob die neue Tabelle Ihrem E-Commerce-Dataset hinzugefügt wurde:

Aufgabe 3: BigQuery-Daten mit Cloud Dataprep verbinden

In dieser Aufgabe verbinden Sie Cloud Dataprep mit der BigQuery-Datenquelle. Gehen Sie auf der Cloud Dataprep-Seite so vor:

  1. Klicken Sie rechts oben auf Ablauf erstellen.

  2. Benennen Sie den unbenannten Ablauf um und geben Sie folgende Details an:

  • Unter Ablaufname: Ecommerce Analytics Pipeline
  • Unter Ablaufbeschreibung: Revenue reporting table
  1. Klicken Sie auf OK.

  2. Wenn das Pop-up Was ist ein Ablauf? angezeigt wird, wählen Sie Keine Assistenten anzeigen aus.

  3. Klicken Sie im Kästchen „Dataset“ auf das Symbol Hinzufügen.

Symbol „Hinzufügen“ hervorgehoben

  1. Wählen Sie im Dialogfeld Datasets zum Ablauf hinzufügen die Option Datasets importieren aus.

  2. Klicken Sie im linken Bereich auf BigQuery.

  3. Wenn das ecommerce-Dataset geladen ist, klicken Sie darauf.

ecommerce-Dataset hervorgehoben

  1. Klicken Sie links von der Tabelle all_sessions_raw_dataprep auf das Symbol für Dataset erstellen („+“-Zeichen).

  2. Klicken Sie rechts unten auf Import & Add to Flow (Importieren und zu Ablauf hinzufügen).

Die Datenquelle wird automatisch aktualisiert. Sie können jetzt mit der nächsten Aufgabe fortfahren.

Aufgabe 4: ecommerce-Datenfelder in der UI untersuchen

In dieser Aufgabe laden und untersuchen Sie eine Stichprobe des Datasets in Cloud Dataprep.

  • Klicken Sie auf das Symbol für Schema und wählen Sie dann Schema bearbeiten aus.

Symbol „Schema“ und Schaltfläche „Schema bearbeiten“ hervorgehoben

Cloud Dataprep lädt eine Stichprobe des Datasets in die Transformer-Ansicht. Dieser Vorgang kann einige Sekunden dauern. Anschließend können Sie die Daten untersuchen.

Beantworten Sie folgende Fragen:

  • Wie viele Spalten enthält das Dataset?

Dataset

Antwort: 32 Spalten

  • Wie viele Zeilen enthält die Stichprobe?

Dataset

Antwort: Etwa 12.000 Zeilen

  • Was ist der häufigste Wert in der Spalte channelGrouping?
Tipp: Halten Sie den Mauszeiger über das Histogramm unter der Spaltenüberschrift channelGrouping.

Spalte „channelGrouping“

Antwort: Verweis. Eine verweisende Seite ist normalerweise eine andere Website, die einen Link zu Ihrer Website enthält. Ein Beispiel wäre eine Website, auf der ein Produkt auf unserer E-Commerce-Website bewertet und verlinkt wurde. Dies wird als ein anderer Akquisekanal erfasst als eine Suchmaschine, über die Besucher auf die Seite gelangen.

Hinweis: Wenn Sie nach einer bestimmten Spalte suchen, klicken Sie rechts oben auf das Symbol Spalte suchen (Symbol „Spalte suchen“). Beginnen Sie dann mit der Eingabe des Spaltennamens in das Textfeld Spalte suchen und klicken Sie auf den Spaltennamen. Dadurch wird die Spalte automatisch auf dem Bildschirm angezeigt.
  • In welchen drei Ländern wurden die meisten Sitzungen gestartet?

Länder-Dataset

Antwort: USA, Indien, Vereinigtes Königreich

  • Was bedeutet der graue Balken unter totalTransactionRevenue (Gesamtumsatz aus Transaktionen)?

Balken „totalTransactionRevenue“

Antwort: Fehlende Werte für das Feld totalTransactionRevenue. Das bedeutet, dass bei vielen Sitzungen in dieser Stichprobe kein Umsatz generiert wurde. Später werden Sie diese Werte herausfiltern, sodass die endgültige Tabelle nur Kundentransaktionen und damit verbundene Umsätze enthält.

  • Was ist die maximale timeOnSite (Zeit auf der Website) in Sekunden, die maximale Anzahl an pageviews (Seitenaufrufen) und die maximale Punktzahl für sessionQualityDim (Dimension „Sitzungsqualität“) in der Stichprobe? (Tipp: Klicken Sie rechts neben der Spalte timeOnSite auf Drop-down-Pfeil und dann auf Spaltendetails.)

Datasets für „timeOnSite“ und maximale Anzahl an „pageviews“

Übersichtsseite „timeOnSite“ mit Tabs

Um das Fenster mit den Details zu schließen, klicken Sie rechts oben auf die Schaltfläche Spaltendetails schließen (X). Wiederholen Sie dann den Vorgang, um eine Detailansicht zu den Spalten pageviews und sessionQualityDim zu erhalten.

Schaltfläche „Schließen“

Antworten:

  • Maximale Zeit auf der Website: 5.561 Sekunden (oder 92 Minuten)
  • Maximale Anzahl Seitenaufrufe: 155 Seiten
  • Maximale Punktzahl in Bezug auf die Dimension „Sitzungsqualität“: 97
Hinweis: Ihre Antworten zu den Maximalwerten können aufgrund der von Cloud Dataprep verwendeten Stichprobe leicht abweichen. Hinweis zu Durchschnittswerten: Seien Sie besonders vorsichtig, wenn Sie Aggregationen wie Durchschnittswerte für eine gesamte Spalte vornehmen. Achten Sie darauf, dass Felder wie timeOnSite nur einmal pro Sitzung gezählt werden. Auf die Eindeutigkeit von Besucher‑ und Sitzungsdaten werden wir in einem späteren Lab eingehen.
  • Sehen Sie sich das Histogramm für sessionQualityDim an: Sind die Datenwerte gleichmäßig verteilt?

Histogramm „sessionQualityDim“

Antwort: Nein, es sind mehr niedrige Werte (Sitzungen von geringer Qualität) vorhanden, was auch zu erwarten war.

  • Auf welchen Zeitraum ist das Dataset begrenzt? Tipp: Schauen Sie sich das Feld date (Datum) an.

Antwort: 1.8.2017 (entspricht Daten von einem Tag)

  • Möglicherweise sehen Sie unter der Spalte productSKU (Produktartikelnummer) einen roten Balken. Wenn ja, was könnte das bedeuten?

Spalte „productSKU“

Antwort: Ein roter Balken zeigt nicht übereinstimmende Werte an. Beim Erfassen von Daten versucht Cloud Dataprep, den Typ jeder Spalte automatisch zu identifizieren. Wenn Sie unter der Spalte productSKU keinen roten Balken sehen, bedeutet dies, dass Cloud Dataprep den Typ für die Spalte (d. h. den Typ „String“) korrekt identifiziert hat. Falls ein roter Balken zu sehen ist, bedeutet das, dass Cloud Dataprep genügend Zahlenwerte gefunden hat, um (fälschlicherweise) zu bestimmen, dass der Typ „Ganzzahl“ sein sollte. Cloud Dataprep hat auch einige nicht ganzzahlige Werte erkannt und diese Werte daher als nicht übereinstimmend gekennzeichnet. Tatsächlich ist der Wert für productSKU nicht immer ganzzahlig (z. B. könnte ein korrekter Wert auch "GGOEGOCD078399" lauten). In diesem Fall hat Cloud Dataprep den Spaltentyp also fälschlicherweise als „Ganzzahl“ anstatt als „String“ identifiziert. Sie werden das Problem später in diesem Lab beheben.

  • Sehen Sie sich die Spalte v2ProductName (Produktname) an: Welche Produkte sind am beliebtesten?

Spalte „v2ProductName“

Antwort: Nest-Produkte

  • Sehen Sie sich die Spalte v2ProductCategory (Produktkategorie) an: Welche Produktkategorien sind am beliebtesten?

Spalte „v2ProductCategory“

Antworten:

Die beliebtesten Produktkategorien sind:

  • Nest

  • Taschen

  • (not set) – bedeutet, dass einige Sitzungen keiner Kategorie zugeordnet sind

  • Richtig oder falsch? Die häufigste productVariant ist COLOR.

Antwort: Falsch. Es ist (not set), da es für die meisten Produkte (über 80 %) keine Varianten gibt.

  • Wie lauten die zwei Werte in der Spalte type (Typ)?

Antwort: PAGE und EVENT

Beim Besuch Ihrer Website können verschiedene Nutzerinteraktionen erfasst werden, z. B. in Form von aufgezeichneten Sitzungsdaten beim Betrachten einer SEITE oder während eines besonderen EREIGNISSES wie beim Klicken auf ein Produkt. Es können zeitgleich mehrere Treffertypen ausgelöst werden. Um Doppelzählungen zu vermeiden, werden Sie daher häufig nach Typ filtern. Wir werden uns dies in einem späteren Lab näher ansehen.

  • Wie hoch ist die maximale productQuantity (Produktmenge)?

Antwort: 100 (Ihre Antwort kann abweichen)

productQuantity gibt an, wie viele Einheiten eines Produkts in den Warenkorb gelegt wurden. Die Zahl 100 bedeutet, dass 100 Einheiten eines einzelnen Produkts hinzugefügt wurden.

  • Was ist der häufigste currencyCode (Währungscode) für Transaktionen?

Antwort: USD (US-Dollar)

  • Gibt es gültige Werte für itemQuantity (Artikelmenge) oder itemRevenue (Artikelumsatz)?

Antwort: Nein, alle Werte sind NULL oder es sind keine Werte angegeben.

Hinweis: Nach der Untersuchung der Daten finden Sie in einigen Datasets möglicherweise doppelte oder verworfene Spalten. Um die Nutzer nicht zu verwirren, werden wir später in diesem Lab die Felder „productQuantity“ und „productRevenue“ verwenden und die Felder „itemQuantity“ und „itemRevenue“ verwerfen.
  • Wie viel % der Werte für die transactionId (Transaktions-ID) sind gültig? Was bedeutet das für das ecommerce-Dataset?

Übersichtsseite „transactionId“

  • Antwort: Ca. 4,6 % der Transaktions-IDs haben einen gültigen Wert. Das bedeutet, dass die durchschnittliche Conversion-Rate der Website – d. h. der Anteil der Besucher, die eine Transaktion durchführen – 4,6 % beträgt.
  • Wie viele Werte für eCommerceAction_type (E-Commerce-Aktionstyp) gibt es und was ist der häufigste Wert?
Tipp: Zählen Sie die Spalten im Histogramm.

Werte „eCommerceAction_type“

Antwort: In unserem Beispiel wurden sieben Werte gefunden. Der häufigste Wert ist 0, was auf einen unbekannten Typ hinweist. Das ist logisch, da bei den meisten Websitzungen auf unserer Website keine E-Commerce-Aktionen durchgeführt werden und die Besucher sich nur auf der Website umsehen.

  • Was stellt eCommerceAction_type = 6 laut dem Schema dar?
Tipp: Suchen Sie nach eCommerceAction_type und lesen Sie sich die Beschreibung für die Zuordnung durch.

Antwort: 6 ist „Abgeschlossener Kauf“ zugeordnet. Später in diesem Lab werden Sie diese Zuordnung in die Datenpipeline aufnehmen.

STRING „commerceAction.action_type“

Aufgabe 5: Daten bereinigen

In dieser Aufgabe bereinigen Sie die Daten, indem Sie nicht verwendete Spalten löschen, doppelte Einträge entfernen, berechnete Felder erstellen und unerwünschte Zeilen herausfiltern.

Den Spaltendatentyp „productSKU“ umwandeln

  1. Um den Spaltentyp productSKU als String-Datentyp zu definieren, klicken Sie rechts neben der Spalte productSKU auf Drop-down-Pfeil und dann auf Typ ändern > String.

productSKU > Typ ändern > String

  1. Um zu überprüfen, ob der erste Schritt in der Pipeline zur Datentransformation erstellt wurde, klicken Sie auf das Symbol für Schema:

Symbol „Schema“

Hinweis: Wenn Sie sehen, dass das Schema gesperrt ist, wählen Sie das Schema aus, klicken Sie auf „Bearbeiten“ und entfernen Sie das Häkchen für die Option zum Sperren des Spaltentyps.

Nicht verwendete Spalten löschen

Wie bereits erwähnt, werden Sie die Spalten itemQuantity und itemRevenue löschen, da sie nur NULL-Werte enthalten und daher für dieses Lab nicht nützlich sind.

  1. Öffnen Sie das Menü für itemQuantity und klicken Sie dann auf Löschen.

Spalte „itemQuantity“ mit Menüoption „Löschen“ hervorgehoben

  1. Wiederholen Sie den Vorgang für die Spalte itemRevenue.

Zeilen deduplizieren

Ihr Team hat Sie darüber informiert, dass im Quell-Dataset möglicherweise doppelte Sitzungswerte vorhanden sind. Sie können diese Werte durch eine Deduplizierung entfernen.

  1. Klicken Sie auf das Symbol für das Filtern von Zeilen in der Symbolleiste und dann auf Doppelte Zeilen entfernen.

Drop-down-Menü „Zeilen filtern“ mit Option „Doppelte Zeilen entfernen“ hervorgehoben

  1. Klicken Sie im rechten Bereich auf Hinzufügen.

  2. Sehen Sie sich das Schema an, das Sie bis jetzt erstellt haben. Es sollte in etwa so aussehen:

Schema mit vier Schritten

Sitzungen ohne Umsatzgenerierung herausfiltern

Ihr Team hat Sie gebeten, eine Tabelle mit allen Besuchersitzungen zu erstellen, aus denen der Kauf von mindestens einem Artikel auf der Website hervorgegangen ist. Sie müssen nun also Sitzungen mit dem Umsatz NULL herausfiltern.

  1. Klicken Sie unter der Spalte totalTransactionRevenue (Gesamtumsatz aus Transaktionen) auf den grauen Balken, der Missing values (Fehlende Werte) anzeigt. Alle Zeilen mit fehlenden Werten für totalTransactionRevenue sind nun rot markiert.
  2. Klicken Sie im Bereich Vorschläge unter Zeilen löschen auf Hinzufügen.

Bereich „Vorschläge“

Durch diesen Schritt werden im Dataset nur Transaktionen mit Umsatz berücksichtigt (bei denen der Wert für totalTransactionRevenue nicht NULL ist).

Sitzungen nach Seitenaufrufen filtern

Das Dataset enthält Sitzungen verschiedener Typen, z. B. PAGE (für Seitenaufrufe) oder EVENT (für ausgelöste Ereignisse wie „angesehene Produktkategorien“ oder „in den Warenkorb gelegt“). Um zu vermeiden, dass Seitenaufrufe während einer Sitzung doppelt gezählt werden, verwenden Sie einen Filter, der nur auf Seitenaufrufe bezogene Treffer berücksichtigt.

  1. Klicken Sie im Histogramm unter der Spalte Typ auf den Balken für PAGE. Alle Zeilen vom Typ PAGE sind jetzt grün markiert.

  2. Klicken Sie im Bereich Vorschläge unter Zeilen behalten auf Hinzufügen.

Aufgabe 6: Daten anreichern

Suchen Sie in der Schemadokumentation nach visitId und lesen Sie sich die zugehörige Beschreibung durch, um herauszufinden, ob die ID über alle Besuchersitzungen hinweg oder nur für den Besucher eindeutig ist.

  • visitId: eine ID für diese Sitzung. Sie ist ein Teil des Werts, der normalerweise als utmb-Cookie gespeichert wird, und nur für den Besucher eindeutig. Verwenden Sie für eine vollständig eindeutige ID eine Kombination aus „fullVisitorId“ (vollständige Besucher-ID) und „visitId“.

Wie Sie sehen, ist visitId nicht für alle Besucher eindeutig. Sie müssen also eine eindeutige ID erstellen.

Eine neue Spalte für eine eindeutige Sitzungs-ID erstellen

Wie Sie festgestellt haben, enthält das Dataset keine separate Spalte für eine eindeutige Besuchersitzung. Eine eindeutige ID für jede Sitzung erstellen Sie, indem Sie die Felder fullVisitorId und visitId verketten.

  1. Klicken Sie in der Symbolleiste auf das Symbol für Spalten zusammenführen.

Symbol „Spalten zusammenführen“

  1. Wählen Sie unter Spalten die Optionen fullVisitorId und visitId aus.

  2. Geben Sie unter Trennzeichen einen Bindestrich ein: -.

  3. Geben Sie unter Neuer Spaltenname den Namen unique_session_id ein.

Bereich „Spalten zusammenführen“

  1. Klicken Sie auf Hinzufügen.

Die unique_session_id (eindeutige Sitzungs-ID) ist nun eine Kombination aus fullVisitorId und visitId. In einem nachfolgenden Lab werden Sie untersuchen, ob jede Zeile im Dataset die Ebene einer eindeutigen Sitzung (eine Zeile pro Besuchersitzung) oder eine noch detailliertere Ebene aufweist.

Eine Case-Anweisung für den E-Commerce-Aktionstyp erstellen

Wie Sie bereits gesehen haben, handelt es sich bei den Werten in der Spalte eCommerceAction_type um Ganzzahlen, die den tatsächlichen E-Commerce-Aktionen entsprechen, die in dieser Sitzung ausgeführt wurden. Beispiel: 3 = „In den Warenkorb legen“ oder 5 = „Zur Kasse“. Diese Zuordnung ist für die Endnutzer nicht sofort ersichtlich. Deshalb erstellen Sie ein berechnetes Feld, das den Namen des Werts enthält.

  1. Klicken Sie in der Symbolleiste auf Bedingungen und dann auf Case-Anweisung für einzelne Spalte.

Drop-down-Menü „Bedingungen“ mit Option „Case-Anweisung für einzelne Spalte“ hervorgehoben

  1. Geben Sie unter Spalte zur Evaluierung eCommerceAction_type an.

  2. Klicken Sie unter Cases (1) achtmal auf Hinzufügen, sodass insgesamt neun Cases angezeigt werden.

Abschnitt „Bedingungen“

  1. Geben Sie für jeden Case die folgenden Zuordnungswerte (einschließlich der einfachen Anführungszeichen) an:

Vergleich

Neuer Wert

0

'Unknown'

1

'Click through of product lists'

2

'Product detail views'

3

'Add product(s) to cart'

4

'Remove product(s) from cart'

5

'Check out'

6

'Completed purchase'

7

'Refund of purchase'

8

'Checkout options'

Bereich „Bedingungen“ mit einer Vorschau der evaluierten Spalte „eCommerceAction_type“

  1. Geben Sie unter Neuer Spaltenname den Namen eCommerceAction_label ein. Behalten Sie in allen anderen Feldern die Standardwerte bei.

  2. Klicken Sie auf Hinzufügen.

Werte in der Spalte „totalTransactionRevenue“ anpassen

Wie im Schema erwähnt, enthält die Spalte totalTransactionRevenue Werte, die an Analytics übergeben und mit 10^6 multipliziert werden (z. B. würde 2,40 als 2.400.000 ausgegeben werden). Dividieren Sie die Inhalte dieser Spalte nun durch 10^6, um die ursprünglichen Werte zu erhalten.

  1. Klicken Sie rechts neben der Spalte totalTransactionRevenue auf Drop-down-Pfeil und wählen Sie dann Berechnen > Benutzerdefinierte Formel aus.

„Benutzerdefinierte Formel“ hervorgehoben

  1. Geben Sie unter Formel Folgendes ein: DIVIDE(totalTransactionRevenue,1000000). Unter Neuer Spaltenname geben Sie totalTransactionRevenue1 ein. Sehen Sie sich die Vorschau für die Umwandlung an:

Vorschau

  1. Klicken Sie auf Hinzufügen.
Hinweis: Möglicherweise wird unter der Spalte totalTransactionRevenue1 ein roter Balken angezeigt. Klicken Sie rechts neben der Spalte totalTransactionRevenue1 auf 93c14cbf1f70a561.png und dann auf Typ ändern > Dezimal.
  1. Im folgenden Schema können Sie sich noch einmal alle Schritte ansehen:

Vollständiges Schema

  1. Klicken Sie jetzt auf Ausführen.

Aufgabe 7: Cloud Dataprep-Jobs in BigQuery ausführen

  1. Wählen Sie auf der Seite Job ausführen die Option Dataflow + BigQuery als Ausführungsumgebung aus.

  2. Klicken Sie unter Veröffentlichungsaktionen rechts neben CSV erstellen auf Bearbeiten.

  3. Wählen Sie auf der folgenden Seite links im Menü die Option BigQuery aus.

  4. Wählen Sie das ecommerce-Dataset aus.

  5. Klicken Sie im rechten Bereich auf Neue Tabelle erstellen.

  6. Benennen Sie die Tabelle revenue_reporting.

  7. Wählen Sie Tabelle bei jeder Ausführung löschen aus.

  8. Klicken Sie auf Aktualisieren.

  9. Klicken Sie auf AUSFÜHREN.

Sobald der Cloud Dataprep-Job abgeschlossen ist, aktualisieren Sie die BigQuery-Seite und überprüfen Sie, ob die Ausgabetabelle revenue_reporting existiert.

Hinweis: Wenn der Job fehlschlägt, warten Sie eine Minute, klicken Sie im Browser auf die Schaltfläche „Zurück“ und führen Sie den Job mit denselben Einstellungen noch einmal aus.

Klicken Sie auf Fortschritt prüfen. Überprüfen, ob die Cloud Dataprep-Jobs die Daten an BigQuery ausgeben

Das wars! Sie haben das Lab erfolgreich abgeschlossen.

Sie haben das ecommerce-Dataset untersucht und mit Cloud Dataprep eine Pipeline zur Datentransformation erstellt.

Weitere Informationen

Google Cloud-Schulungen und -Zertifizierungen

In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.

Anleitung zuletzt am 11. Februar 2024 aktualisiert

Lab zuletzt am 20. September 2023 getestet

© 2024 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.