Prüfpunkte
Run Cloud Dataprep jobs to BigQuery
/ 100
Eine Pipeline zur Datentransformation mit Cloud Dataprep erstellen
- GSP430
- Übersicht
- Einrichtung und Anforderungen
- Aufgabe 1: Dataprep in der Google Cloud Console öffnen
- Aufgabe 2: BigQuery-Dataset erstellen
- Aufgabe 3: BigQuery-Daten mit Cloud Dataprep verbinden
- Aufgabe 4: ecommerce-Datenfelder in der UI untersuchen
- Aufgabe 5: Daten bereinigen
- Aufgabe 6: Daten anreichern
- Aufgabe 7: Cloud Dataprep-Jobs in BigQuery ausführen
- Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Dieses Lab wurde mit unserem Partner Alteryx entwickelt. Ihre personenbezogenen Daten werden möglicherweise an Alteryx, den Lab-Sponsor, weitergegeben, wenn Sie in Ihrem Kontoprofil zugestimmt haben, Produktupdates, Mitteilungen und Angebote zu erhalten.
GSP430
Übersicht
Dataprep von Trifacta ist ein intelligenter Dienst für die visuelle Untersuchung, Bereinigung und Vorbereitung von strukturierten und unstrukturierten Daten für die Analyse. In diesem Lab machen Sie sich mit der Benutzeroberfläche (UI) von Dataprep vertraut und erstellen eine Pipeline zur Datentransformation, die Ergebnisse in BigQuery ausgibt.
In diesem Lab arbeiten Sie in BigQuery mit einem ecommerce-Dataset, das Millionen von Google Analytics-Sitzungsdatensätzen des Google Merchandise Store enthält. Sie untersuchen die verfügbaren Felder und Zeilen und bereiten die Daten für die Analyse vor.
Aufgaben
Aufgaben in diesem Lab:
- BigQuery-Datasets mit Dataprep verbinden
- Dataset-Qualität mit Dataprep untersuchen
- Pipeline zur Datentransformation mit Dataprep erstellen
- Transformationsjobs ausführen und Ausgaben an BigQuery senden
Einrichtung und Anforderungen
Sie sollten zuerst das Lab Mit Cloud Dataprep in Google Cloud arbeiten durchgehen, bevor Sie mit diesem Lab beginnen.
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
- Einen Standardbrowser (empfohlen wird Chrome)
- Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Lab starten und bei der Google Cloud Console anmelden
-
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Pop-up-Fenster geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich Details zum Lab mit diesen Informationen:
- Schaltfläche Google Cloud Console öffnen
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
-
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite Anmelden geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden. -
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}} Sie finden den Nutzernamen auch im Bereich Details zum Lab.
-
Klicken Sie auf Weiter.
-
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}} Sie finden das Passwort auch im Bereich Details zum Lab.
-
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos. Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen. -
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Aufgabe 1: Dataprep in der Google Cloud Console öffnen
- Öffnen Sie Cloud Shell und führen Sie den folgenden Befehl aus:
Sie sollten eine Meldung sehen, dass die Dienstidentität erstellt wurde.
-
Wählen Sie in der Cloud Console im Navigationsmenü unter Analytics die Option Dataprep aus.
-
Bevor Sie Dataprep öffnen können, müssen Sie bestätigen, dass Sie mit den Nutzungsbedingungen von Google Dataprep einverstanden sind, und dann auf Akzeptieren klicken.
-
Klicken Sie auf das Kästchen und dann auf Zustimmen und fortfahren, wenn Sie dazu aufgefordert werden, Kontoinformationen für Alteryx freizugeben.
-
Klicken Sie auf Zulassen, damit Alteryx auf Ihr Projekt zugreifen kann.
-
Wählen Sie zum Anmelden Ihre Qwiklabs-Anmeldedaten aus und klicken Sie auf Zulassen.
-
Klicken Sie auf das Kästchen und dann auf Akzeptieren, um den Nutzungsbedingungen von Alteryx zuzustimmen.
-
Wenn Sie aufgefordert werden, den Standardspeicherort für den Storage-Bucket zu verwenden, klicken Sie auf Weiter.
Aufgabe 2: BigQuery-Dataset erstellen
Zwar liegt der Fokus dieses Labs vor allem auf Cloud Dataprep, Sie benötigen jedoch BigQuery als Endpunkt für die Aufnahme des Datasets in die Pipeline und als Ziel für die Ausgabe, wenn die Pipeline erstellt ist.
-
Klicken Sie in der Cloud Console im Navigationsmenü auf BigQuery.
-
Zuerst wird das Fenster Willkommen bei BigQuery in der Cloud Console geöffnet, das einen Link zur Kurzanleitung und Informationen zu Aktualisierungen der Benutzeroberfläche enthält.
-
Klicken Sie auf Fertig.
-
Wählen Sie im Bereich Explorer den Namen Ihres Projekts aus:
- Klicken Sie im linken Bereich unter Explorer auf das Symbol Aktionen ansehen (), das sich rechts neben Ihrer Projekt-ID befindet. Klicken Sie dann auf Dataset erstellen.
- Geben Sie für Dataset-ID
ecommerce
ein. - Übernehmen Sie für alle anderen Werte die Standardeinstellung.
-
Klicken Sie auf DATASET ERSTELLEN. Sie sehen jetzt das Dataset unter Ihrem Projekt im linken Bereich.
-
Kopieren Sie die folgende SQL-Abfrage und fügen Sie sie in den Abfrageeditor ein:
-
Klicken Sie auf AUSFÜHREN. Mit dieser Abfrage wird eine Teilmenge des öffentlichen ecommerce-Roh-Datasets (entspricht Sitzungsdaten eines Tages oder ca. 56.000 Datensätzen) in eine neue Tabelle mit dem Namen
all_sessions_raw_dataprep
kopiert. Die Tabelle wurde dem ecommerce-Dataset hinzugefügt, damit Sie Daten in Cloud Dataprep untersuchen und bereinigen können. -
Überprüfen Sie, ob die neue Tabelle Ihrem
E-Commerce
-Dataset hinzugefügt wurde:
Aufgabe 3: BigQuery-Daten mit Cloud Dataprep verbinden
In dieser Aufgabe verbinden Sie Cloud Dataprep mit der BigQuery-Datenquelle. Gehen Sie auf der Cloud Dataprep-Seite so vor:
-
Klicken Sie rechts oben auf Ablauf erstellen.
-
Benennen Sie den unbenannten Ablauf um und geben Sie folgende Details an:
- Unter Ablaufname:
Ecommerce Analytics Pipeline
- Unter Ablaufbeschreibung:
Revenue reporting table
-
Klicken Sie auf OK.
-
Wenn das Pop-up
Was ist ein Ablauf?
angezeigt wird, wählen Sie Keine Assistenten anzeigen aus. -
Klicken Sie im Kästchen „Dataset“ auf das Symbol Hinzufügen.
-
Wählen Sie im Dialogfeld Datasets zum Ablauf hinzufügen die Option Datasets importieren aus.
-
Klicken Sie im linken Bereich auf BigQuery.
-
Wenn das ecommerce-Dataset geladen ist, klicken Sie darauf.
-
Klicken Sie links von der Tabelle
all_sessions_raw_dataprep
auf das Symbol für Dataset erstellen („+“-Zeichen). -
Klicken Sie rechts unten auf Import & Add to Flow (Importieren und zu Ablauf hinzufügen).
Die Datenquelle wird automatisch aktualisiert. Sie können jetzt mit der nächsten Aufgabe fortfahren.
Aufgabe 4: ecommerce-Datenfelder in der UI untersuchen
In dieser Aufgabe laden und untersuchen Sie eine Stichprobe des Datasets in Cloud Dataprep.
- Klicken Sie auf das Symbol für Schema und wählen Sie dann Schema bearbeiten aus.
Cloud Dataprep lädt eine Stichprobe des Datasets in die Transformer-Ansicht. Dieser Vorgang kann einige Sekunden dauern. Anschließend können Sie die Daten untersuchen.
Beantworten Sie folgende Fragen:
- Wie viele Spalten enthält das Dataset?
Antwort: 32 Spalten
- Wie viele Zeilen enthält die Stichprobe?
Antwort: Etwa 12.000 Zeilen
- Was ist der häufigste Wert in der Spalte
channelGrouping
?
channelGrouping
.
Antwort: Verweis. Eine verweisende Seite ist normalerweise eine andere Website, die einen Link zu Ihrer Website enthält. Ein Beispiel wäre eine Website, auf der ein Produkt auf unserer E-Commerce-Website bewertet und verlinkt wurde. Dies wird als ein anderer Akquisekanal erfasst als eine Suchmaschine, über die Besucher auf die Seite gelangen.
- In welchen drei Ländern wurden die meisten Sitzungen gestartet?
Antwort: USA, Indien, Vereinigtes Königreich
- Was bedeutet der graue Balken unter totalTransactionRevenue (Gesamtumsatz aus Transaktionen)?
Antwort: Fehlende Werte für das Feld totalTransactionRevenue
. Das bedeutet, dass bei vielen Sitzungen in dieser Stichprobe kein Umsatz generiert wurde. Später werden Sie diese Werte herausfiltern, sodass die endgültige Tabelle nur Kundentransaktionen und damit verbundene Umsätze enthält.
- Was ist die maximale
timeOnSite
(Zeit auf der Website) in Sekunden, die maximale Anzahl anpageviews
(Seitenaufrufen) und die maximale Punktzahl fürsessionQualityDim
(Dimension „Sitzungsqualität“) in der Stichprobe? (Tipp: Klicken Sie rechts neben der SpaltetimeOnSite
auf und dann auf Spaltendetails.)
Um das Fenster mit den Details zu schließen, klicken Sie rechts oben auf die Schaltfläche Spaltendetails schließen (X). Wiederholen Sie dann den Vorgang, um eine Detailansicht zu den Spalten pageviews
und sessionQualityDim
zu erhalten.
Antworten:
- Maximale Zeit auf der Website: 5.561 Sekunden (oder 92 Minuten)
- Maximale Anzahl Seitenaufrufe: 155 Seiten
- Maximale Punktzahl in Bezug auf die Dimension „Sitzungsqualität“: 97
timeOnSite
nur einmal pro Sitzung gezählt werden. Auf die Eindeutigkeit von Besucher‑ und Sitzungsdaten werden wir in einem späteren Lab eingehen.
- Sehen Sie sich das Histogramm für
sessionQualityDim
an: Sind die Datenwerte gleichmäßig verteilt?
Antwort: Nein, es sind mehr niedrige Werte (Sitzungen von geringer Qualität) vorhanden, was auch zu erwarten war.
- Auf welchen Zeitraum ist das Dataset begrenzt? Tipp: Schauen Sie sich das Feld date (Datum) an.
Antwort: 1.8.2017 (entspricht Daten von einem Tag)
- Möglicherweise sehen Sie unter der Spalte
productSKU
(Produktartikelnummer) einen roten Balken. Wenn ja, was könnte das bedeuten?
Antwort: Ein roter Balken zeigt nicht übereinstimmende Werte an. Beim Erfassen von Daten versucht Cloud Dataprep, den Typ jeder Spalte automatisch zu identifizieren. Wenn Sie unter der Spalte productSKU
keinen roten Balken sehen, bedeutet dies, dass Cloud Dataprep den Typ für die Spalte (d. h. den Typ „String“) korrekt identifiziert hat. Falls ein roter Balken zu sehen ist, bedeutet das, dass Cloud Dataprep genügend Zahlenwerte gefunden hat, um (fälschlicherweise) zu bestimmen, dass der Typ „Ganzzahl“ sein sollte. Cloud Dataprep hat auch einige nicht ganzzahlige Werte erkannt und diese Werte daher als nicht übereinstimmend gekennzeichnet. Tatsächlich ist der Wert für productSKU
nicht immer ganzzahlig (z. B. könnte ein korrekter Wert auch "GGOEGOCD078399" lauten). In diesem Fall hat Cloud Dataprep den Spaltentyp also fälschlicherweise als „Ganzzahl“ anstatt als „String“ identifiziert. Sie werden das Problem später in diesem Lab beheben.
- Sehen Sie sich die Spalte
v2ProductName
(Produktname) an: Welche Produkte sind am beliebtesten?
Antwort: Nest-Produkte
- Sehen Sie sich die Spalte
v2ProductCategory
(Produktkategorie) an: Welche Produktkategorien sind am beliebtesten?
Antworten:
Die beliebtesten Produktkategorien sind:
-
Nest
-
Taschen
-
(not set) – bedeutet, dass einige Sitzungen keiner Kategorie zugeordnet sind
-
Richtig oder falsch? Die häufigste
productVariant
istCOLOR
.
Antwort: Falsch. Es ist (not set), da es für die meisten Produkte (über 80 %) keine Varianten gibt.
- Wie lauten die zwei Werte in der Spalte type (Typ)?
Antwort: PAGE
und EVENT
Beim Besuch Ihrer Website können verschiedene Nutzerinteraktionen erfasst werden, z. B. in Form von aufgezeichneten Sitzungsdaten beim Betrachten einer SEITE oder während eines besonderen EREIGNISSES wie beim Klicken auf ein Produkt. Es können zeitgleich mehrere Treffertypen ausgelöst werden. Um Doppelzählungen zu vermeiden, werden Sie daher häufig nach Typ filtern. Wir werden uns dies in einem späteren Lab näher ansehen.
- Wie hoch ist die maximale
productQuantity
(Produktmenge)?
Antwort: 100 (Ihre Antwort kann abweichen)
productQuantity
gibt an, wie viele Einheiten eines Produkts in den Warenkorb gelegt wurden. Die Zahl 100 bedeutet, dass 100 Einheiten eines einzelnen Produkts hinzugefügt wurden.
- Was ist der häufigste
currencyCode
(Währungscode) für Transaktionen?
Antwort: USD (US-Dollar)
- Gibt es gültige Werte für
itemQuantity
(Artikelmenge) oderitemRevenue
(Artikelumsatz)?
Antwort: Nein, alle Werte sind NULL
oder es sind keine Werte angegeben.
- Wie viel % der Werte für die
transactionId
(Transaktions-ID) sind gültig? Was bedeutet das für dasecommerce
-Dataset?
- Antwort: Ca. 4,6 % der Transaktions-IDs haben einen gültigen Wert. Das bedeutet, dass die durchschnittliche Conversion-Rate der Website – d. h. der Anteil der Besucher, die eine Transaktion durchführen – 4,6 % beträgt.
- Wie viele Werte für
eCommerceAction_type
(E-Commerce-Aktionstyp) gibt es und was ist der häufigste Wert?
Antwort: In unserem Beispiel wurden sieben Werte gefunden. Der häufigste Wert ist 0
, was auf einen unbekannten Typ hinweist. Das ist logisch, da bei den meisten Websitzungen auf unserer Website keine E-Commerce-Aktionen durchgeführt werden und die Besucher sich nur auf der Website umsehen.
- Was stellt
eCommerceAction_type = 6
laut dem Schema dar?
eCommerceAction_type
und lesen Sie sich die Beschreibung für die Zuordnung durch.
Antwort: 6 ist „Abgeschlossener Kauf“ zugeordnet. Später in diesem Lab werden Sie diese Zuordnung in die Datenpipeline aufnehmen.
Aufgabe 5: Daten bereinigen
In dieser Aufgabe bereinigen Sie die Daten, indem Sie nicht verwendete Spalten löschen, doppelte Einträge entfernen, berechnete Felder erstellen und unerwünschte Zeilen herausfiltern.
Den Spaltendatentyp „productSKU“ umwandeln
- Um den Spaltentyp productSKU als String-Datentyp zu definieren, klicken Sie rechts neben der Spalte productSKU auf und dann auf Typ ändern > String.
- Um zu überprüfen, ob der erste Schritt in der Pipeline zur Datentransformation erstellt wurde, klicken Sie auf das Symbol für Schema:
Nicht verwendete Spalten löschen
Wie bereits erwähnt, werden Sie die Spalten itemQuantity und itemRevenue löschen, da sie nur NULL-Werte enthalten und daher für dieses Lab nicht nützlich sind.
- Öffnen Sie das Menü für itemQuantity und klicken Sie dann auf Löschen.
- Wiederholen Sie den Vorgang für die Spalte itemRevenue.
Zeilen deduplizieren
Ihr Team hat Sie darüber informiert, dass im Quell-Dataset möglicherweise doppelte Sitzungswerte vorhanden sind. Sie können diese Werte durch eine Deduplizierung entfernen.
- Klicken Sie auf das Symbol für das Filtern von Zeilen in der Symbolleiste und dann auf Doppelte Zeilen entfernen.
-
Klicken Sie im rechten Bereich auf Hinzufügen.
-
Sehen Sie sich das Schema an, das Sie bis jetzt erstellt haben. Es sollte in etwa so aussehen:
Sitzungen ohne Umsatzgenerierung herausfiltern
Ihr Team hat Sie gebeten, eine Tabelle mit allen Besuchersitzungen zu erstellen, aus denen der Kauf von mindestens einem Artikel auf der Website hervorgegangen ist. Sie müssen nun also Sitzungen mit dem Umsatz NULL herausfiltern.
- Klicken Sie unter der Spalte totalTransactionRevenue (Gesamtumsatz aus Transaktionen) auf den grauen Balken, der Missing values (Fehlende Werte) anzeigt. Alle Zeilen mit fehlenden Werten für totalTransactionRevenue sind nun rot markiert.
- Klicken Sie im Bereich Vorschläge unter Zeilen löschen auf Hinzufügen.
Durch diesen Schritt werden im Dataset nur Transaktionen mit Umsatz berücksichtigt (bei denen der Wert für totalTransactionRevenue nicht NULL ist).
Sitzungen nach Seitenaufrufen filtern
Das Dataset enthält Sitzungen verschiedener Typen, z. B. PAGE (für Seitenaufrufe) oder EVENT (für ausgelöste Ereignisse wie „angesehene Produktkategorien“ oder „in den Warenkorb gelegt“). Um zu vermeiden, dass Seitenaufrufe während einer Sitzung doppelt gezählt werden, verwenden Sie einen Filter, der nur auf Seitenaufrufe bezogene Treffer berücksichtigt.
-
Klicken Sie im Histogramm unter der Spalte Typ auf den Balken für PAGE. Alle Zeilen vom Typ PAGE sind jetzt grün markiert.
-
Klicken Sie im Bereich Vorschläge unter Zeilen behalten auf Hinzufügen.
Aufgabe 6: Daten anreichern
Suchen Sie in der Schemadokumentation nach visitId und lesen Sie sich die zugehörige Beschreibung durch, um herauszufinden, ob die ID über alle Besuchersitzungen hinweg oder nur für den Besucher eindeutig ist.
-
visitId
: eine ID für diese Sitzung. Sie ist ein Teil des Werts, der normalerweise alsutmb
-Cookie gespeichert wird, und nur für den Besucher eindeutig. Verwenden Sie für eine vollständig eindeutige ID eine Kombination aus „fullVisitorId“ (vollständige Besucher-ID) und „visitId“.
Wie Sie sehen, ist visitId
nicht für alle Besucher eindeutig. Sie müssen also eine eindeutige ID erstellen.
Eine neue Spalte für eine eindeutige Sitzungs-ID erstellen
Wie Sie festgestellt haben, enthält das Dataset keine separate Spalte für eine eindeutige Besuchersitzung. Eine eindeutige ID für jede Sitzung erstellen Sie, indem Sie die Felder fullVisitorId und visitId verketten.
- Klicken Sie in der Symbolleiste auf das Symbol für Spalten zusammenführen.
-
Wählen Sie unter Spalten die Optionen
fullVisitorId
undvisitId
aus. -
Geben Sie unter Trennzeichen einen Bindestrich ein:
-
. -
Geben Sie unter Neuer Spaltenname den Namen
unique_session_id
ein.
- Klicken Sie auf Hinzufügen.
Die unique_session_id
(eindeutige Sitzungs-ID) ist nun eine Kombination aus fullVisitorId
und visitId
. In einem nachfolgenden Lab werden Sie untersuchen, ob jede Zeile im Dataset die Ebene einer eindeutigen Sitzung (eine Zeile pro Besuchersitzung) oder eine noch detailliertere Ebene aufweist.
Eine Case-Anweisung für den E-Commerce-Aktionstyp erstellen
Wie Sie bereits gesehen haben, handelt es sich bei den Werten in der Spalte eCommerceAction_type
um Ganzzahlen, die den tatsächlichen E-Commerce-Aktionen entsprechen, die in dieser Sitzung ausgeführt wurden. Beispiel: 3 = „In den Warenkorb legen“ oder 5 = „Zur Kasse“. Diese Zuordnung ist für die Endnutzer nicht sofort ersichtlich. Deshalb erstellen Sie ein berechnetes Feld, das den Namen des Werts enthält.
- Klicken Sie in der Symbolleiste auf Bedingungen und dann auf Case-Anweisung für einzelne Spalte.
-
Geben Sie unter Spalte zur Evaluierung
eCommerceAction_type
an. -
Klicken Sie unter Cases (1) achtmal auf Hinzufügen, sodass insgesamt neun Cases angezeigt werden.
- Geben Sie für jeden Case die folgenden Zuordnungswerte (einschließlich der einfachen Anführungszeichen) an:
Vergleich |
Neuer Wert |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
Geben Sie unter Neuer Spaltenname den Namen
eCommerceAction_label
ein. Behalten Sie in allen anderen Feldern die Standardwerte bei. -
Klicken Sie auf Hinzufügen.
Werte in der Spalte „totalTransactionRevenue“ anpassen
Wie im Schema erwähnt, enthält die Spalte totalTransactionRevenue Werte, die an Analytics übergeben und mit 10^6 multipliziert werden (z. B. würde 2,40 als 2.400.000 ausgegeben werden). Dividieren Sie die Inhalte dieser Spalte nun durch 10^6, um die ursprünglichen Werte zu erhalten.
- Klicken Sie rechts neben der Spalte totalTransactionRevenue auf und wählen Sie dann Berechnen > Benutzerdefinierte Formel aus.
- Geben Sie unter Formel Folgendes ein:
DIVIDE(totalTransactionRevenue,1000000)
. Unter Neuer Spaltenname geben SietotalTransactionRevenue1
ein. Sehen Sie sich die Vorschau für die Umwandlung an:
- Klicken Sie auf Hinzufügen.
totalTransactionRevenue1
ein roter Balken angezeigt. Klicken Sie rechts neben der Spalte totalTransactionRevenue1
auf und dann auf Typ ändern > Dezimal.- Im folgenden Schema können Sie sich noch einmal alle Schritte ansehen:
- Klicken Sie jetzt auf Ausführen.
Aufgabe 7: Cloud Dataprep-Jobs in BigQuery ausführen
-
Wählen Sie auf der Seite Job ausführen die Option Dataflow + BigQuery als Ausführungsumgebung aus.
-
Klicken Sie unter Veröffentlichungsaktionen rechts neben CSV erstellen auf Bearbeiten.
-
Wählen Sie auf der folgenden Seite links im Menü die Option BigQuery aus.
-
Wählen Sie das ecommerce-Dataset aus.
-
Klicken Sie im rechten Bereich auf Neue Tabelle erstellen.
-
Benennen Sie die Tabelle revenue_reporting.
-
Wählen Sie Tabelle bei jeder Ausführung löschen aus.
-
Klicken Sie auf Aktualisieren.
-
Klicken Sie auf AUSFÜHREN.
Sobald der Cloud Dataprep-Job abgeschlossen ist, aktualisieren Sie die BigQuery-Seite und überprüfen Sie, ob die Ausgabetabelle revenue_reporting existiert.
Klicken Sie auf Fortschritt prüfen.
Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Sie haben das ecommerce-Dataset untersucht und mit Cloud Dataprep eine Pipeline zur Datentransformation erstellt.
Weitere Informationen
- Alteryx im Google Cloud Marketplace
- Sie haben bereits ein Google Analytics-Konto und möchten Ihre eigenen Datasets in BigQuery abfragen? Dann befolgen Sie die Schritte im Artikel BigQuery Export einrichten in der Google Analytics-Hilfe.
- Labs zum Vertiefen Ihres Wissens:
Google Cloud-Schulungen und -Zertifizierungen
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 11. Februar 2024 aktualisiert
Lab zuletzt am 20. September 2023 getestet
© 2024 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.