Prüfpunkte
Clean your training data
/ 30
Create a BQML model
/ 40
Perform a batch prediction on new data
/ 30
Engineer Data for Predictive Modeling with BigQuery ML: Challenge-Lab
GSP327
Überblick
In einem Challenge-Lab geht es um ein bestimmtes Szenario mit mehreren Aufgaben. Anders als bei einem normalen Lab erhalten Sie jedoch keine Schritt-für-Schritt-Anleitung, sondern nutzen die in den Labs des jeweiligen Kurses erlernten Fähigkeiten, um die Aufgaben selbst zu lösen. Ihre Lösungen werden automatisch bewertet. Die erzielten Punkte finden Sie rechts oben auf dieser Seite.
In Challenge-Labs werden keine neuen Grundlagen zu Google Cloud vermittelt. Sie sollen dabei Ihr Wissen erweitern und es wird erwartet, dass Sie beispielsweise Standardwerte ändern und Fehlermeldungen lesen und recherchieren, um Ihre eigenen Fehler zu beheben.
Die volle Punktzahl erreichen Sie nur, wenn Sie alle Aufgaben innerhalb der vorgegebenen Zeit lösen.
Dieses Lab wird Teilnehmern empfohlen, die sich für den Kurs Engineer Data for Predictive Modeling with BigQuery ML angemeldet haben. Sind Sie bereit?
Einrichtung
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
- Einen Standardbrowser (empfohlen wird Chrome)
- Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Das Szenario
Sie haben als Data Engineer bei TaxiCab Inc. angefangen. Ihre Aufgabe ist es nun, einige in der Vergangenheit erhobene Daten in ein aktives BigQuery-Dataset zu importieren und ein einfaches Modell zu erstellen, das den Fahrpreis anhand der verfügbaren Informationen bei Fahrtantritt vorhergesagt. Die Unternehmensleitung wünscht sich eine Anwendung, die dem Nutzer eine Schätzung der Fahrkosten ausgibt. Die Quelldaten werden in Ihrem Projekt bereitgestellt.
Das Know-how für diese Aufgaben wird vorausgesetzt, Sie erhalten daher keine detaillierte Anleitung.
Die Aufgabe
Als Sie sich an Ihren Schreibtisch setzen und Ihren neuen Laptop starten, erhalten Sie auch schon Ihren ersten Auftrag: Sie sollen ein einfaches BQML-Modell zur Preisvorhersage für die Unternehmensleitung erstellen. Dazu müssen Sie nun die folgenden Aufgaben ausführen: Importieren Sie zuerst die Daten und bereinigen Sie diese. Erstellen Sie dann das Modell und führen Sie Batch-Vorhersagen mit den neuen Daten aus, damit die Unternehmensleitung das Modell prüfen und entscheiden kann, ob die Anwendung mit dieser Funktionalität bereitgestellt wird.
Aufgabe 1: Trainingsdaten bereinigen
Sie haben den ersten Schritt bereits erledigt und ein Dataset namens taxirides
erstellt sowie die bisherigen Daten in die Tabelle historical_taxi_rides_raw
importiert. Diese Daten betreffen Fahrten bis 2015.
Für die Aufgabe müssen Sie nun Folgendes tun:
- Bereinigen Sie die Daten in
historical_taxi_rides_raw
und kopieren Sie diese in die Tabelleim selben Dataset. Sie können BigQuery, Dataprep, Dataflow usw. verwenden, um die Tabelle zu erstellen und die Daten zu bereinigen. Die Zielspalte muss den Namen haben.
Ein paar Tipps:
- Das Quell-Dataset kann in der BigQuery-UI aufgerufen werden. Machen Sie sich daher als Erstes mit dem Quellschema vertraut.
- Damit Sie wissen, welche Daten zum Zeitpunkt der Vorhersage vorhanden sind, sollten Sie sich auch mit der Tabelle
taxirides.report_prediction_data
vertraut machen. Diese zeigt das Format der Daten zum Zeitpunkt der Vorhersage.
Aufgaben bei der Datenbereinigung:
- Achten Sie darauf, dass
trip_distance
größer alsist. - Entfernen Sie Zeilen, in denen die Werte für
fare_amount
sehr klein, d. h. kleiner als beispielsweise
sind.$ - Prüfen Sie, ob die Werte für die Breiten- und Längengrade für den Anwendungsfall sinnvoll sind.
- Achten Sie auch darauf, dass
passenger_count
größer alsist. - Fügen Sie unbedingt
tolls_amount
undfare_amount
als Zielvariablen zuhinzu, da „total_amount“ auch das Trinkgeld enthält. - Da das Quell-Dataset sehr groß ist (> 1 Milliarde Zeilen), sollten Sie eine Dataset-Stichprobe mit weniger als 1 Million Zeilen erstellen.
- Kopieren Sie dazu nur Felder, die in Ihrem Modell verwendet werden. Hier dient
report_prediction_data
als guter Anhaltspunkt.
Klicken Sie auf Fortschritt prüfen.
Aufgabe 2: BigQuery ML-Modell erstellen
-
Erstellen Sie auf der Grundlage der Daten in
ein BigQuery ML-Modell für die Vorhersage von . -
Rufen Sie das Modell
auf.
Ein paar Tipps:
- Sie können beliebige weitere Datentransformationen in eine TRANSFORM()-Anweisung einbinden.
- Denken Sie daran, dass nur Features in der
TRANSFORM()
-Anweisung an das Modell übergeben werden. Sie können mit* EXCEPT(feature_to_leave_out)
einige oder alle Features in Ihr Modell übergeben, ohne sie explizit aufrufen zu müssen. - Die GIS-Funktionen
ST_distance()
undST_GeogPoint()
in BigQuery bieten die Möglichkeit, auf einfache Weise die euklidische Distanz, also die Länge des Wegs zwischen dem Einsteigen und Aussteigen des Fahrgastes aus dem Taxi zu berechnen:
Klicken Sie auf Fortschritt prüfen.
Aufgabe 3: Batch-Vorhersage für neue Daten ausführen
Die Unternehmensleitung möchte wissen, wie gut Ihr Modell mit neuen Daten funktioniert, in diesem Fall mit allen Daten, die im Jahr 2015 erfasst wurden. Diese Daten sind in taxirides.report_prediction_data
enthalten, wobei die Tabelle nur Werte umfasst, die zum Zeitpunkt der Vorhersage bekannt sind.
- Verwenden Sie
ML.PREDICT
und Ihr Modell für die Vorhersage vonund speichern Sie die Ergebnisse in einer Tabelle mit dem Namen 2015_fare_amount_predictions
.
Klicken Sie auf Fortschritt prüfen. 2015_fare_amount_predictions
speichern
Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Nächstes Skill-Logo erwerben
Dieses Lab zum selbstbestimmten Lernen ist Teil des Kurses Engineer Data for Predictive Modeling with BigQuery ML. Wenn Sie diesen Kurs abschließen, erhalten Sie das oben gezeigte Skill-Logo, das Sie in Ihren Lebenslauf oder Ihre Social-Media-Profile einfügen können. Teilen Sie Ihre Leistung mit #GoogleCloudBadge.
Dieses Skill-Logo ist Teil des Google Cloud-Lernpfads für Data Engineers. Wenn Sie die anderen Kurse zum Erwerb eines Skill-Logos in diesem Lernpfad bereits absolviert haben, finden Sie im Katalog weitere Skill-Logos, für die Sie sich anmelden können.
Google Cloud-Schulungen und -Zertifizierungen
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 25. März 2024 aktualisiert
Lab zuletzt am 11. September 2023 getestet
© 2024 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.