arrow_back

Engineer Data for Predictive Modeling with BigQuery ML: Challenge-Lab

Anmelden Teilnehmen
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engineer Data for Predictive Modeling with BigQuery ML: Challenge-Lab

Lab 1 Stunde universal_currency_alt 5 Guthabenpunkte show_chart Mittelstufe
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Überblick

In einem Challenge-Lab geht es um ein bestimmtes Szenario mit mehreren Aufgaben. Anders als bei einem normalen Lab erhalten Sie jedoch keine Schritt-für-Schritt-Anleitung, sondern nutzen die in den Labs des jeweiligen Kurses erlernten Fähigkeiten, um die Aufgaben selbst zu lösen. Ihre Lösungen werden automatisch bewertet. Die erzielten Punkte finden Sie rechts oben auf dieser Seite.

In Challenge-Labs werden keine neuen Grundlagen zu Google Cloud vermittelt. Sie sollen dabei Ihr Wissen erweitern und es wird erwartet, dass Sie beispielsweise Standardwerte ändern und Fehlermeldungen lesen und recherchieren, um Ihre eigenen Fehler zu beheben.

Die volle Punktzahl erreichen Sie nur, wenn Sie alle Aufgaben innerhalb der vorgegebenen Zeit lösen.

Dieses Lab wird Teilnehmern empfohlen, die sich für den Kurs Engineer Data for Predictive Modeling with BigQuery ML angemeldet haben. Sind Sie bereit?

Einrichtung

Vor dem Klick auf „Start Lab“ (Lab starten)

Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange die Ressourcen für das Lab verfügbar sind.

In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung selbst durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.

Für dieses Lab benötigen Sie Folgendes:

  • Einen Standardbrowser (empfohlen wird Chrome)
Hinweis: Nutzen Sie den privaten oder Inkognitomodus, um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
  • Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Hinweis: Wenn Sie über ein persönliches Google Cloud-Konto oder -Projekt verfügen, verwenden Sie es nicht für dieses Lab. So werden zusätzliche Kosten für Ihr Konto vermieden.

Das Szenario

Sie haben als Data Engineer bei TaxiCab Inc. angefangen. Ihre Aufgabe ist es nun, einige in der Vergangenheit erhobene Daten in ein aktives BigQuery-Dataset zu importieren und ein einfaches Modell zu erstellen, das den Fahrpreis anhand der verfügbaren Informationen bei Fahrtantritt vorhergesagt. Die Unternehmensleitung wünscht sich eine Anwendung, die dem Nutzer eine Schätzung der Fahrkosten ausgibt. Die Quelldaten werden in Ihrem Projekt bereitgestellt.

Das Know-how für diese Aufgaben wird vorausgesetzt, Sie erhalten daher keine detaillierte Anleitung.

Die Aufgabe

Als Sie sich an Ihren Schreibtisch setzen und Ihren neuen Laptop starten, erhalten Sie auch schon Ihren ersten Auftrag: Sie sollen ein einfaches BQML-Modell zur Preisvorhersage für die Unternehmensleitung erstellen. Dazu müssen Sie nun die folgenden Aufgaben ausführen: Importieren Sie zuerst die Daten und bereinigen Sie diese. Erstellen Sie dann das Modell und führen Sie Batch-Vorhersagen mit den neuen Daten aus, damit die Unternehmensleitung das Modell prüfen und entscheiden kann, ob die Anwendung mit dieser Funktionalität bereitgestellt wird.

Aufgabe 1: Trainingsdaten bereinigen

Sie haben den ersten Schritt bereits erledigt und ein Dataset namens taxirides erstellt sowie die bisherigen Daten in die Tabelle historical_taxi_rides_raw importiert. Diese Daten betreffen Fahrten bis 2015.

Hinweis: Eventuell dauert es bis zu drei Minuten, bis die Daten komplett in Ihr Projekt übernommen werden.

Für die Aufgabe müssen Sie nun Folgendes tun:

  • Bereinigen Sie die Daten in historical_taxi_rides_raw und kopieren Sie diese in die Tabelle im selben Dataset. Sie können BigQuery, Dataprep, Dataflow usw. verwenden, um die Tabelle zu erstellen und die Daten zu bereinigen. Die Zielspalte muss den Namen haben.

Ein paar Tipps:

  • Das Quell-Dataset kann in der BigQuery-UI aufgerufen werden. Machen Sie sich daher als Erstes mit dem Quellschema vertraut.
  • Damit Sie wissen, welche Daten zum Zeitpunkt der Vorhersage vorhanden sind, sollten Sie sich auch mit der Tabelle taxirides.report_prediction_data vertraut machen. Diese zeigt das Format der Daten zum Zeitpunkt der Vorhersage.

Aufgaben bei der Datenbereinigung:

  • Achten Sie darauf, dass trip_distance größer als ist.
  • Entfernen Sie Zeilen, in denen die Werte für fare_amount sehr klein, d. h. kleiner als beispielsweise  $ sind.
  • Prüfen Sie, ob die Werte für die Breiten- und Längengrade für den Anwendungsfall sinnvoll sind.
  • Achten Sie auch darauf, dass passenger_count größer als ist.
  • Fügen Sie unbedingt tolls_amount und fare_amount als Zielvariablen zu hinzu, da „total_amount“ auch das Trinkgeld enthält.
  • Da das Quell-Dataset sehr groß ist (> 1 Milliarde Zeilen), sollten Sie eine Dataset-Stichprobe mit weniger als 1 Million Zeilen erstellen.
  • Kopieren Sie dazu nur Felder, die in Ihrem Modell verwendet werden. Hier dient report_prediction_data als guter Anhaltspunkt.

Klicken Sie auf Fortschritt prüfen. Bereinigte Kopie der Daten in erstellen

Aufgabe 2: BigQuery ML-Modell erstellen

  1. Erstellen Sie auf der Grundlage der Daten in ein BigQuery ML-Modell für die Vorhersage von .

  2. Rufen Sie das Modell auf.

Hinweis: Ihr Modell benötigt zum Ausführen der Aufgabe einen RMSE-Wert (Wurzel der mittleren Fehlerquadratsumme) von maximal 10.

Ein paar Tipps:

  • Sie können beliebige weitere Datentransformationen in eine TRANSFORM()-Anweisung einbinden.
  • Denken Sie daran, dass nur Features in der TRANSFORM()-Anweisung an das Modell übergeben werden. Sie können mit * EXCEPT(feature_to_leave_out) einige oder alle Features in Ihr Modell übergeben, ohne sie explizit aufrufen zu müssen.
  • Die GIS-Funktionen ST_distance() und ST_GeogPoint() in BigQuery bieten die Möglichkeit, auf einfache Weise die euklidische Distanz, also die Länge des Wegs zwischen dem Einsteigen und Aussteigen des Fahrgastes aus dem Taxi zu berechnen:
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

Klicken Sie auf Fortschritt prüfen. BigQuery ML-Modell mit RMSE-Wert 10 oder kleiner erstellen

Aufgabe 3: Batch-Vorhersage für neue Daten ausführen

Die Unternehmensleitung möchte wissen, wie gut Ihr Modell mit neuen Daten funktioniert, in diesem Fall mit allen Daten, die im Jahr 2015 erfasst wurden. Diese Daten sind in taxirides.report_prediction_data enthalten, wobei die Tabelle nur Werte umfasst, die zum Zeitpunkt der Vorhersage bekannt sind.

  • Verwenden Sie ML.PREDICT und Ihr Modell für die Vorhersage von und speichern Sie die Ergebnisse in einer Tabelle mit dem Namen 2015_fare_amount_predictions.

Klicken Sie auf Fortschritt prüfen. Batch-Vorhersagen ausführen und in einer neuen Tabelle namens 2015_fare_amount_predictions speichern

Das wars! Sie haben das Lab erfolgreich abgeschlossen.

Skill-Logo „Engineer Data for Predictive Modeling with BigQuery ML“

Nächstes Skill-Logo erwerben

Dieses Lab zum selbstbestimmten Lernen ist Teil des Kurses Engineer Data for Predictive Modeling with BigQuery ML. Wenn Sie diesen Kurs abschließen, erhalten Sie das oben gezeigte Skill-Logo, das Sie in Ihren Lebenslauf oder Ihre Social-Media-Profile einfügen können. Teilen Sie Ihre Leistung mit #GoogleCloudBadge.

Dieses Skill-Logo ist Teil des Google Cloud-Lernpfads für Data Engineers. Wenn Sie die anderen Kurse zum Erwerb eines Skill-Logos in diesem Lernpfad bereits absolviert haben, finden Sie im Katalog weitere Skill-Logos, für die Sie sich anmelden können.

Google Cloud-Schulungen und -Zertifizierungen

In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.

Anleitung zuletzt am 25. März 2024 aktualisiert

Lab zuletzt am 11. September 2023 getestet

© 2024 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.