Punkty kontrolne
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Opis
- Konfiguracja i wymagania
- Zadanie 1. Tworzenie zasobnika Cloud Storage w projekcie
- Zadanie 2. Inicjowanie Cloud Dataprep
- Zadanie 3. Tworzenie przepływu
- Zadanie 4. Importowanie zbiorów danych
- Zadanie 5. Przygotowywanie pliku z informacjami o kandydatach
- Zadanie 6. Przekształcanie pliku Contributions i łączenie go z plikiem Candidates
- Zadanie 7. Podsumowanie danych
- Zadanie 8. Zmienianie nazw kolumn
- Gratulacje!
Ten moduł opracowaliśmy we współpracy z firmą Trifacta. Jeśli w profilu konta masz ustawioną zgodę na otrzymywanie ogłoszeń, ofert i nowych informacji o usługach, Twoje dane osobowe mogą być udostępniane tej firmie jako sponsorowi modułu.
GSP105
Opis
Cloud Dataprep firmy Trifacta to inteligentna usługa umożliwiająca przeglądanie, oczyszczanie i przygotowywanie danych do analizy w formie wizualnej. Cloud Dataprep to usługa bezserwerowa działająca na dowolną skalę. Nie wymaga utrzymywania żadnej infrastruktury. Przygotowywanie danych jest proste: nie trzeba pisać kodu, wszystko obsługuje się myszą.
W tym module nauczysz się używać Dataprep do działań na zbiorze danych. Zaimportujesz zbiory danych, poprawisz nieprawidłowe dane, a także przekształcisz dane i dokonasz ich złączenia. Nie przejmuj się, jeśli to dla Ciebie nowość – wszystko stanie się jasne, gdy ukończysz ten moduł.
Jakie zadania wykonasz
W tym module dowiesz się, jak użyć Dataprep, żeby wykonać następujące zadania:
- importowanie danych,
- poprawianie nieprawidłowych danych,
- przekształcanie danych,
- złączanie danych.
Konfiguracja i wymagania
Zanim klikniesz przycisk Rozpocznij moduł
Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.
W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.
Do ukończenia modułu potrzebne będą:
- dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
- Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Rozpoczynanie modułu i logowanie się w konsoli Google Cloud
-
Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:
- przyciskiem Otwórz konsolę Google Cloud;
- czasem, który Ci pozostał;
- tymczasowymi danymi logowania, których musisz użyć w tym module;
- innymi informacjami potrzebnymi do ukończenia modułu.
-
Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).
Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.
Wskazówka: otwórz karty obok siebie w osobnych oknach.
Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta. -
W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.
{{{user_0.username | "Username"}}} Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.
-
Kliknij Dalej.
-
Skopiuj podane niżej hasło i wklej je w oknie powitania.
{{{user_0.password | "Password"}}} Hasło znajdziesz też w panelu Szczegóły modułu.
-
Kliknij Dalej.
Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami. -
Na kolejnych stronach wykonaj następujące czynności:
- Zaakceptuj Warunki korzystania z usługi.
- Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
- Nie rejestruj się w bezpłatnych wersjach próbnych.
Poczekaj, aż na karcie otworzy się konsola Google Cloud.
Aktywowanie Cloud Shell
Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.
- Kliknij Aktywuj Cloud Shell na górze konsoli Google Cloud.
Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze PROJECT_ID. Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem PROJECT_ID dla tej sesji:
gcloud
to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.
- (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
-
Kliknij Autoryzuj.
-
Dane wyjściowe powinny wyglądać tak:
Dane wyjściowe:
- (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
Dane wyjściowe:
Przykładowe dane wyjściowe:
gcloud
w Google Cloud znajdziesz w opisie narzędzia wiersza poleceń gcloud.
Zadanie 1. Tworzenie zasobnika Cloud Storage w projekcie
-
W konsoli Cloud wybierz Menu nawigacyjne () > Cloud Storage > Zasobniki.
-
Kliknij Utwórz zasobnik.
-
W oknie Tworzenie zasobnika nadaj zasobnikowi niepowtarzalną nazwę. W pozostałych ustawieniach pozostaw domyślne wartości.
-
W sekcji
Wybierz sposób kontrolowania dostępu do obiektów
odznacz opcję Wyegzekwuj blokadę dostępu publicznego do tego zasobnika. -
Kliknij Utwórz.
Udało Ci się utworzyć zasobnik. Zapamiętaj jego nazwę, przyda się w kolejnych krokach.
Testowanie ukończonego zadania
Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się utworzyć zasobnik Cloud Storage, wyświetli się odpowiedni wynik.
Zadanie 2. Inicjowanie Cloud Dataprep
- Otwórz Cloud Shell i uruchom to polecenie:
Wyświetli się komunikat informujący o utworzeniu tożsamości usługi.
-
Wybierz Menu nawigacyjne > Dataprep.
-
Zaznacz pole wyboru akceptacji Warunków korzystania z usługi Google Dataprep, a następnie kliknij Akceptuję.
-
Zaznacz pole wyboru zgody na udostępnienie firmie Trifacta informacji o koncie, a następnie kliknij Zgadzam się i chcę przejść dalej.
-
Kliknij Zezwól, aby zezwolić firmie Trifacta na dostęp do danych projektu.
-
Kliknij swoją nazwę użytkownika, aby zalogować się w Cloud Dataprep firmy Trifacta. Twoja nazwa użytkownika jest wyświetlana w polu Nazwa użytkownika w panelu po lewej stronie modułu.
-
Kliknij Zezwól, aby przyznać Cloud Dataprep dostęp do Twojego konta modułu Google Cloud.
-
Zaznacz pole wyboru zgody na Warunki korzystania z usługi firmy Trifacta, a następnie kliknij Akceptuję.
-
Na ekranie First time setup kliknij Continue, aby utworzyć domyślną lokalizację przechowywania danych.
Otworzy się usługa Dataprep.
Testowanie ukończonego zadania
Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się zainicjować Cloud Dataprep z domyślną lokalizacją miejsca na dane, wyświetli się odpowiedni wynik.
Zadanie 3. Tworzenie przepływu
Cloud Dataprep uzyskuje dostęp do zbiorów danych i manipuluje nimi w obszarze roboczym przepływu
.
- Kliknij ikonę Flows, potem przycisk Create, a następnie Blank Flow:
- Kliknij Untitled Flow, a potem nadaj nazwę przepływowi i go opisz. W tym module używane są dane United States Federal Elections Commission (Federalnej Komisji Wyborczej Stanów Zjednoczonych) pochodzące z 2016 r., dlatego nadaj przepływowi nazwę „FEC-2016”, a w opisie przepływu umieść „United States Federal Elections Commission 2016”.
- Kliknij OK.
Otworzy się strona przepływu FEC-2016.
Zadanie 4. Importowanie zbiorów danych
W tej sekcji zaimportujesz i dodasz dane do przepływu FEC-2016.
-
Kliknij Add Datasets, a następnie wybierz link Import Datasets.
-
W panelu menu po lewej stronie wybierz Cloud Storage, aby zaimportować zbiory danych z Google Cloud Storage, a następnie kliknij ikonę ołówka i zmień ścieżkę pliku.
- W polu tekstowym Choose a file or folder wpisz
gs://spls/gsp105
i kliknij Go.
Przyciski Go i Cancel mogą pojawić się dopiero po rozszerzeniu okna przeglądarki.
-
Kliknij us-fec/.
-
Kliknij ikonę + znajdującą się obok pliku
cn-2016.txt,
aby utworzyć zbiór danych widoczny w prawym panelu. W panelu po prawej stronie kliknij tytuł zbioru danych i zmień go na „Candidate Master 2016” (Informacje o kandydatach w 2016 r.). -
W ten sam sposób dodaj zbiór danych
itcont-2016-orig.txt
i zmień jego nazwę na „Campaign Contributions 2016” (Fundusze wpłacane na kampanię w 2016 r.). -
Oba zbiory danych pojawią się w panelu po prawej stronie. Kliknij Import & Add to Flow.
Oba zbiory danych są wyświetlane w formie przepływu.
Zadanie 5. Przygotowywanie pliku z informacjami o kandydatach
- Domyślnie jest wybrany zbiór danych Candidate Master 2016. W panelu po prawej stronie kliknij Edit Recipe.
W widoku siatki otworzy się strona Transformer dla zbioru danych Candidate Master 2016.
Na stronie Transformer tworzony jest przepis na przekształcenie. Są na niej widoczne także wyniki zastosowania przepisu do próbki danych. Jeśli zadowala Cię to, co widzisz, wykonaj zadanie na swoim zbiorze danych.
- W nagłówku każdej kolumny znajdują się nazwa i wartość definiujące typ danych. Aby wyświetlić typy danych, kliknij ikonę kolumny:
-
Zwróć uwagę na to, że gdy klikniesz nazwę kolumny, po prawej stronie pojawia się panel Details.
-
Aby zamknąć panel Details, w jego prawym górnym rogu kliknij X.
Wykonując kolejne kroki, zapoznasz się z danymi w widoku siatki i dodasz kroki przekształcenia do przepisu.
- Kolumna column5 zawiera dane dotyczące lat 1990-2064. Rozszerz kolumnę column5 (jak w arkuszu kalkulacyjnym), aby rozdzielić poszczególne lata. Kliknij najwyższy słupek, aby go wybrać – reprezentuje on 2016 r.
Spowoduje to utworzenie kroku, w którym wybrane zostaną zaznaczone wartości.
- W sekcji Keep rows w panelu Suggestions po prawej stronie kliknij Add, aby dodać ten krok do przepisu.
W panelu Recipe po prawej stronie znajduje się teraz ten krok:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- W kolumnie column6 (ze skrótami nazw stanów), najedź na czerwoną część nagłówka i kliknij ją, aby wybrać nieprawidłowe wiersze.
Przewiń ekran w dół do czerwonego wyróżnienia, aby znaleźć nieprawidłowe wartości. Zwróć uwagę na to, że większość tych rekordów ma wartość „P” w kolumnie column7 i „US” w kolumnie column6. Nieprawidłowość polega na tym, że kolumna column6 jest oznaczona jako „State” – na co wskazuje ikona flagi – a rekordy zawierają wartości, które nie oznaczają stanów (np. „US”).
- Aby poprawić tę nieprawidłowość, kliknij X u góry panelu Suggestions, aby anulować przekształcenie, a następnie kliknij ikonę flagi w kolumnie column6 i zmień typ danych na „String”.
Nie ma już nieprawidłowości – znacznik kolumny ma teraz kolor zielony.
- Odfiltruj tylko kandydatów na urząd prezydenta, czyli te rekordy, które mają wartość „P” w kolumnie column7. Najedź na 2 słupki znajdujące się na histogramie w kolumnie column7 i sprawdź, który z nich jest oznaczony jako „H”, a który jako „P”. Kliknij słupek „P”.
- W panelu Suggestions po prawej stronie kliknij Add, aby dodać krok do przepisu.
Zadanie 6. Przekształcanie pliku Contributions i łączenie go z plikiem Candidates
Na stronie Join możesz dodać aktualny zbiór danych do innego zbioru danych lub przepisu, łącząc je na podstawie wspólnych informacji w obu zbiorach danych.
Zanim utworzysz złączenie pliku z informacjami o funduszach z plikiem z informacjami o kandydatach, oczyść plik z informacjami o funduszach.
- Kliknij FEC-2016 (selektor zbioru danych) u góry strony widoku siatki.
-
Kliknij, aby wybrać wyszarzoną pozycję Campaign Contributions 2016.
-
W panelu po prawej stronie kliknij Add > Recipe, a następnie kliknij Edit Recipe.
-
Kliknij ikonę przepisu w prawym górnym rogu strony, a następnie kliknij Add New Step.
Usuń zbędne ograniczniki ze zbioru danych.
- Wstaw to polecenie w języku Wrangle w polu wyszukiwania :
Usługa Transformation Builder analizuje polecenie w języku Wrangle i wypełnia pola przekształcenia Find i Replace.
-
Kliknij Add, aby dodać to przekształcenie do przepisu.
-
Dodaj do przepisu kolejny nowy krok. Kliknij New Step, a następnie wpisz „Join” w polu wyszukiwania.
-
Kliknij Join datasets, aby otworzyć stronę Join.
-
Kliknij zbiór danych „Candidate Master 2016”, aby złączyć go ze zbiorem Campaign Contributions 2016, a następnie w prawym dolnym rogu kliknij Accept.
- Po prawej stronie najedź na sekcję Join keys i kliknij ołówek (ikonę edycji).
Dataprep automatycznie ustawia wspólne klucze. Istnieje wiele wspólnych wartości, które Dataprep sugeruje jako klucze złączenia.
- W sekcji Suggested join keys w panelu Add Key kliknij column2 = column11.
- Kliknij Save and Continue.
Otworzą się kolumny 2 i 11. Możesz je przejrzeć.
- Kliknij Next, a następnie zaznacz pole wyboru po lewej stronie etykiety „Column”, aby dodać do złączonego zbioru danych wszystkie kolumny z obu zbiorów danych.
- Kliknij Review, a następnie Add to Recipe, aby wrócić do widoku siatki.
Zadanie 7. Podsumowanie danych
Wygeneruj użyteczne podsumowanie, agregując, uśredniając i zliczając wpłaty funduszy w kolumnie 16 i grupując kandydatów według identyfikatora, imienia i nazwiska oraz przynależności partyjnej. Dane te znajdują się w kolumnach 2, 24 i 8.
- U góry panelu Recipe po prawej stronie kliknij New Step i wpisz tę formułę w polu wyszukiwania Transformation, aby wyświetlić podgląd zagregowanych danych.
Wyświetlana jest początkowa próbka złączonych i zagregowanych danych. Jest to tabela podsumowania kandydatów na urząd prezydenta USA wraz ze wskaźnikami dotyczącymi wpłat funduszy na kampanię w 2016 r.
- Kliknij Add, aby otworzyć tabelę podsumowania zawierającą głównych kandydatów na urząd prezydenta USA wraz ze wskaźnikami dotyczącymi wpłat funduszy na kampanię w 2016 r.
Zadanie 8. Zmienianie nazw kolumn
Możesz ułatwić interpretację danych, zmieniając nazwy kolumn.
- Dodaj do przepisu poszczególne operacje zmiany nazwy i zaokrąglenia, klikając New Step i wpisując:
-
Następnie kliknij Add.
-
Dodaj ten ostatni nowy krok, aby zaokrąglić kwotę średniej wpłaty funduszy:
- Następnie kliknij Add.
Wynik powinien być podobny do tego:
Gratulacje!
Udało Ci się dodać zbiór danych i utworzyć przepisy w Dataprep, przekształcając dane w znaczące wyniki z użyciem języka Wrangle.
Kolejne kroki / Więcej informacji
Ten moduł należy do serii modułów Qwik Start. Opracowaliśmy je, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu modułów i znajdź kolejny interesujący Cię moduł.
Szkolenia i certyfikaty Google Cloud
…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.
Ostatnia aktualizacja instrukcji: 6 czerwca 2024 r.
Ostatni test modułu: 6 czerwca 2024 r.
Copyright 2024 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.