Checkpoint
Create a Cloud Storage bucket
/ 50
Initialize Cloud Dataprep
/ 50
Dataprep: Qwik Start
- GSP105
- Panoramica
- Configurazione e requisiti
- Attività 1: crea un bucket Cloud Storage nel tuo progetto
- Attività 2: inizializza Cloud Dataprep
- Attività 3: crea un flusso
- Attività 4: importa i set di dati
- Attività 5: prepara il file dei candidati
- Attività 6: utilizza Wrangle sul file Contributions e uniscilo al file Candidates
- Attività 7: riepilogo dei dati
- Attività 8: assegna un nuovo nome alle colonne
- Complimenti!
Questo lab è stato sviluppato in collaborazione con il nostro partner Trifacta. Le tue informazioni personali potrebbero essere condivise con Trifacta, lo sponsor del lab, se hai acconsentito a ricevere aggiornamenti, annunci e offerte di prodotti nel profilo del tuo account.
GSP105
Panoramica
Cloud Dataprep di Trifacta è un servizio dati intelligente che consente di esplorare in modo visivo, ripulire e preparare i dati per l'analisi. Cloud Dataprep è serverless e funziona su qualsiasi scala. Non è necessario eseguire il deployment o gestire alcuna infrastruttura, e i dati possono essere preparati con pochi clic e nessun codice.
In questo lab userai Dataprep per manipolare un set di dati. Importerai set di dati, correggerai le corrispondenze errate, trasformerai i dati e li unirai. Se non hai mai eseguito queste operazioni, le imparerai durante questo lab.
Attività previste
In questo lab imparerai a utilizzare Dataprep per completare le attività seguenti:
- Importare dati
- Correggere le corrispondenze errate
- Trasformare i dati
- Unire i dati
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
- Accesso a un browser internet standard (Chrome è il browser consigliato).
- È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Come avviare il lab e accedere alla console Google Cloud
-
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Il pulsante Apri console Google Cloud
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
-
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account. -
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}} Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
-
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}} Puoi trovare la Password anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi. -
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Attiva Cloud Shell
Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.
- Fai clic su Attiva Cloud Shell nella parte superiore della console Google Cloud.
Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. L'output contiene una riga che dichiara il PROJECT_ID per questa sessione:
gcloud
è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.
- (Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
-
Fai clic su Autorizza.
-
L'output dovrebbe avere ora il seguente aspetto:
Output:
- (Facoltativo) Puoi elencare l'ID progetto con questo comando:
Output:
Output di esempio:
gcloud
, in Google Cloud, fai riferimento alla Panoramica dell'interfaccia a riga di comando gcloud.
Attività 1: crea un bucket Cloud Storage nel tuo progetto
-
Nella console Cloud, seleziona menu di navigazione() > Cloud Storage > Bucket.
-
Fai clic su Crea bucket.
-
Nella finestra di dialogo Crea un bucket, assegna al bucket un nome univoco. Lascia le altre impostazioni al loro valore predefinito.
-
Deseleziona Applica la prevenzione dell'accesso pubblico in questo bucket per
Scegli come controllare l'accesso agli oggetti
. -
Fai clic su Crea.
Hai creato il bucket. Tieni a mente il nome per i passaggi successivi.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un bucket Cloud Storage, visualizzerai un punteggio di valutazione.
Attività 2: inizializza Cloud Dataprep
- Apri Cloud Shell ed esegui questo comando:
Dovrebbe essere visualizzato un messaggio che conferma che l'identità dei servizi è stata creata.
-
Seleziona Menu di navigazione > Dataprep.
-
Seleziona la casella di controllo per accettare i Termini di servizio di Google Dataprep, poi fai clic su Accetta.
-
Seleziona la casella di controllo per autorizzare la condivisione dei dati del tuo account con Trifacta, poi fai clic su Accetta e continua.
-
Fai clic su Consenti per autorizzare Trifacta ad accedere ai dati del progetto.
-
Fai clic sul tuo nome utente studente per accedere a Cloud Dataprep tramite Trifacta. Il tuo nome utente è il Nome utente nel riquadro di sinistra del lab.
-
Fai clic su Consenti per autorizzare Cloud Dataprep ad accedere all'account del lab Google Cloud.
-
Seleziona la casella di controllo per accettare i Termini di servizio di Trifacta e fai clic su Accetta.
-
Fai clic su Continua nella schermata Prima configurazione per creare la posizione di archiviazione predefinita.
Dataprep si apre.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai inizializzato correttamente Cloud Dataprep con la posizione di archiviazione predefinita, visualizzerai un punteggio di valutazione.
Attività 3: crea un flusso
Cloud Dataprep usa un'area di lavoro flow
per accedere ai set di dati e manipolarli.
- Fai clic sull'icona Flows, quindi sul pulsante Create, quindi seleziona Blank Flow:
- Fai clic su Untitled Flow, quindi assegna un nome e una descrizione al flusso. Poiché questo lab usa i dati della Commissione elettorale federale degli Stati Uniti del 2016, assegna al flusso il nome "FEC-2016" e la descrizione "Commissione elettorale federale degli Stati Uniti del 2016".
- Fai clic su Ok.
Si apre la pagina del flusso FEC-2016.
Attività 4: importa i set di dati
In questa sezione importerai e aggiungerai dati al flusso FEC-2016.
-
Fai clic su Add Datasets, quindi seleziona il link Import Datasets.
-
Nel riquadro del menu a sinistra, seleziona Cloud Storage per importare i set di dati da Cloud Storage, poi fai clic sull'icona della matita per modificare il percorso del file.
- Digita
gs://spls/gsp105
nella casella di testo Scegli un file o una cartella, poi fai clic su Go.
Per visualizzare i pulsanti Go e Cancel, potresti dover ingrandire la finestra del browser.
-
Fai clic su us-fec/.
-
Fai clic sull'icona + accanto a
cn-2016.txt
per creare un set di dati mostrato nel riquadro a destra. Fai clic sul titolo nel set di dati nel riquadro di destra e rinominalo "Candidate Master 2016". -
Allo stesso modo, aggiungi il set di dati
itcont-2016-orig.txt
e assegna "Campaign Contributions 2016" come nuovo nome. -
Quando entrambi i set di dati sono visualizzati nel riquadro a destra, fai clic su Import & Add to Flow.
Vedrai entrambi i set di dati elencati come flusso.
Attività 5: prepara il file dei candidati
- Per impostazione predefinita, è selezionato il set di dati Candidate Master 2016. Nel riquadro a destra, fai clic su Edit Recipe.
La pagina di Transformer Candidate Master 2016 si apre in visualizzazione griglia.
Nella pagina del convertitore puoi creare la formula di trasformazione e visualizzare i risultati applicati al campione. Se li ritieni soddisfacenti, esegui il job utilizzando il set di dati.
- L'intestazione di ogni colonna contiene un nome e un valore che specificano il tipo di dati. Per visualizzare i tipi di dati, fai clic sull'icona della colonna:
-
Tieni inoltre presente che quando fai clic sul nome della colonna, sulla destra si apre il riquadro Details.
-
Fai clic su X in alto a destra del riquadro Details per chiuderlo.
Nei passaggi successivi, esplorerai i dati nella visualizzazione griglia e applicherai i passaggi di trasformazione alla formula.
- column5 contiene i dati del periodo 1990-2064. Ingrandisci column5 (come faresti in un foglio di lavoro) per separare gli anni. Fai clic per selezionare la barra più alta, che rappresenta l'anno 2016.
Viene creato un passaggio in cui questi valori sono selezionati.
- Nel riquadro Suggestions a destra, nella sezione Keep rows, fai clic su Add per aggiungere questo passaggio alla formula.
Il riquadro Recipe a destra ora contiene il seguente passaggio:
Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))
- Passa il mouse sopra column6 (State) e fai clic sulla parte dell'intestazione con corrispondenza errata (in rosso) per selezionare le righe con corrispondenza errata.
Scorri verso il basso, trova i valori (evidenziati in rosso) non corrispondenti e nota come la maggior parte di questi record hanno il valore "P" in column7 e "US" in column6. Questa errata corrispondenza si verifica perché column6 è contrassegnata come "State" (indicata dall'icona a forma di bandierina), ma sono presenti valori diversi dallo stato (ad esempio "US").
- Per correggere l'errata corrispondenza, fai clic su X nella parte superiore del riquadro Suggestions annullare la trasformazione, poi fai clic sull'icona a forma di bandierina in column6 e modificane il valore in "String".
Non ci sono più corrispondenze errate e ora l'indicatore della colonna è di colore verde.
- Applica un filtro unicamente per i candidati alla presidenza, vale a dire quelli che mostrano il valore "P" in column7. Nell'istogramma di column7, passa il mouse sopra le due barre per vedere a cosa corrispondono "H" e "P". Fai clic sulla barra "P".
- Nel riquadro Suggestions a destra, fai clic su Add per accettare il passaggio nella formula.
Attività 6: utilizza Wrangle sul file Contributions e uniscilo al file Candidates
Nella pagina Join, puoi aggiungere l'attuale set di dati a un altro set di dati o a un'altra formula in base alle informazioni comuni a entrambi i set di dati.
Prima di unire il file Contributions al file Candidates, esegui la pulizia del file Contributions.
- Fai clic su FEC-2016 (il selettore del set di dati) nella parte superiore della pagina della visualizzazione griglia.
-
Fai clic per selezionare Campaign Contributions 2016, che appare non selezionabile.
-
Nel riquadro a destra, fai clic su Add > Recipe, poi fai clic su Edit Recipe.
-
Fai clic sull'icona della formula in alto a destra nella pagina, poi fai clic su Add New Step.
Rimuovi i delimitatori extra nel set di dati.
- Inserisci il seguente comando in linguaggio Wrangle nella casella di ricerca:
Il builder di trasformazione analizza il comando Wrangle e compila i campi di trasformazione Find e Replace.
-
Fai clic su Add per aggiungere la trasformazione alla formula.
-
Aggiungi un altro nuovo passaggio alla formula. Fai clic su New Step, poi digita "Join" nella casella di ricerca.
-
Fai clic su Join datasets per aprire la pagina Join.
-
Fai clic su "Candidate Master 2016" per unirlo a Campaign Contributions 2016, poi su Accept in basso a destra.
- Sul lato destro, passa il mouse sopra la sezione Join keys, quindi fai clic sulla matita (icona Modifica).
Dataprep deduce le chiavi comuni. Dataprep suggerisce molti valori comuni come chiavi di unione.
- Nel riquadro Add Key, nella sezione Suggested join keys, fai clic su column2 = column11.
- Fai clic su Save and Continue.
Le colonne 2 e 11 si aprono per il controllo.
- Fai clic su Next, poi seleziona la casella di controllo a sinistra dell'etichetta "Columns" per aggiungere tutte le colonne di entrambi i set di dati al set di dati unito.
- Fai clic su Review, poi su Add to Recipe per tornare alla visualizzazione griglia.
Attività 7: riepilogo dei dati
Genera un utile riepilogo aggregando i contributi nella colonna 16, calcolandone la media e conteggiandoli, oltre che raggruppando i candidati per ID, nome e affiliazione politica, rispettivamente nelle colonne 2, 24 e 8.
- Nella parte superiore del pannello Recipe a destra, fai clic su New Step e inserisci la seguente formula nella casella di ricerca Transformation per visualizzare in anteprima i dati aggregati.
Viene visualizzato un campione iniziale dei dati uniti e aggregati, che rappresenta una tabella di riepilogo dei candidati alle elezioni presidenziali degli Stati Uniti e le metriche dei loro contributi nella campagna del 2016.
- Fai clic su Add per aprire una tabella di riepilogo dei principali candidati alle elezioni presidenziali degli Stati Uniti e le metriche dei loro contributi nella campagna del 2016.
Attività 8: assegna un nuovo nome alle colonne
Puoi semplificare l'interpretazione dei dati assegnando un nuovo nome alle colonne.
- Aggiungi singolarmente ciascun passaggio di assegnazione del nuovo nome e arrotondamento alla formula facendo clic su New Step, poi inserisci:
-
Quindi, fai clic su Add.
-
Aggiungi quest'ultimo New Step per arrotondare la quantità media di contributi:
- Quindi, fai clic su Add.
I risultati dovrebbero avere un aspetto simile a questo:
Complimenti!
Hai usato Dataprep per aggiungere un set di dati e hai creato formule per eseguire il data wrangling nei risultati pertinenti.
Prossimi passi/Scopri di più
Questo lab fa parte di una serie chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 6 giugno 2024
Ultimo test del lab: 6 giugno 2024
Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.