arrow_back

Dataflow: Qwik Start - Modelli

Accedi Partecipa
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

Dataflow: Qwik Start - Modelli

Lab 45 minuti universal_currency_alt 1 credito show_chart Introduttivi
info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

GSP192

Laboratori autogestiti Google Cloud

Panoramica

In questo lab imparerai a creare una pipeline di flussi di dati utilizzando uno dei modelli Dataflow di Google. In particolare, utilizzerai il modello Da Pub/Sub a BigQuery, che legge i messaggi scritti in formato JSON da un argomento Pub/Sub e ne esegue il push in una tabella BigQuery. Puoi trovare la documentazione per questo modello nella Guida introduttiva ai modelli forniti da Google.

Ti verrà data la possibilità di utilizzare la riga di comando di Cloud Shell o la console Cloud per creare il set di dati e la tabella BigQuery. Scegli il metodo da utilizzare e continua a usarlo per il resto del lab. Se vuoi provare a utilizzare entrambi i metodi, ripeti il lab una seconda volta.

In questo lab proverai a:

  • Creare un set di dati e una tabella BigQuery
  • Creare un bucket Cloud Storage
  • Creare una pipeline di flussi di dati utilizzando il modello Dataflow Da Pub/Sub a BigQuery

Configurazione

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Il pulsante Apri console Google Cloud
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).

    Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
  3. Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.

    {{{user_0.username | "Username"}}}

    Puoi trovare il Nome utente anche nel riquadro Dettagli lab.

  4. Fai clic su Avanti.

  5. Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.

    {{{user_0.password | "Password"}}}

    Puoi trovare la Password anche nel riquadro Dettagli lab.

  6. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  7. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: per visualizzare un menu con un elenco di prodotti e servizi Google Cloud, fai clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Attiva Cloud Shell

Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.

  1. Fai clic su Attiva Cloud Shell Icona Attiva Cloud Shell nella parte superiore della console Google Cloud.

Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. L'output contiene una riga che dichiara il PROJECT_ID per questa sessione:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.

  1. (Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
gcloud auth list
  1. Fai clic su Autorizza.

  2. L'output dovrebbe avere ora il seguente aspetto:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facoltativo) Puoi elencare l'ID progetto con questo comando:
gcloud config list project

Output:

[core] project = <project_ID>

Output di esempio:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: per la documentazione completa di gcloud, in Google Cloud, fai riferimento alla Panoramica dell'interfaccia a riga di comando gcloud.

Attività 1: assicurati che l'API Dataflow sia stata abilitata di nuovo

Per garantire l'accesso all'API necessaria, riavvia la connessione all'API Dataflow.

  1. Nella console Cloud, inserisci "API Dataflow" nella barra di ricerca in alto. Fai clic sul risultato per API Dataflow.

  2. Fai clic su Gestisci.

  3. Fai clic su Disabilita API.

Se ti viene chiesto di confermare, fai clic su Disabilita.

  1. Fai clic su Abilita.

Quando l'API è stata nuovamente abilitata, la pagina mostrerà l'opzione per disabilitare.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita.

Disabilita e abilita di nuovo l'API Dataflow.

Attività 2: crea un set di dati BigQuery, una tabella BigQuery e un bucket Cloud Storage utilizzando Cloud Shell

Innanzitutto, creiamo un set di dati e una tabella BigQuery.

Nota: in questa attività viene utilizzato lo strumento a riga di comando bq. Vai all'attività 3 per completare questi passaggi utilizzando la console Cloud.
  1. Esegui questo comando per creare un set di dati denominato taxirides:
bq mk taxirides

L'output dovrebbe essere simile a questo:

Dataset '' successfully created

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un set di dati BigQuery, visualizzerai un punteggio di valutazione.

Crea un set di dati BigQuery (nome: taxirides).

Ora che hai creato il tuo set di dati, lo utilizzerai nel passaggio successivo per creare l'istanza di una tabella BigQuery.

  1. Per farlo, esegui questo comando:
bq mk \ --time_partitioning_field timestamp \ --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\ timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\ passenger_count:integer -t taxirides.realtime

L'output dovrebbe essere simile a questo:

Table 'myprojectid:taxirides.realtime' successfully created

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente una tabella in un set di dati BigQuery, visualizzerai un punteggio di valutazione.

Crea una tabella in un set di dati BigQuery

A prima vista, il comando bq mk sembra un po' complicato. Tuttavia, anche con l'aiuto della documentazione sulla riga di comando di BigQuery, possiamo riuscire a decifrarlo. Ad esempio, la documentazione ci spiega meglio il concetto di schema:

  • Si tratta del percorso a un file JSON di schema locale oppure di un elenco di definizioni di colonne separate da virgole nel formato [CAMPO]:[TIPO_DI_DATI], [CAMPO]:[TIPO_DI_DATI].

Nel nostro caso, la definizione è la seconda delle due, ovvero un elenco separato da virgole.

Creare un bucket Cloud Storage utilizzando Cloud Shell

Ora che abbiamo creato l'istanza della tabella, passiamo alla creazione di un bucket.

Utilizza l'ID progetto come nome del bucket così da assegnare un nome univoco globale:

  • Per farlo, esegui questo comando:
export BUCKET_NAME={{{project_0.project_id | "Bucket Name"}}} gsutil mb gs://$BUCKET_NAME/

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un bucket Cloud Storage, visualizzerai un punteggio di valutazione.

Crea un bucket Cloud Storage.

Una volta creato il bucket, scorri verso il basso fino alla sezione Esegui la pipeline.

Attività 3: crea un set di dati BigQuery, una tabella BigQuery e un bucket Cloud Storage utilizzando la console Google Cloud

Nota: non completare l'attività 3 se non hai completato l'attività 2, che include le stesse attività nella riga di comando.
  1. Nel menu sulla sinistra, nella sezione Big Data, fai clic su BigQuery.

  2. Dopodiché, fai clic su Fine.

  3. Fai clic sui tre puntini accanto al nome del progetto nella sezione Esplora, quindi fai clic su Crea set di dati.

  4. Inserisci taxirides come ID del set di dati:

  5. Seleziona us (più regioni negli Stati Uniti) in Località dei dati.

  6. Lascia invariate tutte le altre impostazioni predefinite e fai clic su CREA SET DI DATI.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un set di dati BigQuery, visualizzerai un punteggio di valutazione.

Crea un set di dati BigQuery (nome: taxirides).
  1. Ora dovresti vedere il set di dati taxirides sotto l'ID progetto nella console a sinistra.

  2. Fai clic sui tre punti accanto al set di dati taxirides e seleziona Apri.

  3. Quindi seleziona CREA TABELLA nella parte destra della console.

  4. In Destinazione > Nome tabella, inserisci realtime.

  5. Sotto Schema, attiva/disattiva il dispositivo di scorrimento Modifica come testo e inserisci quanto segue:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp, meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

La console deve avere questo aspetto:

Pagina Crea tabella

  1. Ora, fai clic su Crea tabella.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente una tabella in un set di dati BigQuery, visualizzerai un punteggio di valutazione.

Crea una tabella in un set di dati BigQuery

Crea un bucket Cloud Storage utilizzando la console Cloud

  1. Torna alla console Cloud e vai a Cloud Storage > Bucket > Crea bucket.

  2. Utilizza l'ID progetto come nome del bucket così da assegnare un nome univoco globale:

  3. Lascia invariate tutte le altre impostazioni predefinite e fai clic su Crea.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato correttamente un bucket Cloud Storage, visualizzerai un punteggio di valutazione.

Crea un bucket Cloud Storage.

Attività 4: esegui la pipeline.

Esegui il deployment del modello Dataflow:

gcloud dataflow jobs run iotflow \ --gcs-location gs://dataflow-templates-{{{project_0.default_region | "Region"}}}/latest/PubSub_to_BigQuery \ --region {{{project_0.default_region | "Region"}}} \ --worker-machine-type e2-medium \ --staging-location gs://{{{project_0.project_id | "Bucket Name"}}}/temp \ --parameters inputTopic=projects/pubsub-public-data/topics/taxirides-realtime,outputTableSpec={{{project_0.project_id | "Table Name"}}}:taxirides.realtime

Nella console Google Cloud, nel menu di navigazione, fai clic su Dataflow > Job, per visualizzare il job di Dataflow.

Per ulteriori informazioni, consulta questo documento.

Nota: potrebbe essere necessario attendere un minuto prima che il monitoraggio attività venga completato.

Verifica l'attività completata

Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai eseguito correttamente la pipeline Dataflow, visualizzerai un punteggio di valutazione.

Esegui la pipeline.

Potrai osservare la compilazione delle tue risorse quando diventano pronte per l'uso.

Passiamo ora a esaminare i dati scritti in BigQuery facendo clic su BigQuery nel menu di navigazione.

  • All'apertura della UI di BigQuery, vedrai la tabella taxirides che è stata aggiunta sotto il nome del progetto e, ancora sotto, vedrai realtime.
Nota: potrebbe essere necessario attendere alcuni minuti prima che la tabella BigQuery venga compilata.

Attività 5: invia una query

Puoi inviare query utilizzando SQL standard.

  1. Nell'Editor di BigQuery, aggiungi quanto segue per eseguire una query sui dati del progetto:
SELECT * FROM `{{{project_0.project_id | "Bucket Name"}}}.taxirides.realtime` LIMIT 1000
  1. Ora fai clic su ESEGUI.

Se riscontri problemi o errori, esegui di nuovo la query (l'avvio della pipeline richiede qualche minuto).

  1. Una volta eseguita correttamente la query, l'output sarà visibile nel riquadro Risultati query, come mostrato di seguito:

Pagina dei risultati della query

Ottimo! Hai appena estratto 1000 corse di taxi da un argomento Pub/Sub e le hai inviate tramite push a una tabella BigQuery. Come hai potuto constatare personalmente, i modelli rappresentano un modo pratico e facile per eseguire i job Dataflow. Assicurati di controllare, nella documentazione di Dataflow, alcuni altri modelli Google nella Guida introduttiva ai modelli forniti da Google.

Attività 6: verifica le tue conoscenze

Di seguito sono riportate alcune domande a scelta multipla che servono a consolidare le tue conoscenze relative ai concetti di questo lab. Rispondi alle domande al meglio delle tue capacità.

Complimenti!

Hai creato una pipeline di flussi di dati utilizzando il modello Dataflow Da Pub/Sub a BigQuery, che legge i messaggi scritti in JSON da un argomento Pub/Sub e ne esegue il push in una tabella BigQuery.

Prossimi passi/Scopri di più

Questo lab fa parte di una serie chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo di Google Cloud Skills Boost per trovare il prossimo lab da seguire.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 4 febbraio 2024

Ultimo test del lab: 10 novembre 2023

Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Questi contenuti non sono al momento disponibili

Ti invieremo una notifica via email quando sarà disponibile

Bene.

Ti contatteremo via email non appena sarà disponibile