L'SDK Apache Beam è un modello di programmazione open source per pipeline di dati. In Google Cloud, puoi definire una pipeline con un programma Apache Beam e poi utilizzare Dataflow per eseguire la pipeline.
In questo lab configurerai l'ambiente di sviluppo Python per Dataflow (utilizzando l'SDK Apache Beam per Python) ed eseguirai una pipeline Dataflow di esempio.
Attività previste
In questo lab imparerai a:
Creare un bucket Cloud Storage per archiviare i risultati di una pipeline Dataflow
Installare l'SDK Apache Beam per Python
Eseguire una pipeline Dataflow in remoto
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Inizia il lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: per eseguire questo lab, utilizza una finestra del browser in modalità di navigazione in incognito (consigliata) o privata. Ciò evita conflitti tra il tuo account personale e l'account studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: utilizza solo l'account studente per questo lab. Se utilizzi un altro account Google Cloud, potrebbero essere addebitati costi su quell'account.
Come avviare il lab e accedere alla console Google Cloud
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si aprirà una finestra di dialogo per permetterti di selezionare il metodo di pagamento.
A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
Il pulsante Apri la console Google Cloud
Tempo rimanente
Credenziali temporanee da utilizzare per il lab
Altre informazioni per seguire questo lab, se necessario
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}}
Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}}
Puoi trovare la Password anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud.
Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
Fai clic nelle pagine successive:
Accetta i termini e le condizioni.
Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Nota: per accedere ai prodotti e ai servizi Google Cloud, fai clic sul menu di navigazione o digita il nome del servizio o del prodotto nel campo Cerca.
Attiva Cloud Shell
Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.
Fai clic su Attiva Cloud Shell nella parte superiore della console Google Cloud.
Fai clic nelle seguenti finestre:
Continua nella finestra delle informazioni di Cloud Shell.
Autorizza Cloud Shell a utilizzare le tue credenziali per effettuare chiamate API Google Cloud.
Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo Project_ID, . L'output contiene una riga che dichiara il Project_ID per questa sessione:
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.
(Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
gcloud auth list
Fai clic su Autorizza.
Output:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
(Facoltativo) Puoi elencare l'ID progetto con questo comando:
In Cloud Shell, esegui questo comando per impostare la regione del progetto per questo lab:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}
Assicurati che l'API Dataflow sia stata abilitata correttamente
Per garantire l'accesso all'API necessaria, riavvia la connessione all'API Dataflow.
Nella console Cloud, inserisci "API Dataflow" nella barra di ricerca in alto. Fai clic sul risultato per API Dataflow.
Fai clic su Gestisci.
Fai clic su Disabilita API.
Se ti viene chiesto di confermare, fai clic su Disabilita.
Fai clic su Abilita.
Quando l'API è stata nuovamente abilitata, la pagina mostrerà l'opzione per disabilitare.
Attività 1: crea un bucket Cloud Storage
Quando esegui una pipeline utilizzando Dataflow, i risultati vengono archiviati in un bucket Cloud Storage. In questa attività creerai un bucket Cloud Storage per i risultati della pipeline che eseguirai in un'attività successiva.
Nel menu di navigazione (), fai clic su Cloud Storage > Bucket.
Fai clic su Crea bucket.
Nella finestra di dialogo Crea bucket, specifica gli attributi seguenti:
Nome: per utilizzare un nome bucket univoco, usa -bucket. Questo nome del bucket non include informazioni sensibili, dato che lo spazio dei nomi dei bucket è globale e visibile pubblicamente.
Tipo di località: più regioni
Località: us
Una località in cui verranno archiviati i dati del bucket.
Fai clic su Crea.
Se appare il messaggio L'accesso pubblico verrà vietato fai clic su Conferma.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai completato correttamente l'attività, riceverai un punteggio di valutazione.
Crea un bucket Cloud Storage.
Attività 2: installa l'SDK Apache Beam per Python
Per assicurarti di utilizzare una versione Python supportata, esegui anzitutto l'immagine Docker Python3.9:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash
Il comando estrae un container Docker con l'ultima versione stabile di Python 3.9, quindi apre una shell dei comandi per eseguire questi comandi all'interno del container.
Quando il container è in esecuzione, installa l'ultima versione dell'SDK Apache Beam per Python eseguendo questo comando da un ambiente virtuale:
pip install 'apache-beam[gcp]'==2.42.0
Verranno visualizzati alcuni avvisi correlati alle dipendenze che, in questo lab, possono essere ignorati.
Esegui l'esempio wordcount.py in locale utilizzando il comando seguente:
Attendi finché nell'output non viene visualizzato questo messaggio:
JOB_MESSAGE_DETAILED: Workers have started successfully.
Quindi continua con il lab.
Attività 4: verifica che il job Dataflow sia riuscito
Apri il menu di navigazione e fai clic su Dataflow dall'elenco dei servizi.
Inizialmente dovresti vedere il tuo job wordcount con statoIn esecuzione.
Fai clic sul nome per seguire l'avanzamento. Quando tutte le caselle sono deselezionate, puoi continuare a esaminare i log in Cloud Shell.
Quando lo stato visualizzato è Riuscito, il processo è stato completato.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai completato correttamente l'attività, riceverai un punteggio di valutazione.
Esegui una pipeline di esempio in remoto.
Fai clic su Menu di navigazione > Cloud Storage nella console Google Cloud.
Fai clic sul nome del bucket. Nel bucket dovresti vedere le directory results e staging.
Fai clic sulla cartella results. Dovresti vedere i file di output creati dal job:
Fai clic su un file per vedere i conteggi delle parole al suo interno.
Attività 5: verifica le tue conoscenze
La seguente domanda a scelta multipla consoliderà la tua conoscenza dei concetti esposti in questo lab. Rispondi alle domande al meglio delle tue capacità.
Complimenti!
Hai imparato a configurare l'ambiente di sviluppo Python per Dataflow (utilizzando l'SDK Apache Beam per Python) e hai eseguito una pipeline Dataflow di esempio.
Prossimi passi/Scopri di più
Questo lab fa parte di una serie chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo di Google Cloud Skills Boost per trovare il prossimo lab da seguire.
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 4 febbraio 2024
Ultimo test del lab: 4 maggio 2023
Copyright 2025 Google LLC. Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.
I lab creano un progetto e risorse Google Cloud per un periodo di tempo prestabilito
I lab hanno un limite di tempo e non possono essere messi in pausa. Se termini il lab, dovrai ricominciare dall'inizio.
In alto a sinistra dello schermo, fai clic su Inizia il lab per iniziare
Utilizza la navigazione privata
Copia il nome utente e la password forniti per il lab
Fai clic su Apri console in modalità privata
Accedi alla console
Accedi utilizzando le tue credenziali del lab. L'utilizzo di altre credenziali potrebbe causare errori oppure l'addebito di costi.
Accetta i termini e salta la pagina di ripristino delle risorse
Non fare clic su Termina lab a meno che tu non abbia terminato il lab o non voglia riavviarlo, perché il tuo lavoro verrà eliminato e il progetto verrà rimosso
Questi contenuti non sono al momento disponibili
Ti invieremo una notifica via email quando sarà disponibile
Bene.
Ti contatteremo via email non appena sarà disponibile
Un lab alla volta
Conferma per terminare tutti i lab esistenti e iniziare questo
Utilizza la navigazione privata per eseguire il lab
Utilizza una finestra del browser in incognito o privata per eseguire questo lab. In questo modo eviterai eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
In questo lab configurerai l'ambiente di sviluppo Python per Dataflow (utilizzando l'SDK Apache Beam per Python) ed eseguirai una pipeline Dataflow di esempio.
Durata:
Configurazione in 0 m
·
Accesso da 30 m
·
Completamento in 30 m