arrow_back

Valutazione della qualità dei dati con Dataplex

Accedi Partecipa
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

Valutazione della qualità dei dati con Dataplex

Lab 1 ora 30 minuti universal_currency_alt 1 credito show_chart Introduttivi
info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.
Metti alla prova le tue conoscenze e condividile con la nostra community.
done
Accedi a oltre 700 lab pratici, badge delle competenze e corsi

GSP1158

Laboratori autogestiti Google Cloud

Panoramica

Dataplex è un data fabric intelligente che consente alle organizzazioni l'individuazione, la gestione, il monitoraggio e la governance dei dati a livello centralizzato tra data lake, data warehouse e data mart per potenziare l'analisi su larga scala.

Una caratteristica preziosa di Dataplex è la capacità di definire ed eseguire controlli di qualità dei dati su asset Dataplex come tabelle BigQuery e file Cloud Storage. Utilizzando le attività di qualità dei dati di Dataplex, puoi integrare i controlli di qualità dei dati nei flussi di lavoro quotidiani convalidando i dati che fanno parte di una pipeline di produzione di dati, monitorando regolarmente la qualità dei dati rispetto a una serie di criteri e creando report sulla qualità dei dati per i requisiti normativi.

In questo lab imparerai a valutare la qualità dei dati utilizzando Dataplex creando un file di specifiche della qualità dei dati personalizzato e utilizzandolo per definire ed eseguire un job di qualità dei dati sui dati BigQuery.

Attività previste

  • Creare un lake, una zona e un asset in Dataplex
  • Eseguire query su una tabella BigQuery per revisionare la qualità dei dati
  • Creare e caricare un file di specifiche della qualità dei dati
  • Definire ed eseguire un job di qualità dei dati
  • Controllare i risultati di un job di qualità dei dati

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: utilizza una finestra del browser in incognito o privata per eseguire questo lab. Ciò evita eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: se hai già un account o un progetto Google Cloud personale, non utilizzarlo per questo lab per evitare addebiti aggiuntivi al tuo account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Il pulsante Apri console Google Cloud
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).

    Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
  3. Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.

    {{{user_0.username | "Username"}}}

    Puoi trovare il Nome utente anche nel riquadro Dettagli lab.

  4. Fai clic su Avanti.

  5. Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.

    {{{user_0.password | "Password"}}}

    Puoi trovare la Password anche nel riquadro Dettagli lab.

  6. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  7. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: per visualizzare un menu con un elenco di prodotti e servizi Google Cloud, fai clic sul menu di navigazione in alto a sinistra. Icona menu di navigazione

Attiva Cloud Shell

Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.

  1. Fai clic su Attiva Cloud Shell Icona Attiva Cloud Shell nella parte superiore della console Google Cloud.

Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. L'output contiene una riga che dichiara il PROJECT_ID per questa sessione:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.

  1. (Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
gcloud auth list
  1. Fai clic su Autorizza.

  2. L'output dovrebbe avere ora il seguente aspetto:

Output:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Facoltativo) Puoi elencare l'ID progetto con questo comando:
gcloud config list project

Output:

[core] project = <project_ID>

Output di esempio:

[core] project = qwiklabs-gcp-44776a13dea667a6 Nota: per la documentazione completa di gcloud, in Google Cloud, fai riferimento alla Panoramica dell'interfaccia a riga di comando gcloud.

Abilita API Dataproc

  1. Nella console Google Cloud, inserisci API Cloud Dataproc nella barra di ricerca in alto.

  2. Fai clic sul risultato per API Cloud Dataproc in Marketplace.

  3. Fai clic su Abilita.

Attività 1: crea un lake, una zona e un asset in Dataplex

Per definire ed eseguire attività di qualità dei dati, è necessario innanzitutto creare alcune risorse Dataplex.

In questa attività creerai un nuovo lake Dataplex per archiviare le informazioni sui clienti di e-commerce, aggiungerai una zona non elaborata al lake e quindi collegherai un set di dati BigQuery creato in precedenza come nuovo asset nella zona.

Crea un lake

  1. Nella console Google Cloud, nel menu di navigazione (Menu di navigazione), vai ad Analisi > Dataplex.

Se viene visualizzato Ti diamo il benvenuto nella nuova esperienza Dataplex, fai clic su Chiudi.

  1. In Gestisci lake, fai clic su Gestisci.

  2. Fai clic su Crea lake.

  3. Inserisci le informazioni richieste per creare un nuovo lake:

Proprietà Valore
Nome visualizzato Ecommerce Lake
ID Lascia il valore predefinito.
Regione

Lascia invariati gli altri valori predefiniti.

  1. Fai clic su Crea.

La creazione del lake può richiedere fino a 3 minuti.

Aggiungi una zona al lake

  1. Nella scheda Gestisci, fai clic sul nome del tuo lake.

  2. Fai clic su Aggiungi zona.

  3. Inserisci le informazioni richieste per creare una nuova zona:

Proprietà Valore
Nome visualizzato Customer Contact Raw Zone
ID Lascia il valore predefinito.
Tipo Zona non elaborata
Posizioni dei dati A livello di regione

Lascia invariati gli altri valori predefiniti.

Ad esempio, l'opzione Attiva rilevamento metadati in Impostazioni di rilevamento è abilitata per impostazione predefinita e consente agli utenti autorizzati di rilevare i dati nella zona.

  1. Fai clic su Crea.

La creazione della zona può richiedere fino a 2 minuti.

Puoi eseguire l'attività successiva una volta che lo stato della zona è Stato attivo.

Collega un asset a una zona

  1. Nella scheda Zone, fai clic sul nome della tua zona.

  2. Nella scheda Asset, fai clic su Aggiungi asset.

  3. Fai clic su Aggiungi un asset.

  4. Inserisci le informazioni richieste per collegare un nuovo asset:

Proprietà Valore
Tipo Set di dati BigQuery
Nome visualizzato Dati di contatto
ID Lascia il valore predefinito.
Set di dati .customers

Lascia invariati gli altri valori predefiniti.

  1. Fai clic su Fine.

  2. Fai clic su Continua.

  3. Per Impostazioni di rilevamento, seleziona Eredita per ereditare le impostazioni di rilevamento dal livello di zona, quindi fai clic su Continua.

  4. Fai clic su Invia.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Crea un lake, una zona e un asset in Dataplex

Attività 2: esegui query su una tabella BigQuery per revisionare la qualità dei dati

Nell'attività precedente, hai creato un nuovo asset Dataplex da un set di dati BigQuery denominato customers che è stato creato in precedenza per questo lab. Questo set di dati contiene una tabella denominata contact_info che contiene dati di contatto non elaborati per i clienti di un'azienda di e-commerce fittizia.

In questa attività, eseguirai una query su questa tabella per iniziare a identificare alcuni potenziali problemi di qualità dei dati che puoi includere come controlli in un job di qualità dei dati. Identificherai inoltre un altro set di dati creato in precedenza che potrai utilizzare per archiviare i risultati del job di qualità dei dati in un'attività successiva.

  1. Nella console Google Cloud, nel menu di navigazione (Menu di navigazione), vai a BigQuery > Area di lavoro SQL.

  2. Nel riquadro Explorer, espandi la freccia accanto all'ID progetto per elencarne i contenuti:

Oltre al set di dati customer_contact_raw_zone creato da Dataplex per gestire quella zona, esistono due set di dati BigQuery creati in precedenza per questo lab:

  • customers
  • customers_dq_dataset

Il set di dati denominato customers contiene una tabella denominata contact_info, che contiene dati di contatto per i clienti come ID cliente, nome, email e altro. Questa è la tabella che esplorerai e controllerai per trovare eventuali problemi di qualità dei dati durante questo lab.

Il set di dati denominato customers_dq_dataset non contiene tabelle. Quando definirai un job di qualità dei dati in un'attività successiva, utilizzerai questo set di dati come destinazione per una nuova tabella contenente i risultati del job di qualità dei dati.

Elenco di set di dati BigQuery

  1. Nell'Editor SQL, fai clic su Componi una nuova query. Incolla questa query, quindi fai clic su Esegui:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

Questa query seleziona 50 record dalla tabella originale e ordina i record in base all'ID cliente nei risultati.

  1. Scorri i risultati nel riquadro Risultati.

Tieni presente che in alcuni record mancano gli ID cliente e alcuni contengono indirizzi email errati, il che può rendere difficile la gestione degli ordini dei clienti.

Dati incompleti nella tabella dei dati di contatto

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Esegui query su una tabella BigQuery per revisionare la qualità dei dati

Attività 3: crea e carica un file di specifiche della qualità dei dati

I requisiti di controllo della qualità dei dati Dataplex vengono definiti utilizzando i file delle specifiche YAML di CloudDQ. Una volta creato, il file delle specifiche YAML viene caricato in un bucket Cloud Storage reso accessibile al job di qualità dei dati.

Il file YAML ha quattro sezioni chiave:

  • un elenco di regole da eseguire (regole predefinite o personalizzate)
  • filtri di riga per selezionare un sottoinsieme di dati per la convalida
  • associazioni di regole per applicare le regole definite alle tabelle
  • dimensioni delle regole facoltative per specificare i tipi di regole che il file YAML può contenere

In questa attività definirai un nuovo file di specifiche YAML per i controlli della qualità dei dati che identificano ID cliente ed email null nella tabella BigQuery specificata. Dopo aver definito il file, caricalo in un bucket Cloud Storage creato in precedenza per utilizzarlo in un'attività successiva al fine di eseguire il job di qualità dei dati.

Crea il file delle specifiche della qualità dei dati

  1. In Cloud Shell, esegui il comando seguente per creare un nuovo file vuoto per la specifica della qualità dei dati:
nano dq-customer-raw-data.yaml
  1. Incolla il seguente codice:
metadata_registry_defaults: dataplex: projects: {{{project_0.project_id | Project ID}}} locations: {{{project_0.default_region | Region}}} lakes: ecommerce-lake zones: customer-contact-raw-zone row_filters: NONE: filter_sql_expr: |- True INTERNATIONAL_ITEMS: filter_sql_expr: |- REGEXP_CONTAINS(item_id, 'INTNL') rule_dimensions: - consistency - correctness - duplication - completeness - conformance - integrity - timeliness - accuracy rules: NOT_NULL: rule_type: NOT_NULL dimension: completeness VALID_EMAIL: rule_type: REGEX dimension: conformance params: pattern: |- ^[^@]+[@]{1}[^@]+$ rule_bindings: VALID_CUSTOMER: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: id row_filter_id: NONE rule_ids: - NOT_NULL VALID_EMAIL_ID: entity_uri: bigquery://projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info column_id: email row_filter_id: NONE rule_ids: - VALID_EMAIL
  1. Esamina il codice per identificare le due regole principali sulla qualità dei dati definite in questo file.

Il file dq-customer-raw-data.yaml inizia con i parametri chiave per identificare le risorse Dataplex, inclusi l'ID progetto, la regione e i nomi del lake e della zona Dataplex.

Successivamente, specifica le dimensioni della regola consentite e due regole principali:

  • La regola per i valori NOT_NULL si riferisce alla dimensione di completezza come i valori null.
  • La regola per i valori VALID_EMAIL si riferisce alla dimensione di conformità come i valori non validi.

Infine, le regole sono legate a entità (tabelle) e colonne utilizzando associazioni di regole per la convalida della qualità dei dati:

  • La prima associazione di regole denominata VALID_CUSTOMER associa la regola NOT_NULL alla colonna id della tabella contact_info, che verrà convalidata se la colonna ID ha valori NULL.
  • La seconda associazione di regole denominata VALID_EMAIL_ID collega la regola VALID_EMAIL alla colonna email della tabella contact_info, che controllerà le email valide.
  1. Inserisci Ctrl+X, quindi Y, per salvare e chiudere il file.

Carica il file su Cloud Storage

  • In Cloud Shell, esegui questo comando per caricare il file in un bucket Cloud Storage creato per questo lab:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Crea e carica un file di specifiche della qualità dei dati

Attività 4: definisci ed esegui un job di qualità dei dati in Dataplex

Il job di qualità dei dati utilizza un file YAML delle specifiche della qualità dei dati per eseguire un job di qualità dei dati e genera metriche sulla qualità dei dati che vengono scritte in un set di dati BigQuery.

In questa attività definirai ed eseguirai un job di qualità dei dati utilizzando il file YAML della specifica della qualità dei dati caricato su Cloud Storage nell'attività precedente. Quando definirai il job, specificherai anche un set di dati BigQuery creato in precedenza denominato customer_dq_dataset per archiviare i risultati sulla qualità dei dati.

  1. Nella console Google Cloud, nel menu di navigazione (Menu di navigazione), vai ad Analisi > Dataplex.

  2. In Gestisci lake, fai clic su Processo.

  3. Fai clic su Crea attività.

  4. In Controlla la qualità dei dati fai clic su Crea attività.

  5. Inserisci le informazioni richieste per creare un nuovo job di qualità dei dati:

Proprietà Valore
Lake Dataplex ecommerce-lake
Nome visualizzato Customer Data Quality Job
ID Lascia il valore predefinito.
Seleziona file GCS -bucket/dq-customer-raw-data.yaml
Seleziona set di dati BigQuery .customers_dq_dataset
Tabella BigQuery dq_results
Account di servizio utente Account di servizio predefinito Compute Engine

Lascia invariati gli altri valori predefiniti.

Tieni presente che l'account di servizio predefinito di Compute Engine è stato preconfigurato per questo lab in modo da avere i ruoli e le autorizzazioni IAM appropriati. Per saperne di più, consulta la documentazione di Dataplex dal titolo Crea un account di servizio.

  1. Fai clic su Continua.

  2. Per Inizia, seleziona Immediatamente.

  3. Fai clic su Crea.

L'esecuzione del job può richiedere diversi minuti. Potresti dover aggiornare la pagina per verificare che il job sia stato eseguito correttamente.

Stato del job Riuscito

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Definisci ed esegui un job di qualità dei dati in Dataplex

Attività 5: esamina i risultati sulla qualità dei dati in BigQuery

In questa attività, esaminerai le tabelle in customers_dq_dataset per identificare i record a cui mancano valori ID cliente o che hanno valori non validi per le email.

  1. Nella console Google Cloud, nel menu di navigazione (Menu di navigazione), vai a BigQuery > Area di lavoro SQL.

  2. Nel riquadro Explorer, espandi la freccia accanto all'ID progetto per elencarne i contenuti:

  3. Espandi la freccia accanto al set di dati customer_dq_dataset.

  4. Fai clic sulla tabelladq_summary.

  5. Fai cilc sulla scheda Anteprima per vedere i risultati.

La tabella di dq_summary fornisce informazioni utili sulla qualità complessiva dei dati, compreso il numero di record identificati come non conformi alle due regole nel file delle specifiche della qualità dei dati.

  1. Scorri fino all'ultima colonna denominata failed_records_query.

  2. Fai clic sulla Freccia giù nella prima riga per espandere il testo e visualizzare l'intera query per i risultati della regola VALID_EMAIL.

Nota: la query è piuttosto lunga e termina con ORDER BY _dq_validation_rule_id.

  1. Fai clic su Componi nuova query. Copia e incolla la query nell'Editor SQL e fai clic su Run.

I risultati della query forniscono i valori email della tabella contact_info che non sono validi.

Risultati sulla qualità dei dati per VALID_EMAIL

  1. Ripeti i passaggi 7-8 per la seconda cella che contiene la query per i risultati della regola VALID_CUSTOMER.

I risultati della query identificano che nella tabella contact_info sono presenti 10 record a cui mancano valori ID.

Risultati sulla qualità dei dati per VALID_CUSTOMER

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Esamina i risultati sulla qualità dei dati nella tabella BigQuery

Complimenti!

Hai valutato la qualità dei dati utilizzando Dataplex creando un file di specifiche della qualità dei dati personalizzato e utilizzandolo per eseguire un job di qualità dei dati su una tabella BigQuery.

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 04 luglio 2023

Ultimo test del lab: 04 luglio 2023

Copyright 2025 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Questi contenuti non sono al momento disponibili

Ti invieremo una notifica via email quando sarà disponibile

Bene.

Ti contatteremo via email non appena sarà disponibile