Checkpoint
Identify duplicate rows
/ 30
Write basic SQL on ecommerce data
/ 70
Esplora un set di dati di e-commerce con SQL in BigQuery
GSP407
Panoramica
BigQuery è il database di analisi NoOps a basso costo e completamente gestito di Google. Con BigQuery puoi interrogare molti terabyte di dati senza dover gestire alcuna infrastruttura o aver bisogno di un amministratore del database. BigQuery utilizza SQL e sfrutta i vantaggi offerti dal modello di pagamento a consumo. Inoltre, ti permette di concentrarti sull'analisi dei dati per trovare insight significativi.
È disponibile un nuovo set di dati di e-commerce che contiene milioni di record di Google Analytics per il Google Merchandise Store caricati in una tabella di BigQuery. In questo lab utilizzerai una copia di questo set di dati. Vengono forniti scenari di esempio che ti permettono di esaminare i dati e scoprire vari modi per rimuovere le informazioni duplicate. Il lab prevede quindi un'ulteriore analisi dei dati.
Per seguire e sperimentare le query BigQuery fornite per analizzare i dati, consulta la documentazione di riferimento per la sintassi delle query di BigQuery.
Obiettivi
In questo lab utilizzerai BigQuery per:
- Accedere a un set di dati di e-commerce
- Controllare i metadati del set di dati
- Rimuovere le voci duplicate
- Scrivere ed eseguire query
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
- Accesso a un browser internet standard (Chrome è il browser consigliato).
- È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Come avviare il lab e accedere alla console Google Cloud
-
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Il pulsante Apri console Google Cloud
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
-
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account. -
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}} Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
-
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}} Puoi trovare la Password anche nel riquadro Dettagli lab.
-
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi. -
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Attività 1: blocca il progetto del lab in BigQuery
In questa sezione devi aggiungere il progetto data-to-insights alle risorse dell'ambiente.
- Fai clic sul menu di navigazione > BigQuery.
Si aprirà una finestra con il messaggio Ti diamo il benvenuto in BigQuery sulla console Cloud.
- Fai clic su Fine.
Per impostazione predefinita, i set di dati pubblici di BigQuery non vengono visualizzati nell'interfaccia utente web di BigQuery. Per aprire il progetto di set di dati pubblici, copia "data-to-insights".
- Fai clic su + Aggiungi > Aggiungi un progetto a Speciali per nome, poi imposta il nome su
data-to-insights
. Fai clic su AGGIUNGI A SPECIALI.
Ora nella sezione Explorer è elencato il progetto data-to-insights.
Attività 2: esplora i dati di e-commerce e identifica i record duplicati
Scenario: il tuo team di analisti di dati ha esportato dei log di Google Analytics per un sito di e-commerce in BigQuery e ha creato una nuova tabella di tutti i dati non elaborati delle sessioni visitatore dell'e-commerce.
Esplora i dati della tabella all_sessions_raw
:
- Fai clic sull'icona Espandi nodo accanto a data-to-insights per espandere il progetto.
- Espandi ecommerce.
- Fai clic su all_sessions_raw.
Nel riquadro di destra si apre una sezione che fornisce tre viste dei dati della tabella:
- Scheda Schema: nome campo, tipo, modalità e descrizione; i vincoli logici utilizzati per organizzare i dati
- Scheda Dettagli: metadati della tabella
- Scheda anteprima: anteprima della tabella
- Fai clic sulla scheda Dettagli per visualizzare i metadati della tabella.
Domande:
Identifica le righe duplicate
Vedere una quantità di dati di esempio può farti capire meglio che cosa è incluso nel set di dati.
-
Per visualizzare in anteprima le righe di esempio dalla tabella senza utilizzare SQL, dai clic sulla scheda anteprima.
-
Scorri e controlla le righe. Non esiste un campo singolo che identifichi in modo univoco una riga, perciò è necessaria una logica avanzata per identificare le righe duplicate.
-
La query che userai (di seguito) applica la funzione SQL
GROUP BY
a ogni campo e conteggia (COUNT
) le righe che hanno valori identici in ogni campo:
- Se ogni campo è univoco, il valore di
COUNT
restituisce 1 poiché non esistono altri raggruppamenti di righe con lo stesso identico valore per tutti i campi. - Se esistono più righe con gli stessi valori per tutti i campi, vengono raggruppate e il valore di
COUNT
sarà maggiore di 1.
L'ultima parte della query include un filtro di aggregazione mediante HAVING
, al fine di mostrare solo i risultati che hanno un conteggio (COUNT
) di duplicati maggiore di 1. Ne consegue che il numero di record con duplicati sarà uguale al numero di righe nella tabella risultante.
- Copia e incolla la query seguente nell'Editor di query, poi esegui (RUN) la query per trovare i record duplicati in tutte le colonne.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Analizza la nuova tabella all_sessions
In questa sezione utilizzerai una tabella deduplicata chiamata all_sessions
.
Scenario: il tuo team di analisti di dati ti ha fornito questa query e gli esperti degli schemi hanno identificato i campi chiave che devono essere univoci per ciascun record in base al tuo schema.
- Esegui la query per confermare che non esistono duplicati, questa volta nella tabella
all_sessions
:
La query non restituisce nessun record.
GROUP BY 1
invece di GROUP BY fullVisitorId
.Attività 3: scrivi una query SQL di base per i dati di e-commerce
In questa sezione eseguirai una query per ottenere insight sul set di dati di e-commerce.
Scrivi una query che mostri il totale dei visitatori unici
La query determina le visualizzazioni totali mediante il conteggio di product_views
e il numero di visitatori unici mediante il conteggio di fullVisitorID
.
- Fai clic sull'icona "+" (Crea nuova query).
- Scrivi questa query nell'editor:
- Per assicurarti che la sintassi sia corretta, verifica che per lo strumento di convalida delle query in tempo reale sia visualizzato il segno di spunta verde.
- Fai clic su Esegui. Leggi i risultati per visualizzare il numero di visitatori unici.
Risultati:
- Ora scrivi una query che mostri i visitatori unici totali (
fullVisitorID
) in base al sito di riferimento (channelGrouping
):
Risultati:
- Scrivi una query che elenchi tutti i nomi prodotto unici (
v2ProductName
) in ordine alfabetico:
Suggerimento: in SQL, la clausola ORDER BY segue per impostazione predefinita l'ordine crescente (ASC) dalla A alla Z. Se vuoi ottenere l'ordinamento inverso, prova a usare ORDER BY field_name DESC.
Risultati:
Questa query restituisce un totale di 633 prodotti (righe).
- Scrivi una query per elencare i cinque prodotti con il maggior numero di visualizzazioni (
product_views
) da parte di tutti i visitatori, compresi quelli che hanno visualizzato lo stesso prodotto più di una volta. La tua query conta il numero di volte in cui un prodotto (v2ProductName
) è stato visualizzato (product_views
), organizza l'elenco in ordine decrescente ed elenca le prime cinque voci:
Suggerimento: in Google Analytics, un visitatore può "visualizzare" un prodotto durante questi tipi di interazione: 'page', 'screenview', 'event', 'transaction', 'item', 'social', 'exception', 'timing'. Per i nostri scopi, applicheremo il filtro sono per il tipo 'PAGE'.
Risultati:
- Bonus: ora perfeziona la query in modo da non contare più due volte le visualizzazioni del prodotto per i visitatori che hanno visualizzato un prodotto molte volte. Ogni visualizzazione distinta del prodotto dovrebbe contare solo una volta per visitatore:
Suggerimento: puoi usare la clausola SQL WITH
per suddividere una query complessa in vari passaggi. In questo caso, creiamo prima una query che trova ogni prodotto unico per visitatore e lo conta una volta. La seconda query esegue quindi l'aggregazione di tutti i visitatori e i prodotti.
Risultati:
- Ora espandi la query precedente in modo da includere il numero totale di prodotti distinti ordinati e il numero totale di unità totali ordinate (
productQuantity
):
Risultati:
Domande:
- Espandi la query in modo da includere la quantità media del prodotto per ordine (numero totale di unità ordinate/numero totale di ordini o
SUM(productQuantity)
/COUNT(productQuantity)
):
Risultati
Domanda:
L'infusore per bottiglie YouTube da 22 once ha registrato il valore avg_per_order più alto con 9,38 unità per ordine.
Fai clic su Controlla i miei progressi per verificare l'obiettivo.
Complimenti!
Complimenti! In questo lab hai utilizzato BigQuery per visualizzare ed eseguire query sui dati in modo da ottenere insight significativi su vari aspetti del marketing del prodotto. Hai imparato ad accedere a un set di dati di e-commerce, esaminare i metadati del set di dati, rimuovere voci duplicate e scrivere ed eseguire query.
Passaggi successivi/Scopri di più
- Esplora i set di dati pubblici di BigQuery.
- Hai un account Google Analytics e vuoi eseguire query sui tuoi set di dati in BigQuery? Segui questa guida all'esportazione.
- Dai uno sguardo a questo articolo su 15 incredibili aspetti di BigQuery che probabilmente non conosci.
- Per scoprire di più su BigQuery, puoi seguire questi lab:
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 2 aprile 2024
Ultimo test del lab: 2 aprile 2024
Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.