arrow_back

GCP Fundamentals : Premiers pas avec BigQuery

Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

GCP Fundamentals : Premiers pas avec BigQuery

Atelier 30 minutes universal_currency_alt 5 crédits show_chart Débutant
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Testez vos connaissances et partagez-les avec notre communauté
done
Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Présentation

Dans cet atelier, vous allez charger un journal de serveur Web dans une table BigQuery. Une fois les données chargées, vous les interrogerez en utilisant l'interface utilisateur Web et la CLI BigQuery.

BigQuery permet d'analyser des bases de données pouvant atteindre plusieurs pétaoctets de manière interactive et en temps quasi réel. Pour plus de facilité, il permet également d'exploiter les fonctions SQL 2011 et de créer des requêtes dans ce langage.

Les données stockées dans BigQuery ont une très grande durabilité. Les données stockées par Google sont répliquées par défaut, et aucuns frais supplémentaires ne sont facturés pour les instances dupliquées. Avec BigQuery, vous payez uniquement les ressources que vous utilisez. D'un point de vue économique, le stockage de données dans BigQuery est avantageux. Le coût des requêtes est fonction du volume de données traitées : lorsque vous envoyez une demande, les nœuds de calcul vous sont facturés uniquement pendant la durée de traitement de la requête. Aucuns frais ne vous sont facturés lorsque vous n'utilisez pas de cluster de calcul.

Lorsque vous utilisez BigQuery, vous interagissez avec un certain nombre de ressources Google Cloud Platform : des projets (sujet abordé dans une autre section du cours), des ensembles de données, des tables et des tâches. Dans cet atelier, vous allez découvrir certaines de ces ressources. Cette brève présentation résume leur rôle dans l'interaction avec BigQuery.

Ensembles de données : les ensembles de données constituent un mécanisme de regroupement qui contient zéro, une ou plusieurs tables. Les ensembles de données représentent le niveau de contrôle d'accès le plus bas. Ils sont la propriété des projets GCP, et peuvent être partagés avec des utilisateurs individuels.

Tables : les tables sont structurées selon un modèle ligne-colonne et contiennent les données. Chaque table dispose d'un schéma qui décrit des colonnes de valeurs fortement typées. Chaque table appartient à un ensemble de données.

Objectifs

Cet atelier va vous apprendre à effectuer les tâches suivantes :

  • Charger des données de Cloud Storage vers BigQuery

  • Effectuer une requête sur les données dans BigQuery

Tâche 1 : Se connecter à la console Google Cloud Platform (GCP)

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

  1. Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.

  2. Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
    Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.

  3. Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.

  4. Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.

  5. Cliquez sur Ouvrir la console Google.

  6. Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
    Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.

  7. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Vérifiez si la région qui vous a été attribuée est plus proche des États-Unis ou de l'Europe.

Tâche 2 : Charger des données depuis Cloud Storage vers BigQuery

  1. Dans la console, accédez au menu de navigation (Menu de navigation), cliquez sur BigQuery, puis sur Done (OK).

  2. Créez un jeu de données en sélectionnant votre projet dans la section Ressources, puis en cliquant avec le bouton droit de la souris sur CRÉER UN JEU DE DONNÉES.

  3. Dans la boîte de dialogue Create Dataset (Créer un ensemble de données), tapez logdata dans le champ Dataset ID (ID de l'ensemble de données).

  4. Pour Emplacement des données, sélectionnez États-Unis (US). Cliquez sur CRÉER UN JEU DE DONNÉES.

  5. Développez votre ID de projet et cliquez sur l'icône Afficher les actions à côté de l'ensemble de données de données de journal. Sélectionnez ensuite Ouvrir.

  6. Créez une table dans l'ensemble de données logdata pour stocker les données du fichier CSV.

  7. Cliquez sur Create Table (Créer une table). Dans la section Source de la page Create Table (Créer une table) :

  • Dans le champ Create table from (Créer une table à partir de), choisissez Google Cloud Storage, puis saisissez cloud-training/gcpfci/access_log.csv.
  • Vérifiez que l'option File format (Format de fichier) est définie sur CSV.
Remarque : Si vous avez déjà créé une table, l'option "Create from Previous Job" (Créer à partir d'une tâche précédente) vous permet d'en créer rapidement d'autres du même type en réutilisant vos paramètres.
  1. Dans la section Destination :

  • Dans le champ Dataset name (Nom de l'ensemble de données), conservez l'ensemble de données logdata.

  • Dans le champ Table name (Nom de la table), saisissez accesslog.

  • Dans le champ Table type (Type de table), l'option Native table (Table native) doit être sélectionnée.

  1. Dans la section Schema (Schéma), sous Auto-detect (Détection automatique), cochez Schema and input Parameters (Schéma et paramètres d'entrée).

  2. Acceptez les autres valeurs par défaut et cliquez sur Create Table (Créer une table).

    BigQuery lance une tâche de chargement pour créer la table et y importer les données. Cette opération peut prendre quelques secondes.

  3. (Facultatif) Pour suivre la progression de la tâche, cliquez sur Job History (Historique des tâches).

  4. Une fois le chargement terminé, cliquez sur logdata > accesslog.

  5. Sur la page Table Details (Détails de la table), cliquez sur Details (Détails) pour afficher les propriétés de la table, puis sur Preview (Aperçu) pour afficher ses données.

    Chaque ligne de cette table enregistre un appel sur un serveur web. Le premier champ, string_field_0, correspond à l'adresse IP du client. Le jour, le mois, l'année, l'heure, la minute et la seconde où l'appel a eu lieu sont répertoriés du quatrième au neuvième champ. Dans cette activité, vous allez observer les caractéristiques de chargement quotidiennes sur ce serveur Web.

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier l'objectif. Charger des données de Cloud Storage vers BigQuery

Tâche 3 : Effectuer une requête sur les données en utilisant l'UI Web de BigQuery

Dans cette section de l'atelier, vous allez interroger la table accesslog que vous avez créée précédemment via l'UI Web de BigQuery.

  1. Dans la fenêtre Query editor (Éditeur de requête), saisissez (ou copiez-collez) la requête suivante :

  2. Étant donné que vous avez demandé à BigQuery de découvrir automatiquement le schéma lorsque vous chargez les données, l'heure d'arrivée de chaque appel Web se trouve dans un champ appelé int_field_6.

    select int64_field_6 as hour, count(*) as hitcount from logdata.accesslog
    group by hour
    order by hour
    

    Vous remarquerez que l'outil de validation des requêtes vous indique, à l'aide d'une coche verte, que la syntaxe des requêtes est valide. Il précise également le volume de données que la requête va traiter. Le volume de données traitées vous permet de déterminer le coût de la requête à l'aide du Simulateur de coût de Cloud Platform.

  3. Cliquez sur Run (Exécuter), puis observez les résultats. À quel moment de la journée le site Web est-il le plus fréquenté ? Et à quel moment est-il le moins fréquenté ?

Tâche 4 : Effectuer une requête sur les données à l'aide de la commande bq

Dans cette section de l'atelier, vous allez interroger la table accesslog que vous avez créée précédemment via la commande bq de Cloud Shell.

  1. Sur la console Google Cloud Platform, cliquez sur Activate Cloud Shell (Activer Cloud Shell) Activer Cloud Shell, puis cliquez sur Continue (Continuer).

  2. Lorsque Cloud Shell vous y invite, saisissez la commande suivante :

    bq query "select string_field_10 as request, count(*) as requestcount from logdata.accesslog group by request order by requestcount desc"
    

    Lorsque vous utilisez la commande bq pour la première fois, vos identifiants Google Cloud Platform sont mis en cache et vous devez choisir un projet par défaut. Choisissez le projet que Qwiklabs vous a attribué. Le nom de ce projet est qwiklabs-gcp-, suivi d'un nombre hexadécimal.

    La commande bq exécute alors l'action demandée sur sa ligne de commande. Quelle URL proposée par ce serveur Web a reçu le plus de visites ? Laquelle a reçu le moins de visites ?

Félicitations !

Dans cet atelier, vous avez chargé des données de Cloud Storage vers une table hébergée par Google BigQuery. Vous avez ensuite interrogé les données pour identifier certaines caractéristiques.

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Le nombre d'étoiles correspond à votre degré de satisfaction :

  • 1 étoile = très insatisfait(e)
  • 2 étoiles = insatisfait(e)
  • 3 étoiles = ni insatisfait(e), ni satisfait(e)
  • 4 étoiles = satisfait(e)
  • 5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible