
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a Cloud Storage bucket
/ 50
Run an Example Pipeline Remotely
/ 50
Le SDK Apache Beam est un modèle de programmation Open Source pour les pipelines de données. Dans Google Cloud, vous pouvez définir un pipeline à l'aide d'un programme Apache Beam, puis l'exécuter avec Dataflow.
Dans cet atelier, vous allez configurer un environnement de développement Python pour Dataflow (à l'aide du SDK Apache Beam pour Python) et exécuter un exemple de pipeline Dataflow.
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Accédez aux pages suivantes :
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Le résultat contient une ligne qui déclare YOUR_PROJECT_ID (VOTRE_ID_PROJET) pour cette session :
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
Cliquez sur Autoriser.
Vous devez à présent obtenir le résultat suivant :
Résultat :
Résultat :
Exemple de résultat :
gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Pour vous assurer que vous avez bien accès à l'API requise, redémarrez la connexion à l'API Dataflow.
Dans la console Cloud, saisissez "API Dataflow" dans la barre de recherche supérieure. Cliquez sur API Dataflow dans les résultats.
Cliquez sur Gérer.
Cliquez sur Désactiver l'API.
Si vous êtes invité à confirmer votre choix, cliquez sur Désactiver.
Une fois l'API réactivée, l'option permettant de la désactiver s'affiche sur la page.
Lorsque vous exécutez un pipeline à l'aide de Dataflow, vos résultats sont stockés dans un bucket Cloud Storage. Dans cette tâche, vous allez créer un bucket Cloud Storage pour les résultats du pipeline que vous exécuterez dans une tâche ultérieure.
us
Cliquez sur Créer.
Si le message "L'accès public sera bloqué" s'affiche, cliquez sur Confirmer.
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.
Python3.9
:Cette commande extrait un conteneur Docker avec la dernière version stable de Python 3.9, puis ouvre un shell vous permettant d'exécuter les commandes suivantes dans votre conteneur.
Des avertissements au sujet des dépendances s'affichent. Vous pouvez les ignorer dans le cadre de cet atelier.
wordcount.py
en local à l'aide de la commande suivante :Un message semblable au suivant peut s'afficher :
Vous pouvez l'ignorer.
OUTPUT_FILE
:OUTPUT_FILE
et exécutez une commande cat
:Vos résultats affichent les mots contenus dans le fichier et le nombre de fois qu'ils y apparaissent.
wordcount.py
à distance :Attendez que le message suivant s'affiche dans les résultats :
Poursuivez ensuite l'atelier.
Le job wordcount s'affiche et son état initial indique En cours d'exécution.
L'opération est terminée lorsque l'état passe à Réussi :
Tester la tâche terminée
Cliquez sur Vérifier ma progression pour valider la tâche exécutée. Si votre tâche a bien été exécutée, vous recevez une note d'évaluation.
Dans la console Cloud, cliquez sur le menu de navigation > Cloud Storage.
Cliquez sur le nom de votre bucket. Les répertoires résultats et préproduction devraient apparaître dans votre bucket.
Cliquez sur le dossier résultats pour voir les fichiers de sortie créés par votre job :
Cliquez sur un fichier pour afficher le nombre de mots qu'il contient.
Voici une question à choix multiples qui vous aidera à assimiler les concepts abordés lors de cet atelier. Répondez-y du mieux que vous le pouvez.
Vous avez appris à configurer votre environnement de développement Python pour Dataflow (à l'aide du SDK Apache Beam pour Python) et à exécuter un exemple de pipeline Dataflow.
Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous présenter brièvement les nombreuses fonctionnalités proposées par Google Cloud. Pour suivre un autre atelier, recherchez "Qwik Starts" dans le catalogue Google Cloud Skills Boost.
Pour obtenir votre propre exemplaire de l'ouvrage dont est issu cet atelier : Data Science on the Google Cloud Platform: O'Reilly Media, Inc.
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 4 février 2024
Dernier test de l'atelier : 4 mai 2023
Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
One lab at a time
Confirm to end all existing labs and start this one