
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Write a query to determine available seasons and games
/ 10
Create a labeled machine learning dataset
/ 10
Create a machine learning model
/ 20
Evaluate model performance and create table
/ 10
Using skillful ML model features
/ 10
Train the new model and make evaluation
/ 10
Run a query to create a table ncaa_2018_predictions
/ 10
Run queries to create tables ncaa_2019_tournament and ncaa_2019_tournament_predictions
/ 20
BigQuery est la base de données d'analyse NoOps, économique et entièrement gérée de Google. Avec BigQuery, vous pouvez interroger des téraoctets et des téraoctets de données sans avoir à gérer d'infrastructure ni à faire appel aux services d'un administrateur de base de données. Basé sur le langage SQL et le modèle de paiement à l'usage, BigQuery vous permet de vous concentrer sur l'analyse des données pour en dégager des insights pertinents.
BigQuery ML permet aux analystes de données d'utiliser leur connaissance de SQL pour créer rapidement des modèles de machine learning directement à l'emplacement où sont stockées les données dans BigQuery.
BigQuery comporte un ensemble de données public regroupant des informations sur les matchs, les équipes et les joueurs de basket-ball de la NCAA. Les données sur les matchs couvrent les statistiques générales et par match depuis 2009, ainsi que les scores finaux depuis 1996. On y trouve des données supplémentaires sur les victoires et les défaites pouvant remonter à la saison 1894-1895 pour certaines équipes.
Dans cet atelier, vous allez créer un prototype de modèle puis l'entraîner et l'évaluer avec BigQuery ML, afin de prédire les équipes victorieuses et perdantes des matchs d'un tournoi de basket-ball de la NCAA.
Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :
Il s'agit d'un atelier de niveau intermédiaire. Pour suivre cet atelier, vous devez connaître le langage et les mots clé SQL. Il est également recommandé de savoir utiliser BigQuery. Si vous n'avez pas l'expérience requise dans ces domaines, suivez au minimum l'un des ateliers ci-dessous avant de vous lancer dans celui-ci :
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
Cliquez sur Suivant.
Accédez aux pages suivantes :
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Le message Bienvenue sur BigQuery dans Cloud Console s'affiche. Il contient un lien vers le guide de démarrage rapide et les notes de version.
La console BigQuery s'ouvre.
Dans la console Cloud, ouvrez le menu de navigation, puis sélectionnez BigQuery.
Cliquez sur OK pour accéder à la version bêta de l'UI. Assurez-vous que votre ID de projet est défini dans l'onglet "Explorateur", qui doit ressembler à l'image ci-dessous :
Si vous cliquez sur la flèche "Développer le nœud" à côté de votre projet, vous ne verrez aucune base de données ni aucune table, car vous n'en avez pas ajouté pour le moment.
Par chance, BigQuery propose de nombreux ensembles de données publics et libres d'accès avec lesquels travailler. Nous allons maintenant parler plus en détail de l'ensemble de données de la NCAA, puis voir comment l'ajouter à votre projet BigQuery.
La NCAA (National Collegiate Athletic Association) organise deux tournois de basket-ball universitaires majeurs tous les ans aux États-Unis, l'un féminin et l'autre masculin. Lors du tournoi masculin de la NCAA en mars, 68 équipes s'affrontent dans des matchs à élimination directe. La dernière équipe est la grande gagnante du championnat March Madness.
La NCAA met à disposition un ensemble de données public qui contient les statistiques des matchs de basket-ball masculin et féminin ainsi que les joueurs et joueuses sélectionnés pour la saison et les tournois finaux. Les données sur les matchs couvrent les statistiques générales et par match depuis 2009, ainsi que les scores finaux depuis 1996. On y trouve des données supplémentaires sur les victoires et les défaites pouvant remonter à la saison 1894-1895 pour certaines équipes.
Avant d'effectuer cette étape, vérifiez que vous êtes toujours dans la console BigQuery. Dans l'onglet "Explorateur", cliquez sur le bouton + AJOUTER, puis sélectionnez Ensembles de données publics.
Dans la barre de recherche, saisissez NCAA Basketball et appuyez sur Entrée. Lorsque l'ensemble de données apparaît, sélectionnez-le et cliquez sur AFFICHER L'ENSEMBLE DE DONNÉES :
Un nouvel onglet BigQuery présentant l'ensemble de données chargé s'ouvre. Vous pouvez continuer à travailler dans cet onglet, ou bien le fermer et actualiser votre console BigQuery dans l'autre onglet pour afficher votre ensemble de données public.
L'ensemble de données doit comporter dix tables.
Cliquez sur mbb_historical_tournament_games
puis sur APERÇU pour afficher un échantillon des lignes de données.
Cliquez ensuite sur DÉTAILS pour consulter les métadonnées de la table.
La page qui s'affiche doit ressembler à celle-ci :
Vous allez à présent écrire une requête SQL simple pour déterminer le nombre de saisons et de matchs disponibles dans la table mbb_historical_tournament_games
.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Répondez aux questions à choix multiples ci-dessous pour réviser les concepts abordés jusqu'ici. Tentez d'y répondre du mieux que vous le pouvez.
L'objectif de cet atelier est de prédire l'équipe gagnante d'un match de basket-ball masculin de la NCAA en s'appuyant sur les données historiques des matchs. En machine learning, une colonne de données permettant de déterminer un résultat (la victoire ou la défaite pour un match du tournoi) s'appelle une caractéristique.
La colonne comportant les données que vous souhaitez prédire s'appelle l'étiquette. Les modèles de machine learning apprennent à associer les caractéristiques entre elles pour prédire le résultat d'une étiquette.
Exemples de caractéristiques que votre ensemble de données pourrait comporter :
L'étiquette que vous essayez de prédire pour les matchs à venir est le résultat du match, c'est-à-dire la victoire ou la défaite d'une équipe.
Répondez aux questions à choix multiples ci-dessous pour réviser les concepts abordés jusqu'ici. Tentez d'y répondre du mieux que vous le pouvez.
Créer un modèle de machine learning nécessite un grand volume de données d'entraînement de bonne qualité. Par chance, l'ensemble de données de la NCAA est assez fourni pour permettre de créer un modèle efficace.
Revenez à la console BigQuery. Elle devrait encore afficher les résultats de la requête que vous avez exécutée précédemment.
Dans le menu de gauche, ouvrez la table mbb_historical_tournament_games
en cliquant sur son nom. Une fois qu'elle est chargée, cliquez sur APERÇU. La page qui s'affiche doit ressembler à celle-ci :
Répondez aux questions à choix multiples ci-dessous pour réviser les concepts abordés jusqu'ici. Tentez d'y répondre du mieux que vous le pouvez.
Après avoir parcouru l'ensemble de données, vous remarquerez qu'une ligne comporte à la fois les colonnes win_market
et lose_market
. Vous devez diviser le registre unifié des résultats des matchs de manière à séparer les données par équipe, et ainsi attribuer une étiquette "gagnante" ou "perdante" à chaque ligne.
Copiez la requête suivante et collez-la dans l'éditeur de requête, puis cliquez sur EXÉCUTER :
Vous devez obtenir le résultat suivant :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Maintenant que vous connaissez les caractéristiques disponibles via les résultats, vous pouvez répondre à la question suivante pour améliorer votre compréhension de l'ensemble de données.
Nous avons pris le temps de parcourir les données. Passons maintenant à l'entraînement de notre modèle de machine learning.
Dans cette mise en situation, vous allez créer un modèle de classification. Comme nous avons deux classes, victoire ou défaite, on peut dire qu'il s'agit d'un modèle de classification binaire. Une équipe peut soit gagner un match, soit le perdre.
Lorsque cet atelier sera terminé, vous pourrez effectuer une prévision du nombre de points marqués par une équipe à l'aide d'un modèle de prévision, mais ce n'est pas l'objectif de ce chapitre.
Pour facilement déterminer si vous faites une prévision ou une classification, vous pouvez vérifier le type d'étiquette (colonne) de données que vous êtes en train de prédire :
Notre modèle de classification appliquera le machine learning avec un modèle statistique largement répandu, la régression logistique.
Nous avons besoin d'un modèle capable de générer une probabilité pour chaque valeur d'étiquette distincte possible, une "victoire" ou une "défaite" dans le cas présent. La régression logistique est le type de modèle idéal pour ce cas de figure. Bonne nouvelle : le modèle de ML effectuera automatiquement toutes les opérations mathématiques et optimisations nécessaires pendant l'entraînement. Les ordinateurs sont vraiment efficaces pour cela !
Pour créer notre modèle de classification dans BigQuery, il nous suffit d'écrire l'instruction SQL CREATE MODEL
et d'ajouter quelques options.
Cependant, avant de créer le modèle, nous allons commencer par lui trouver un emplacement dans notre projet.
bracketology
, puis cliquez sur CRÉER UN ENSEMBLE DE DONNÉES.Comme vous pouvez le constater, créer un modèle ne nécessite que quelques lignes de code SQL. En revanche, il est très important de choisir le type de modèle logistic_reg pour notre tâche de classification.
L'entraînement du modèle prend entre 3 et 5 minutes. À la fin du job d'entraînement, vous devez recevoir le résultat suivant :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Les utilisateurs expérimentés en machine learning noteront qu'ils peuvent personnaliser tous ces hyperparamètres (options définies avant l'exécution du modèle) en configurant leur valeur dans l'instruction OPTIONS
.
Si vous débutez en machine learning, BigQuery ML attribuera des valeurs par défaut appropriées pour les options que vous n'avez pas définies.
Reportez-vous à la liste des options de modèle de BigQuery ML pour plus d'informations.
Les modèles de machine learning "apprennent" à associer les caractéristiques connues à des étiquettes inconnues. Comme vous l'aurez peut-être déjà remarqué, certaines caractéristiques sont plus utiles que d'autres pour déterminer une victoire ou une défaite. Par exemple, la place au classement des têtes de série et le nom de l'école seront plus pertinentes que le jour de programmation du match.
Lorsqu'ils démarrent leur processus d'entraînement, les modèles de machine learning n'ont pas cette intuition et attribuent généralement une pondération aléatoire à chaque caractéristique.
Au cours du processus d'entraînement, le modèle va optimiser le niveau d'importance accordé à chaque caractéristique. À chaque exécution, il essaye de minimiser la perte de données d'entraînement et la perte de données d'évaluation.
Si vous vous rendez compte que le taux de perte de données d'évaluation final est significativement plus élevé que celui des données d'entraînement, cela signifie que votre modèle est en surapprentissage ou qu'il mémorise vos données d'entraînement au lieu d'apprendre quelles sont les relations généralisables.
Pour voir combien d'entraînements votre modèle a suivis, cliquez sur l'onglet ENTRAÎNEMENT et sélectionnez Table sous l'option "Afficher en tant que".
Au cours de cette exécution spécifique, le modèle a terminé trois itérations d'entraînement en environ 20 secondes. Il est possible que vos statistiques soient différentes de celles-ci.
Après l'entraînement, vous pourrez déterminer quelles caractéristiques se sont avérées les plus utiles pour votre modèle en analysant les pondérations.
Le résultat doit se présenter comme suit :
Comme vous pouvez le voir, si une équipe figure parmi les premières (1, 2, 3) ou les dernières (14, 15, 16) têtes de série, le modèle accorde plus d'importance à la caractéristique dans la détermination de la victoire ou de la défaite. En effet, les premières têtes de série sont censées obtenir de bons résultats au cours du tournoi.
L'essence même du machine learning est d'être capable, sans abreuver le modèle d'instructions SQL IF THEN
codées en dur, de lui faire comprendre que si (IF
) l'équipe est tête de série n° 1, alors (THEN
) il faut estimer qu'elle a 80 % de chances supplémentaires de l'emporter. Le machine learning apprend les relations de manière autonome, sans s'appuyer sur une logique ou des règles codées en dur. Consultez la documentation sur les pondérations pour la syntaxe BQML pour plus d'informations.
Pour évaluer les performances de votre modèle, il suffit d'exécuter la commande ML.EVALUATE
sur le modèle entraîné.
Vous devez obtenir un résultat semblable à celui-ci :
La valeur sera juste à environ 69 %. C'est plus précis que de jouer à pile ou face, mais cela mériterait d'être amélioré.
Votre modèle ayant été entraîné sur des données historiques jusqu'à la saison 2017 incluse (ce qui constituait toutes les données en votre possession), il est maintenant possible de faire des prédictions pour la saison 2018. Votre équipe de science des données vient de vous fournir les résultats du tournoi de l'année 2018, qui se trouvent dans une table distincte de votre ensemble de données d'origine.
Pour générer des prédictions, il suffit d'appeler ML.PREDICT
sur un modèle entraîné et de transmettre l'ensemble de données pour lequel vous voulez générer une prédiction.
Peu après, vous devriez obtenir un résultat semblable à celui-ci :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Votre ensemble de données d'origine comporte à présent trois colonnes supplémentaires :
Comme vous connaissez les résultats du tournoi March Madness 2018, vous allez rapidement voir si les prédictions du modèle étaient justes. (Conseil : Si vous voulez générer des prédictions pour le tournoi March Madness de cette année, utilisez un ensemble de données contenant le classement des têtes de série et le nom des équipes de l'année 2019. Bien entendu, la colonne d'étiquette sera vide, puisque les matchs concernés n'ont pas encore eu lieu. C'est là qu'intervient la prédiction !)
Vous devez obtenir un résultat semblable à celui-ci :
Sur 134 prédictions (67 matchs de tournoi), notre modèle s'est trompé 38 fois. Il obtient un score global de 70 % concernant le tournoi 2018.
Beaucoup d'autres facteurs et caractéristiques entrent en ligne de compte dans les victoires très serrées et les défaites surprises du tournoi March Madness, ce qui en fait un événement très difficile à prédire pour les modèles.
Essayons de trouver les résultats les plus surprenants du tournoi 2017, d'après le modèle. Nous allons chercher des prédictions pour lesquelles le niveau de confiance du modèle était supérieur à 80 %, mais qui se sont révélées ERRONÉES.
Vous devriez obtenir un résultat semblable à celui-ci :
À la fin du match, Barry Odom, entraîneur de l'UMBC, a déclaré : "Incroyable, c'est tout ce que je peux dire." Pour en savoir plus, consultez l'article sur le match de basket-ball masculin du tournoi 2018 entre l'UMBC et l'équipe de Virginia.
Notre prochain défi sera de créer un modèle plus performant SANS utiliser les caractéristiques basées sur le nom des équipes et leur place dans le classement des têtes de série.
Dans la deuxième partie de cet atelier, vous allez créer un autre modèle de ML en utilisant de nouvelles caractéristiques plus détaillées.
Vous savez désormais comment créer des modèles de ML avec BigQuery ML. Votre équipe de science des données vous a fourni un nouvel ensemble de données fournissant des détails sur chaque match, qui contient de nouvelles statistiques d'équipes que votre modèle pourra apprendre. Exemples :
Peu après, vous devriez obtenir un résultat semblable à celui-ci :
Cliquez sur Vérifier ma progression pour valider l'objectif.
La table doit ressembler à celle-ci :
Si vous n'obtenez pas le même résultat que sur la capture d'écran ci-dessus, ne vous inquiétez pas.
Classement de l'efficacité de l'adversaire : parmi toutes les équipes, quel est le classement de notre adversaire par rapport au nombre de paniers marqués dans la durée (points par 100 possessions du ballon) ? Une valeur faible est préférable.
Classement du rythme de l'adversaire : parmi toutes les équipes, quel est le classement de l'adversaire pour la possession du ballon (nombre de possessions en 40 minutes) ? Une valeur faible est préférable.
Vous disposez dorénavant de caractéristiques pertinentes sur l'efficacité des équipes en termes de paniers marqués et de capacité à rester en possession du ballon. Nous allons les utiliser pour entraîner notre deuxième modèle.
Pour éviter que ce nouveau modèle "se souvienne des bonnes équipes", effacez les noms des équipes et leur place au classement des têtes de série des caractéristiques pour travailler uniquement avec les nouvelles métriques.
Peu après, vous devriez obtenir un résultat semblable à ceci :
Vous devriez obtenir un résultat semblable à ceci :
Félicitations ! Vous venez d'entraîner un modèle avec des caractéristiques différentes et avez fait augmenter sa justesse à environ 75 %, soit une hausse de 5 % par rapport au modèle d'origine.
Il est indispensable de comprendre qu'avec le machine learning, la qualité des caractéristiques de l'ensemble de données a une influence majeure sur la justesse du modèle.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Vous devez normalement obtenir le résultat suivant :
Nous avons utilisé la valeur absolue des pondérations pour les classer, de sorte à les faire apparaître par ordre d'importance (pour la détermination d'une victoire ou d'une défaite).
Comme vous pouvez le constater dans les résultats, les trois premières sont pace_stat_diff
, eff_stat_diff
et eff_rating_diff
. Prenons le temps de mieux les comprendre.
Différence entre les statistiques (possessions/40 minutes) des deux équipes. D'après ce modèle, il s'agit du facteur le plus important pour déterminer l'issue du match.
Différence entre les statistiques (points nets/100 possessions) des deux équipes.
Différence entre les classements normalisés portant sur l'efficacité à marquer des paniers pour les deux équipes.
Quelles caractéristiques le modèle a-t-il négligées dans ses prédictions ? Saison. Il s'agissait du dernier élément de la liste des pondérations énumérées ci-dessus. Ce modèle met en avant le fait que la saison (2013, 2014, 2015) n'est pas un élément utile dans la prédiction de l'issue du match. L'année 2014 n'avait rien de particulièrement magique pour les équipes.
Il est intéressant de voir que le modèle a accordé plus d'importance à la dynamique d'une équipe (sa tendance à conserver la possession du ballon) qu'à son efficacité à marquer.
Vous devriez obtenir un résultat semblable à celui-ci :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Comme vous connaissez le résultat réel des matchs, vous pouvez facilement identifier les prédictions incorrectes en vous appuyant sur le nouvel ensemble de données de test.
Vous voyez dans le nombre d'enregistrements renvoyés par la requête que le modèle s'est trompé à 48 reprises (24 matchs) sur le nombre total d'associations possibles pour le tournoi de 2018, ce qui donne une justesse de 64 %. Découvrons les surprises qui ont fait de 2018 une année mémorable.
Vous devriez obtenir le résultat suivant :
La plus grande surprise est celle que notre modèle précédent avait déjà trouvée : le match entre UMBC et Virginia. Pour découvrir l'ampleur des bouleversements de la hiérarchie auxquels nous avons assisté lors du tournoi 2018, consultez l'article Has This Been the “Maddest” March?. L'année 2019 nous réserve-t-elle autant de surprises ?
Que peut-on dire des cas où le modèle plus simpliste (avec comparaison des têtes de série) s'est trompé tandis que le modèle avancé a effectué une prédiction juste ?
Vous devriez obtenir le résultat suivant :
Le modèle a prédit une victoire surprise des Florida St. (09) dans le match qui les a opposés à Xavier (01), et c'est bien ce qui s'est produit !
Ce résultat inattendu a été correctement prédit par le nouveau modèle qui s'est basé sur les nouvelles caractéristiques plus avancées, comme la dynamique et l'efficacité à marquer (alors même que la place au classement des têtes de série suggérait l'inverse). Regardez les moments forts du match sur YouTube.
Nous connaissons maintenant les équipes et les têtes de série pour mars 2019, ce qui nous permet de prédire le résultat des matchs à venir.
Vous devriez obtenir le résultat suivant :
Étant donné que nous ignorons quelles équipes s'affronteront durant le tournoi, nous allons toutes les opposer les unes aux autres.
Dans SQL, la fonction de jointure croisée (CROSS JOIN) permet de représenter le fait que chaque équipe mentionnée dans la table affronte toutes les autres.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Statistique : Duke (1) est 88,5 % plus susceptible de gagner que North Dakota St. (16) le 22 mars 2019.
Essayez de modifier le filtre school_ncaa au-dessus pour prédire les matchs de votre tableau. Notez le niveau de confiance du modèle et profitez des matchs !
Vous avez utilisé BigQuery ML pour prédire quelles seraient les équipes victorieuses lors du tournoi de basket-ball masculin de la NCAA.
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 19 mars 2024
Dernier test de l'atelier : 19 mars 2024
Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
One lab at a time
Confirm to end all existing labs and start this one