Testez vos connaissances et partagez-les avec notre communauté

done

Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

Génération augmentée par récupération (RAG) multimodale à l'aide de l'API Gemini Vertex AI

Atelier 1 heure universal_currency_alt 5 crédits show_chart Intermédiaire

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

GSP1231
Présentation
Objectifs
Préparation
Tâche 1 : Ouvrir le notebook dans Vertex AI Workbench
Tâche 2 : Configurer le notebook
Tâche 3 : Utiliser le modèle Gemini Pro
Tâche 4 : Obtenir les métadonnées de documents contenant du texte et des images
Tâche 5 : Recherche textuelle
Tâche 6 : Recherche d'images
Tâche 7 : Génération augmentée par récupération (RAG) multimodale
Félicitations !

Testez vos connaissances et partagez-les avec notre communauté

done

Accédez à plus de 700 ateliers pratiques, badges de compétence et cours

GSP1231

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Gemini est une famille de modèles d'IA générative développés par Google DeepMind, et conçus pour les cas d'utilisation multimodaux. L'API Gemini vous donne accès aux modèles Gemini Pro Vision et Gemini Pro.

La génération augmentée par récupération (RAG) est une technique populaire utilisée pour permettre aux grands modèles de langage (LLM) d'accéder à des données externes, mais aussi en tant que mécanisme d'ancrage pour limiter les hallucinations. Les modèles RAG sont entraînés à récupérer des documents spécifiques à partir d'un vaste corpus, puis à générer une réponse fondée sur ces documents. Dans cet atelier, vous allez apprendre à effectuer un RAG multimodal avec des questions-réponses sur un document financier contenant à la fois du texte et des images.

Comparaison entre le RAG textuel et le RAG multimodal

Le RAG multimodal offre plusieurs avantages par rapport à le RAG textuel :

Meilleur accès aux connaissances : le RAG multimodal peut accéder aux informations textuelles et visuelles, et les traiter, afin de fournir au LLM une base de connaissances enrichie et plus complète.
Capacités de raisonnement améliorées : en intégrant des éléments visuels, le RAG multimodal peut effectuer des inférences mieux informées sur différents types de données.

Cet atelier explique comment utiliser le RAG avec l'API Gemini Vertex AI, des embeddings textuels (ou "plongements textuels") et des embeddings multimodaux pour créer un moteur de recherche de documents.

Objectifs

Dans cet atelier, vous allez apprendre à :

extraire et stocker les métadonnées de documents contenant à la fois du texte et des images, et générer les embeddings des documents ;
effectuer une recherche dans les métadonnées à l'aide de requêtes textuelles pour trouver du texte ou des images similaires ;
effectuer une recherche dans les métadonnées à l'aide de requêtes d'images pour trouver des images similaires ;
utiliser une requête textuelle en tant qu'entrée pour rechercher des réponses contextuelles avec du texte et des images.

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;

Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.

vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).

L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}}
Vous trouverez également le nom d'utilisateur dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}}
Vous trouverez également le mot de passe dans le panneau Détails concernant l'atelier.
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Pour afficher un menu contenant la liste des produits et services Google Cloud, cliquez sur le menu de navigation en haut à gauche. Icône du menu de navigation

Tâche 1 : Ouvrir le notebook dans Vertex AI Workbench

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Vertex AI > Workbench.
Recherchez le notebook generative-ai-jupyterlab et cliquez sur le bouton Ouvrir JupyterLab.

L'interface JupyterLab de votre instance Workbench s'ouvre dans un nouvel onglet de navigateur.

Tâche 2 : Configurer le notebook

Cliquez sur le fichier intro_multimodal_rag.ipynb.
Parcourez les sections Getting Started (Premiers pas) et Import libraries (Importer des bibliothèques) du notebook.
- Pour Project ID, utilisez et pour Location, utilisez .

Remarque : Vous pouvez ignorer les cellules du notebook avec la mention Colab only.

Cliquez sur Vérifier ma progression pour valider l'objectif. Installer le SDK Vertex AI pour Python et importer des bibliothèques

Dans les sections suivantes, vous allez parcourir les cellules du notebook pour apprendre à utiliser l'API Gemini afin de créer un système de RAG multimodal.

Tâche 3 : Utiliser le modèle Gemini Pro

Le modèle Gemini Pro (gemini-pro) est conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code. Dans cette section, vous allez télécharger quelques fonctions d'assistance nécessaires pour améliorer la lisibilité de ce notebook. Vous pouvez aussi consulter le code (intro_multimodal_rag_utils.py) directement sur GitHub.

Dans cette tâche, vous allez parcourir les cellules du notebook pour charger le modèle, télécharger les fonctions d'assistance et obtenir les documents et les images à partir de Cloud Storage.

Cliquez sur Vérifier ma progression pour valider l'objectif. Télécharger les images et les documents à partir de Cloud Storage.

Tâche 4 : Obtenir les métadonnées de documents contenant du texte et des images

Les données sources utilisées dans cet atelier sont une version modifiée du formulaire 10-K de Google, qui fournit une vue d'ensemble des performances financières, des activités commerciales, de la gestion et des facteurs de risque de l'entreprise. Puisque le document d'origine est assez volumineux, vous utiliserez à la place une version modifiée de seulement 14 pages. Bien qu'il soit tronqué, cet exemple de document contient quand même du texte et des images (tableaux, graphiques, etc.).

Dans cette tâche, vous allez parcourir les cellules du notebook pour extraire et stocker les métadonnées du texte et des images d'un document.

Remarque : L'exécution de la cellule permettant d'extraire et de stocker les métadonnées du texte et des images d'un document peut prendre quelques minutes.

Cliquez sur Vérifier ma progression pour valider l'objectif. Extraire et stocker les métadonnées du texte et des images d'un document.

Tâche 5 : Recherche textuelle

Commençons par une question rudimentaire et voyons si l'utilisation d'une recherche textuelle simple avec des embeddings textuels permet d'y répondre. Ici, nous souhaitons obtenir la valeur du revenu net de base et dilué par action de Google pour différents types d'actions.

Dans cette tâche, vous allez parcourir les cellules du notebook pour rechercher du texte et des images similaires à l'aide d'une requête textuelle.

Tâche 6 : Recherche d'images

Imaginez que vous recherchez des images, mais qu'au lieu de saisir des mots, vous basez votre requête sur une image. Vous disposez d'un tableau dont les chiffres indiquent le coût des revenus sur deux ans, et vous souhaitez trouver d'autres images similaires à partir du même document ou de plusieurs documents.

La capacité à identifier du texte et des images similaires à partir d'une entrée utilisateur, grâce à Gemini et aux embeddings, constitue une base essentielle du développement des systèmes de RAG multimodal, comme nous allons le voir dans la tâche suivante.

Dans cette tâche, vous allez parcourir les cellules du notebook pour rechercher des images similaires à l'aide d'une requête d'image.

Remarque : Vous devrez peut-être patienter quelques minutes avant d'obtenir la note de cette tâche.

Cliquez sur Vérifier ma progression pour valider l'objectif. Rechercher des images similaires à l'aide d'une requête d'image.

Raisonnement par comparaison

Imaginez que vous disposez d'un graphique qui compare les performances des actions de classe A de Google à celles d'entreprises du S&P 500 ou d'autres entreprises technologiques. Vous souhaitez connaître les performances des actions de classe C par rapport à ce graphique. Plutôt que de rechercher des images similaires, vous pouvez demander à Gemini de comparer les images pertinentes et de vous dire dans quelles actions vous devriez investir, en vous expliquant son raisonnement.

Dans cette tâche, vous allez parcourir les cellules du notebook pour comparer deux images et trouver celle qui est la plus similaire.

Tâche 7 : Génération augmentée par récupération (RAG) multimodale

À présent, nous allons réunir les connaissances que nous avons acquises pour implémenter le RAG multimodal. Vous allez utiliser tous les éléments que vous avez explorés dans les sections précédentes pour implémenter le RAG multimodal. Voici les étapes à suivre :

Étape 1 : L'utilisateur transmet une requête textuelle, dont la réponse est disponible dans le document sous forme d'images et de texte.
Étape 2 : Trouvez tous les éléments de texte présents dans les pages du document en utilisant une méthode semblable à celle que vous avez vue dans Recherche textuelle.
Étape 3 : Trouvez toutes les images similaires dans les pages du document qui correspondent à l'attribut image_description de la requête utilisateur en utilisant une méthode identique à celle que vous avez vue dans Recherche d'images.
Étape 4 : Combinez l'ensemble du texte et des images similaires obtenus aux étapes 2 et 3 en utilisant context_text et context_images.
Étape 5 : En utilisant Gemini, vous pouvez transmettre la requête utilisateur avec le contexte du texte et des images que vous avez obtenus aux étapes 2 et 3. Vous pouvez aussi ajouter une instruction spécifique que le modèle doit prendre en compte pour répondre à la requête utilisateur.
Étape 6 : Gemini génère la réponse, et vous pouvez afficher les citations pour vérifier l'ensemble du texte et des images pertinents utilisés pour répondre à la requête.

Dans cette tâche, vous allez parcourir les cellules du notebook pour effectuer un RAG multimodal.

Remarque : Vous devrez peut-être patienter quelques minutes avant d'obtenir la note de cette tâche.

Cliquez sur Vérifier ma progression pour valider l'objectif. Afficher les citations pour vérifier l'ensemble du texte et des images pertinents.

Félicitations !

Dans cet atelier, vous avez appris à créer un moteur de recherche de documents efficace en utilisant la génération augmentée de récupération (RAG) multimodale. Vous avez appris à extraire et à stocker les métadonnées de documents contenant à la fois du texte et des images, et à générer les embeddings des documents. Vous avez également vu comment effectuer une recherche dans les métadonnées à l'aide de requêtes textuelles et d'images pour trouver du texte et des images similaires. Enfin, vous avez appris à utiliser une requête textuelle en tant qu'entrée pour rechercher des réponses contextuelles avec du texte et des images.

Étapes suivantes et informations supplémentaires

Consultez la documentation sur l'IA générative sur Vertex AI.
Découvrez l'IA générative sur la chaîne YouTube Google Cloud Tech.
Dépôt officiel de l'IA générative Google Cloud
Exemples de notebook Gemini

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 13 juin 2024

Dernier test de l'atelier : 13 juin 2024

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.