Checkpoint
Install Vertex AI SDK for Python and import libraries
/ 20
Use the Gemini Pro model
/ 20
Build metadata of documents containing text and images
/ 20
Search similar image with image query
/ 20
Print citations and references
/ 20
Retrieval Augmented Generation (RAG) Multimodal menggunakan Vertex AI Gemini API
- GSP1231
- Ringkasan
- Tujuan
- Penyiapan dan persyaratan
- Tugas 1. Membuka notebook di Vertex AI Workbench
- Tugas 2. Menyiapkan notebook
- Tugas 3. Menggunakan model Gemini Pro
- Tugas 4. Membangun metadata dokumen yang berisi teks dan gambar
- Tugas 5. Penelusuran Teks
- Tugas 6. Penelusuran Gambar
- Tugas 7. Retrieval augmented generation (RAG) multimodal
- Selamat!
GSP1231
Ringkasan
Gemini adalah rangkaian model AI generatif yang dikembangkan oleh Google DeepMind dan dirancang untuk kasus penggunaan multimodal. Gemini API menyediakan akses ke model Gemini Pro Vision dan Gemini Pro.
Retrieval augmented generation (RAG) telah menjadi paradigma populer dalam memungkinkan LLM mengakses data eksternal dan juga sebagai mekanisme landasan untuk memitigasi halusinasi. Model RAG dilatih untuk mengambil dokumen relevan dari corpus berjumlah besar lalu membuat respons berdasarkan dokumen yang diambil. Di lab ini, Anda akan mempelajari cara menjalankan RAG multimodal di mana Anda akan melakukan Tanya Jawab atas dokumen keuangan yang berisi teks dan gambar.
Membandingkan RAG berbasis teks dan multimodal
RAG multimodal menawarkan beberapa keunggulan dibandingkan dengan RAG berbasis teks:
- Akses informasi yang ditingkatkan: RAG multimodal dapat mengakses dan memproses informasi tekstual serta visual, sehingga memberikan pusat informasi yang lebih kaya dan komprehensif untuk LLM.
- Kemampuan logika yang ditingkatkan: Dengan menyertakan petunjuk visual, RAG multimodal dapat membuat inferensi yang lebih tepat di berbagai jenis modalitas data.
Lab ini menunjukkan kepada Anda cara menggunakan RAG dengan Vertex AI Gemini API, embedding teks, dan embedding multimodal, untuk membangun mesin telusur dokumen.
Tujuan
Di lab ini, Anda akan mempelajari cara:
- Mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding dokumen.
- Mencari metadata dengan kueri teks untuk menemukan teks atau gambar yang serupa.
- Mencari metadata dengan kueri gambar untuk menemukan gambar yang serupa.
- Mencari jawaban kontekstual dengan teks dan gambar menggunakan kueri teks sebagai input.
Penyiapan dan persyaratan
Sebelum mengklik tombol Mulai Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account. -
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}} Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}} Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan. -
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Tugas 1. Membuka notebook di Vertex AI Workbench
-
Di Konsol Google Cloud, pada Navigation menu, klik Vertex AI > Workbench.
-
Temukan notebook
generative-ai-jupyterlab
dan klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Tugas 2. Menyiapkan notebook
-
Klik file
intro_multimodal_rag.ipynb
. -
Jalankan bagian Getting Started dan Import libraries pada notebook.
- Untuk Project ID, gunakan
, dan untuk Location, gunakan .
- Untuk Project ID, gunakan
Klik Check my progress untuk memverifikasi tujuan.
Pada bagian berikut ini, Anda akan menjalankan sel notebook untuk melihat cara Gemini API membangun sistem RAG multimodal.
Tugas 3. Menggunakan model Gemini Pro
Model Gemini Pro (gemini-pro
) dirancang untuk menangani tugas bahasa alami, teks multiturn dan chat kode, serta pembuatan kode. Di bagian ini, Anda akan mendownload beberapa fungsi bantuan yang dibutuhkan oleh notebook ini untuk meningkatkan keterbacaan. Anda juga dapat melihat kode (intro_multimodal_rag_utils.py
) secara langsung di GitHub.
- Dalam tugas ini, jalankan sel notebook untuk memuat model dan mendownload fungsi bantuan serta mendapatkan dokumen dan gambar dari Cloud Storage.
Klik Check my progress untuk memverifikasi tujuan.
Tugas 4. Membangun metadata dokumen yang berisi teks dan gambar
Data sumber yang Anda gunakan di lab ini adalah versi modifikasi dari Google-10K yang memberikan ringkasan komprehensif terkait performa keuangan, operasi bisnis, pengelolaan, dan faktor risiko perusahaan. Karena dokumen asli berukuran besar, Anda akan menggunakan versi modifikasi yang hanya berisi 14 halaman sebagai gantinya. Meskipun dipotong, dokumen sampel ini masih berisi teks beserta gambar seperti tabel, diagram, dan grafik.
- Dalam tugas ini, jalankan sel notebook untuk mengekstrak dan menyimpan metadata teks serta gambar dari dokumen.
Klik Check my progress untuk memverifikasi tujuan.
Tugas 5. Penelusuran Teks
Mari memulai penelusuran dengan pertanyaan sederhana dan lihat apakah penelusuran teks sederhana yang menggunakan embedding teks dapat menjawab pertanyaan tersebut. Jawaban yang diharapkan adalah yang menunjukkan nilai laba bersih dasar dan terdilusi per saham Google untuk berbagai jenis saham.
- Dalam tugas ini, jalankan sel notebook untuk mencari teks dan gambar yang serupa menggunakan kueri teks.
Tugas 6. Penelusuran Gambar
Bayangkan Anda mencari gambar, tetapi alih-alih mengetik kata-kata, Anda menggunakan gambar sebenarnya sebagai petunjuk. Anda memiliki tabel berisi angka biaya pendapatan selama dua tahun, dan Anda ingin mencari gambar lain yang serupa, dari dokumen yang sama atau beberapa dokumen sekaligus.
Kemampuan untuk mengidentifikasi teks dan gambar serupa berdasarkan masukan pengguna, yang didukung oleh Gemini dan embedding, menjadi landasan penting untuk pengembangan sistem RAG multimodal, yang akan dipelajari dalam tugas berikutnya.
- Dalam tugas ini, jalankan sel notebook untuk mencari gambar yang serupa menggunakan kueri gambar.
Klik Check my progress untuk memverifikasi tujuan.
Penalaran Komparatif
Bayangkan kita memiliki grafik yang menunjukkan kinerja saham Google Kelas A jika dibandingkan dengan perusahaan lain seperti S&P 500 atau perusahaan teknologi lainnya. Anda ingin mengetahui kinerja saham Kelas C jika dibandingkan dengan grafik tersebut. Alih-alih menemukan gambar lain yang serupa, Anda dapat meminta Gemini untuk membandingkan gambar yang relevan dan memberi tahu Anda agar lebih baik berinvestasi di saham yang mana. Gemini kemudian akan menjelaskan alasan dari pilihan tersebut.
- Dalam tugas ini, jalankan sel notebook untuk membandingkan dua gambar dan menemukan gambar yang paling mirip.
Tugas 7. Retrieval augmented generation (RAG) multimodal
Mari kita satukan semuanya untuk menerapkan RAG multimodal. Anda menggunakan semua elemen yang sudah Anda pelajari di bagian sebelumnya untuk menerapkan RAG multimodal. Berikut langkah-langkahnya:
- Langkah 1: Pengguna memberikan kueri dalam format teks di mana informasi yang diharapkan tersedia di dokumen dan disematkan dalam gambar dan teks.
-
Langkah 2: Temukan semua potongan teks dari halaman dokumen menggunakan metode yang serupa dengan yang Anda pelajari di
Penelusuran Teks
. -
Langkah 3: Temukan semua gambar yang serupa dari halaman berdasarkan kueri pengguna yang sesuai dengan
image_description
menggunakan metode yang sama dengan yang Anda pelajari diPenelusuran Gambar
. -
Langkah 4: Gabungkan semua teks dan gambar serupa yang ditemukan di langkah 2 dan 3 sebagai
context_text
dancontext_images
. - Langkah 5: Dengan bantuan Gemini, kita dapat meneruskan kueri pengguna dengan konteks teks dan gambar yang ditemukan di langkah 2 & 3. Anda juga dapat menambahkan perintah spesifik yang seharusnya diingat model saat menjawab kueri pengguna.
- Langkah 6: Gemini memberikan jawaban, dan Anda dapat menampilkan kutipan untuk mengecek semua teks dan gambar relevan yang digunakan untuk menjawab kueri.
- Dalam tugas ini, jalankan sel notebook untuk mengoperasikan RAG multimodal.
Klik Check my progress untuk memverifikasi tujuan.
Selamat!
Di lab ini, Anda telah mempelajari cara membuat mesin telusur dokumen yang canggih menggunakan Retrieval Augmented Generation (RAG) Multimodal. Anda telah mempelajari cara mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding untuk dokumen tersebut. Anda juga telah mempelajari cara mencari metadata menggunakan kueri teks dan gambar untuk menemukan teks dan gambar yang serupa. Terakhir, Anda telah mempelajari cara menggunakan kueri teks sebagai input untuk mencari jawaban kontekstual menggunakan teks dan gambar.
Langkah berikutnya/pelajari lebih lanjut
- Lihat dokumentasi Generative AI di Vertex AI.
- Pelajari AI Generatif lebih lanjut di channel YouTube Google Cloud Tech.
- Repositori resmi AI Generatif Google Cloud
- Contoh notebook Gemini
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 13 Juni 2024
Lab Terakhir Diuji pada 13 Juni 2024
Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.