arrow_back

Retrieval Augmented Generation (RAG) Multimodal menggunakan Vertex AI Gemini API

Login Gabung
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

Retrieval Augmented Generation (RAG) Multimodal menggunakan Vertex AI Gemini API

Lab 1 jam universal_currency_alt 5 Kredit show_chart Menengah
info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

GSP1231

Lab Mandiri Google Cloud

Ringkasan

Gemini adalah rangkaian model AI generatif yang dikembangkan oleh Google DeepMind dan dirancang untuk kasus penggunaan multimodal. Gemini API menyediakan akses ke model Gemini Pro Vision dan Gemini Pro.

Retrieval augmented generation (RAG) telah menjadi paradigma populer dalam memungkinkan LLM mengakses data eksternal dan juga sebagai mekanisme landasan untuk memitigasi halusinasi. Model RAG dilatih untuk mengambil dokumen relevan dari corpus berjumlah besar lalu membuat respons berdasarkan dokumen yang diambil. Di lab ini, Anda akan mempelajari cara menjalankan RAG multimodal di mana Anda akan melakukan Tanya Jawab atas dokumen keuangan yang berisi teks dan gambar.

Membandingkan RAG berbasis teks dan multimodal

RAG multimodal menawarkan beberapa keunggulan dibandingkan dengan RAG berbasis teks:

  1. Akses informasi yang ditingkatkan: RAG multimodal dapat mengakses dan memproses informasi tekstual serta visual, sehingga memberikan pusat informasi yang lebih kaya dan komprehensif untuk LLM.
  2. Kemampuan logika yang ditingkatkan: Dengan menyertakan petunjuk visual, RAG multimodal dapat membuat inferensi yang lebih tepat di berbagai jenis modalitas data.

Lab ini menunjukkan kepada Anda cara menggunakan RAG dengan Vertex AI Gemini API, embedding teks, dan embedding multimodal, untuk membangun mesin telusur dokumen.

Tujuan

Di lab ini, Anda akan mempelajari cara:

  • Mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding dokumen.
  • Mencari metadata dengan kueri teks untuk menemukan teks atau gambar yang serupa.
  • Mencari metadata dengan kueri gambar untuk menemukan gambar yang serupa.
  • Mencari jawaban kontekstual dengan teks dan gambar menggunakan kueri teks sebagai input.

Penyiapan dan persyaratan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:

    • Tombol Open Google Cloud console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

    Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.

    {{{user_0.username | "Username"}}}

    Anda juga dapat menemukan Username di panel Lab Details.

  4. Klik Next.

  5. Salin Password di bawah dan tempel ke dialog Welcome.

    {{{user_0.password | "Password"}}}

    Anda juga dapat menemukan Password di panel Lab Details.

  6. Klik Next.

    Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  7. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk melihat menu dengan daftar produk dan layanan Google Cloud, klik Navigation menu di kiri atas. Ikon Navigation menu

Tugas 1. Membuka notebook di Vertex AI Workbench

  1. Di Konsol Google Cloud, pada Navigation menu, klik Vertex AI > Workbench.

  2. Temukan notebook generative-ai-jupyterlab dan klik tombol Open JupyterLab.

Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.

Tugas 2. Menyiapkan notebook

  1. Klik file intro_multimodal_rag.ipynb.

  2. Jalankan bagian Getting Started dan Import libraries pada notebook.

    • Untuk Project ID, gunakan , dan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only.

Klik Check my progress untuk memverifikasi tujuan. Menginstal Vertex AI SDK untuk Python lalu mengimpor library.

Pada bagian berikut ini, Anda akan menjalankan sel notebook untuk melihat cara Gemini API membangun sistem RAG multimodal.

Tugas 3. Menggunakan model Gemini Pro

Model Gemini Pro (gemini-pro) dirancang untuk menangani tugas bahasa alami, teks multiturn dan chat kode, serta pembuatan kode. Di bagian ini, Anda akan mendownload beberapa fungsi bantuan yang dibutuhkan oleh notebook ini untuk meningkatkan keterbacaan. Anda juga dapat melihat kode (intro_multimodal_rag_utils.py) secara langsung di GitHub.

  1. Dalam tugas ini, jalankan sel notebook untuk memuat model dan mendownload fungsi bantuan serta mendapatkan dokumen dan gambar dari Cloud Storage.

Klik Check my progress untuk memverifikasi tujuan. Mendownload gambar dan dokumen dari Cloud Storage.

Tugas 4. Membangun metadata dokumen yang berisi teks dan gambar

Data sumber yang Anda gunakan di lab ini adalah versi modifikasi dari Google-10K yang memberikan ringkasan komprehensif terkait performa keuangan, operasi bisnis, pengelolaan, dan faktor risiko perusahaan. Karena dokumen asli berukuran besar, Anda akan menggunakan versi modifikasi yang hanya berisi 14 halaman sebagai gantinya. Meskipun dipotong, dokumen sampel ini masih berisi teks beserta gambar seperti tabel, diagram, dan grafik.

  1. Dalam tugas ini, jalankan sel notebook untuk mengekstrak dan menyimpan metadata teks serta gambar dari dokumen.
Catatan: Proses menjalankan sel notebook untuk mengekstrak dan menyimpan metadata teks serta gambar mungkin memerlukan waktu beberapa menit.

Klik Check my progress untuk memverifikasi tujuan. Mengekstrak dan menyimpan metadata teks serta gambar dari dokumen.

Tugas 5. Penelusuran Teks

Mari memulai penelusuran dengan pertanyaan sederhana dan lihat apakah penelusuran teks sederhana yang menggunakan embedding teks dapat menjawab pertanyaan tersebut. Jawaban yang diharapkan adalah yang menunjukkan nilai laba bersih dasar dan terdilusi per saham Google untuk berbagai jenis saham.

  1. Dalam tugas ini, jalankan sel notebook untuk mencari teks dan gambar yang serupa menggunakan kueri teks.

Tugas 6. Penelusuran Gambar

Bayangkan Anda mencari gambar, tetapi alih-alih mengetik kata-kata, Anda menggunakan gambar sebenarnya sebagai petunjuk. Anda memiliki tabel berisi angka biaya pendapatan selama dua tahun, dan Anda ingin mencari gambar lain yang serupa, dari dokumen yang sama atau beberapa dokumen sekaligus.

Kemampuan untuk mengidentifikasi teks dan gambar serupa berdasarkan masukan pengguna, yang didukung oleh Gemini dan embedding, menjadi landasan penting untuk pengembangan sistem RAG multimodal, yang akan dipelajari dalam tugas berikutnya.

  1. Dalam tugas ini, jalankan sel notebook untuk mencari gambar yang serupa menggunakan kueri gambar.
Catatan: Anda mungkin perlu menunggu beberapa menit guna mendapatkan skor untuk tugas ini.

Klik Check my progress untuk memverifikasi tujuan. Mencari gambar yang serupa dengan kueri gambar.

Penalaran Komparatif

Bayangkan kita memiliki grafik yang menunjukkan kinerja saham Google Kelas A jika dibandingkan dengan perusahaan lain seperti S&P 500 atau perusahaan teknologi lainnya. Anda ingin mengetahui kinerja saham Kelas C jika dibandingkan dengan grafik tersebut. Alih-alih menemukan gambar lain yang serupa, Anda dapat meminta Gemini untuk membandingkan gambar yang relevan dan memberi tahu Anda agar lebih baik berinvestasi di saham yang mana. Gemini kemudian akan menjelaskan alasan dari pilihan tersebut.

  1. Dalam tugas ini, jalankan sel notebook untuk membandingkan dua gambar dan menemukan gambar yang paling mirip.

Tugas 7. Retrieval augmented generation (RAG) multimodal

Mari kita satukan semuanya untuk menerapkan RAG multimodal. Anda menggunakan semua elemen yang sudah Anda pelajari di bagian sebelumnya untuk menerapkan RAG multimodal. Berikut langkah-langkahnya:

  • Langkah 1: Pengguna memberikan kueri dalam format teks di mana informasi yang diharapkan tersedia di dokumen dan disematkan dalam gambar dan teks.
  • Langkah 2: Temukan semua potongan teks dari halaman dokumen menggunakan metode yang serupa dengan yang Anda pelajari di Penelusuran Teks.
  • Langkah 3: Temukan semua gambar yang serupa dari halaman berdasarkan kueri pengguna yang sesuai dengan image_description menggunakan metode yang sama dengan yang Anda pelajari di Penelusuran Gambar.
  • Langkah 4: Gabungkan semua teks dan gambar serupa yang ditemukan di langkah 2 dan 3 sebagai context_text dan context_images.
  • Langkah 5: Dengan bantuan Gemini, kita dapat meneruskan kueri pengguna dengan konteks teks dan gambar yang ditemukan di langkah 2 & 3. Anda juga dapat menambahkan perintah spesifik yang seharusnya diingat model saat menjawab kueri pengguna.
  • Langkah 6: Gemini memberikan jawaban, dan Anda dapat menampilkan kutipan untuk mengecek semua teks dan gambar relevan yang digunakan untuk menjawab kueri.
  1. Dalam tugas ini, jalankan sel notebook untuk mengoperasikan RAG multimodal.
Catatan: Anda mungkin perlu menunggu beberapa menit guna mendapatkan skor untuk tugas ini.

Klik Check my progress untuk memverifikasi tujuan. Menampilkan kutipan untuk mengecek semua teks dan gambar yang relevan.

Selamat!

Di lab ini, Anda telah mempelajari cara membuat mesin telusur dokumen yang canggih menggunakan Retrieval Augmented Generation (RAG) Multimodal. Anda telah mempelajari cara mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding untuk dokumen tersebut. Anda juga telah mempelajari cara mencari metadata menggunakan kueri teks dan gambar untuk menemukan teks dan gambar yang serupa. Terakhir, Anda telah mempelajari cara menggunakan kueri teks sebagai input untuk mencari jawaban kontekstual menggunakan teks dan gambar.

Langkah berikutnya/pelajari lebih lanjut

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 13 Juni 2024

Lab Terakhir Diuji pada 13 Juni 2024

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Konten ini tidak tersedia untuk saat ini

Kami akan memberi tahu Anda melalui email saat konten tersedia

Bagus!

Kami akan menghubungi Anda melalui email saat konten tersedia