arrow_back

Multimodalitas dengan Gemini

Login Gabung
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

Multimodalitas dengan Gemini

Lab 1 jam universal_currency_alt 5 Kredit show_chart Menengah
info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.
Uji dan bagikan pengetahuan Anda kepada komunitas kami.
done
Dapatkan akses ke lebih dari 700 lab praktik, badge keahlian, dan kursus

GSP1210

Lab Mandiri Google Cloud

Ringkasan

Gemini adalah rangkaian model AI generatif yang dikembangkan oleh Google DeepMind dan dirancang untuk kasus penggunaan multimodal. Gemini API menyediakan akses ke model Gemini Pro Vision dan Gemini Pro. Lab ini berfokus untuk mendemonstrasikan berbagai kasus penggunaan multimodal yang dapat memanfaatkan Gemini. Di lab ini, Anda akan mempelajari cara menggunakan Vertex AI Gemini API untuk membuat teks dari prompt teks, gambar, serta video.

Multimodalitas

Dibandingkan dengan LLM yang hanya mencakup teks, multimodalitas Gemini Pro Vision dapat digunakan untuk banyak kasus penggunaan baru:

Contoh kasus penggunaan dengan teks dan gambar sebagai input:

  • Mendeteksi objek dalam foto
  • Memahami layar dan antarmuka
  • Memahami gambar dan abstraksi
  • Memahami bagan dan diagram
  • Rekomendasi gambar berdasarkan preferensi pengguna
  • Membandingkan gambar untuk mencari persamaan, anomali, atau perbedaan

Contoh kasus penggunaan dengan teks dan video sebagai input:

  • Membuat deskripsi video
  • Mengekstrak tag objek di seluruh video
  • Mengekstrak highlight/pesan video

Tujuan

Di lab ini, Anda akan:

  • Menggunakan Vertex AI Gemini API untuk membuat teks dari prompt teks, gambar, dan video.

Penyiapan dan persyaratan

Sebelum mengklik tombol Mulai Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer, yang dimulai saat Anda mengklik Start Lab, akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab praktik ini dapat Anda gunakan untuk melakukan sendiri aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

  • Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
  • Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Jika Anda sudah memiliki project atau akun pribadi Google Cloud, jangan menggunakannya untuk lab ini agar terhindar dari tagihan ekstra pada akun Anda.

Cara memulai lab dan login ke Google Cloud Console

  1. Klik tombol Start Lab. Jika Anda perlu membayar lab, jendela pop-up akan terbuka untuk memilih metode pembayaran. Di sebelah kiri adalah panel Lab Details dengan info berikut:

    • Tombol Open Google Cloud console
    • Waktu tersisa
    • Kredensial sementara yang harus Anda gunakan untuk lab ini
    • Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
  2. Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

    Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

    Tips: Atur tab di jendela terpisah secara berdampingan.

    Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
  3. Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.

    {{{user_0.username | "Username"}}}

    Anda juga dapat menemukan Username di panel Lab Details.

  4. Klik Next.

  5. Salin Password di bawah dan tempel ke dialog Welcome.

    {{{user_0.password | "Password"}}}

    Anda juga dapat menemukan Password di panel Lab Details.

  6. Klik Next.

    Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
  7. Klik halaman berikutnya:

    • Setujui persyaratan dan ketentuan.
    • Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
    • Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk melihat menu dengan daftar produk dan layanan Google Cloud, klik Navigation menu di kiri atas. Ikon Navigation menu

Aktifkan Semua API yang Direkomendasikan

  1. Di Konsol Google Cloud, pada Navigation menu, klik Vertex AI.

  2. Klik Enable All Recommended APIs.

Tugas 1. Membuka notebook di Vertex AI Workbench

  1. Di Konsol Google Cloud, pada Navigation menu, klik Vertex AI > Workbench.

  2. Di halaman User-Managed Notebooks, cari notebook generative-ai-jupyterlab, lalu klik tombol Open JupyterLab.

Antarmuka JupyterLab terbuka di tab browser baru.

Tugas 2. Membuka folder generative-ai

  1. Buka folder generative-ai di sisi kiri notebook.

  2. Buka folder /gemini/use-cases/.

  3. Klik file intro_multimodal_use_cases.ipynb

  4. Jalankan bagian Getting Started dan Import libraries pada notebook.

    • Untuk Project ID, gunakan , dan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only.

Di bagian berikut, Anda akan menjalankan sel-sel notebook untuk melihat cara menggunakan Vertex AI Gemini API dengan Vertex AI SDK untuk Python.

Tugas 3. Menggunakan model Gemini Pro Vision

Gemini Pro Vision (gemini-pro-vision) adalah model multimodal yang mendukung prompt multimodal. Anda dapat menyertakan teks, gambar, dan video dalam permintaan prompt dan mendapatkan respons teks atau kode.

Dalam tugas ini, jalankan sel-sel notebook untuk melihat cara menggunakan model Gemini Pro Vision. Kembali ke sini untuk memeriksa kemajuan Anda sembari menyelesaikan tujuan.

Pemahaman gambar di banyak gambar

Salah satu kemampuan Gemini adalah kemampuan memahami informasi dalam berbagai gambar. Dalam contoh ini, Anda akan menggunakan Gemini untuk menghitung total biaya bahan makanan menggunakan gambar buah-buahan dan daftar harga.

Jalankan bagian Image understanding across multiple images pada notebook.

Klik Check my progress untuk memverifikasi tujuan. Pemahaman gambar di banyak gambar

Memahami Layar dan Antarmuka

Gemini juga dapat mengekstrak informasi dari layar peralatan, UI, screenshot, ikon, dan tata letak. Dalam contoh ini, Anda akan menggunakan Gemini untuk mengekstrak informasi dari kompor guna membantu pengguna menavigasi UI dan merespons dalam berbagai bahasa:

Jalankan bagian Understanding Screens and Interfaces pada notebook.

Klik Check my progress untuk memverifikasi tujuan. Memahami Layar dan Antarmuka

Memahami hubungan entity dalam diagram teknis

Gemini memiliki kemampuan multimodal yang memungkinkannya memahami diagram dan mengambil langkah-langkah yang dapat ditindaklanjuti, seperti pengoptimalan atau pembuatan kode. Dalam contoh ini, Anda akan melihat bagaimana Gemini dapat menguraikan diagram hubungan entity (ER), memahami hubungan antartabel, mengidentifikasi persyaratan untuk pengoptimalan di lingkungan tertentu seperti BigQuery, dan bahkan membuat kode yang sesuai.

Jalankan bagian Understanding entity relationships in technical diagrams pada notebook.

Klik Check my progress untuk memverifikasi tujuan. Memahami hubungan entity dalam diagram teknis

Rekomendasi berdasarkan banyak gambar

Gemini mampu membandingkan gambar dan memberikan rekomendasi. Ini bisa berguna dalam industri seperti e-commerce dan retail. Dalam contoh ini, Anda akan menggunakan Gemini untuk merekomendasikan kacamata mana yang lebih cocok untuk wajah berbentuk oval.

Jalankan bagian Recommendations based on multiple images pada notebook.

Klik Check my progress untuk memverifikasi tujuan. Rekomendasi berdasarkan banyak gambar

Kesamaan/Perbedaan

Gemini dapat membandingkan gambar dan mengidentifikasi kesamaan atau perbedaan antarobjek. Dalam contoh ini, Anda akan menggunakan Gemini untuk membandingkan dua gambar dari lokasi yang sama dan mengidentifikasi perbedaan di antara keduanya.

Jalankan bagian Similarity/Differences pada notebook.

Klik Check my progress untuk memverifikasi tujuan. Kesamaan/Perbedaan

Membuat deskripsi video

Gemini dapat menghasilkan deskripsi video. Dalam contoh ini, Anda akan menggunakan Gemini untuk membuat deskripsi video dari video pantai laut Mediterania.

Jalankan bagian Generating a video description pada notebook.

Mengekstrak tag objek di seluruh video

Gemini juga dapat mengekstrak tag di seluruh video. Dalam contoh ini, Anda akan menggunakan Gemini untuk mengekstrak tag objek dari sebuah video pemotretan dan membuat hashtag.

Jalankan bagian Extracting tags of objects throughout the video pada notebook.

Mengajukan lebih banyak pertanyaan tentang video

Gemini dapat menjawab pertanyaan tentang sebuah video. Dalam contoh ini, Anda akan menggunakan Gemini untuk menjawab pertanyaan tentang video dan memberi respons JSON.

Jalankan bagian Asking more questions about a video pada notebook.

Mengambil informasi tambahan di luar video

Gemini juga dapat mengambil informasi tambahan di luar video. Dalam contoh ini, Anda akan menggunakan Gemini untuk mendapatkan informasi tambahan di luar video tersebut, seperti mengajukan pertanyaan spesifik tentang rute kereta api.

Jalankan bagian Retrieving extra information beyond the video pada notebook.

Selamat!

Sekarang Anda telah menyelesaikan lab! Di lab ini, Anda telah mempelajari cara menggunakan Vertex AI Gemini API untuk membuat teks dari prompt teks dan gambar.

Langkah berikutnya/pelajari lebih lanjut

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 07 Maret 2024

Lab Terakhir Diuji pada 07 Maret 2024

Hak cipta 2024 Google LLC Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Konten ini tidak tersedia untuk saat ini

We will notify you via email when it becomes available

Bagus!

We will contact you via email if it becomes available