Lab ini memperkenalkan Gemini, rangkaian model AI generatif multimodal yang dikembangkan oleh Google. Anda akan menggunakan Gemini API untuk mempelajari cara Gemini Flash dapat memahami dan menghasilkan respons berdasarkan teks, gambar, dan video.
Kemampuan multimodal Gemini memungkinkannya untuk:
Menganalisis gambar: Mendeteksi objek, memahami antarmuka pengguna, menafsirkan diagram, dan membandingkan kesamaan dan perbedaan visual.
Memproses video: Membuat deskripsi, mengekstrak tag dan sorotan, serta menjawab pertanyaan tentang konten video.
Anda akan bereksperimen dengan berbagai fitur ini melalui tugas langsung menggunakan Gemini API di Vertex AI.
Prasyarat
Sebelum memulai lab ini, Anda sebaiknya sudah mengetahui:
Menggunakan model Gemini Flash untuk menganalisis gambar dan video.
Memberikan perintah teks, gambar, dan video ke Gemini untuk menghasilkan respons informatif.
Menjelajahi penerapan praktis dari kemampuan multimodal Gemini.
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
Tombol Open Google Cloud console
Waktu tersisa
Kredensial sementara yang harus Anda gunakan untuk lab ini
Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
Klik Next.
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
Klik halaman berikutnya:
Setujui persyaratan dan ketentuan.
Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Tugas 1. Membuka notebook di Vertex AI Workbench
Di Konsol Google Cloud, pada Navigation menu (), klik Vertex AI > Workbench.
Cari instance lalu klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Tugas 2. Menyiapkan notebook
Buka file .
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
Jalankan bagian Getting Started dan Import libraries pada notebook.
Untuk Project ID, gunakan , sedangkan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only. Jika Anda mendapatkan respons 429 dari salah satu eksekusi sel notebook, tunggu 1 menit sebelum menjalankan sel kembali untuk melanjutkan.
Tugas 3. Menggunakan model Gemini Flash
Gemini Flash adalah model multimodal yang mendukung perintah multimodal. Anda dapat menyertakan teks, gambar, dan video dalam perintah dan mendapatkan respons teks atau kode.
Dalam tugas ini, jalankan sel-sel notebook untuk melihat cara menggunakan model Gemini Flash. Kembali ke sini untuk memeriksa kemajuan Anda sembari menyelesaikan tujuan.
Pemahaman gambar di banyak gambar
Salah satu kemampuan Gemini adalah kemampuan memahami informasi dalam berbagai gambar. Dalam contoh ini, Anda akan menggunakan Gemini untuk menghitung total biaya bahan makanan menggunakan gambar buah-buahan dan daftar harga.
Jalankan bagian Image understanding across multiple images pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Pemahaman gambar di banyak gambar
Memahami Layar dan Antarmuka
Gemini juga dapat mengekstrak informasi dari layar peralatan, UI, screenshot, ikon, dan tata letak. Dalam contoh ini, Anda akan menggunakan Gemini untuk mengekstrak informasi dari kompor guna membantu pengguna menavigasi UI dan merespons dalam berbagai bahasa:
Jalankan bagian Understanding Screens and Interfaces pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Memahami Layar dan Antarmuka
Memahami hubungan entity dalam diagram teknis
Gemini memiliki kemampuan multimodal yang memungkinkannya memahami diagram dan mengambil langkah-langkah yang dapat ditindaklanjuti, seperti pengoptimalan atau pembuatan kode. Dalam contoh ini, Anda akan melihat bagaimana Gemini dapat menguraikan diagram hubungan entity (ER), memahami hubungan antartabel, mengidentifikasi persyaratan untuk pengoptimalan di lingkungan tertentu seperti BigQuery, dan bahkan membuat kode yang sesuai.
Jalankan bagian Understanding entity relationships in technical diagrams pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Memahami hubungan entity dalam diagram teknis
Rekomendasi berdasarkan banyak gambar
Gemini mampu membandingkan gambar dan memberikan rekomendasi. Ini bisa berguna dalam industri seperti e-commerce dan retail. Dalam contoh ini, Anda akan menggunakan Gemini untuk merekomendasikan kacamata mana yang lebih cocok untuk wajah berbentuk oval.
Jalankan bagian Recommendations based on multiple images pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Rekomendasi berdasarkan banyak gambar
Kesamaan/Perbedaan
Gemini dapat membandingkan gambar dan mengidentifikasi kesamaan atau perbedaan antarobjek. Dalam contoh ini, Anda akan menggunakan Gemini untuk membandingkan dua gambar dari lokasi yang sama dan mengidentifikasi perbedaan di antara keduanya.
Jalankan bagian Similarity/Differences pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Kesamaan/Perbedaan
Membuat deskripsi video
Gemini dapat menghasilkan deskripsi video. Dalam contoh ini, Anda akan menggunakan Gemini untuk membuat deskripsi video dari video pantai laut Mediterania.
Jalankan bagian Generating a video description pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Membuat deskripsi video
Mengekstrak tag objek di seluruh video
Gemini juga dapat mengekstrak tag di seluruh video. Dalam contoh ini, Anda akan menggunakan Gemini untuk mengekstrak tag objek dari sebuah video pemotretan dan membuat hashtag.
Jalankan bagian Extracting tags of objects throughout the video pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Mengekstrak tag objek di seluruh video
Mengajukan lebih banyak pertanyaan tentang video
Gemini dapat menjawab pertanyaan tentang sebuah video. Dalam contoh ini, Anda akan menggunakan Gemini untuk menjawab pertanyaan tentang video dan memberi respons JSON.
Jalankan bagian Asking more questions about a video pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Mengajukan lebih banyak pertanyaan tentang video
Mengambil informasi tambahan di luar video
Gemini juga dapat mengambil informasi tambahan di luar video. Dalam contoh ini, Anda akan menggunakan Gemini untuk mendapatkan informasi tambahan di luar video tersebut, seperti mengajukan pertanyaan spesifik tentang rute kereta api.
Jalankan bagian Retrieving extra information beyond the video pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Mengambil informasi tambahan di luar video
Selamat!
Sekarang Anda telah menyelesaikan lab! Di lab ini, Anda telah mempelajari cara menggunakan Gemini API di Vertex AI untuk membuat teks dari perintah teks dan gambar.
Langkah berikutnya/pelajari lebih lanjut
Baca referensi berikut untuk mempelajari Gemini lebih lanjut:
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 25 Maret 2025
Lab Terakhir Diuji pada 25 Maret 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.
Lab membuat project dan resource Google Cloud untuk jangka waktu tertentu
Lab memiliki batas waktu dan tidak memiliki fitur jeda. Jika lab diakhiri, Anda harus memulainya lagi dari awal.
Di kiri atas layar, klik Start lab untuk memulai
Gunakan penjelajahan rahasia
Salin Nama Pengguna dan Sandi yang diberikan untuk lab tersebut
Klik Open console dalam mode pribadi
Login ke Konsol
Login menggunakan kredensial lab Anda. Menggunakan kredensial lain mungkin menyebabkan error atau dikenai biaya.
Setujui persyaratan, dan lewati halaman resource pemulihan
Jangan klik End lab kecuali jika Anda sudah menyelesaikan lab atau ingin mengulanginya, karena tindakan ini akan menghapus pekerjaan Anda dan menghapus project
Konten ini tidak tersedia untuk saat ini
Kami akan memberi tahu Anda melalui email saat konten tersedia
Bagus!
Kami akan menghubungi Anda melalui email saat konten tersedia
Satu lab dalam satu waktu
Konfirmasi untuk mengakhiri semua lab yang ada dan memulai lab ini
Gunakan penjelajahan rahasia untuk menjalankan lab
Gunakan jendela Samaran atau browser pribadi untuk menjalankan lab ini. Langkah ini akan mencegah konflik antara akun pribadi Anda dan akun Siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
Di lab ini, Anda akan mempelajari cara menerapkan kemampuan Gemini untuk memahami dan memproses teks, gambar, dan jenis data lainnya yang digabungkan di berbagai skenario dunia nyata.