Model bahasa kecil di perangkat dengan multimodalitas, RAG, dan Panggilan Fungsi

20 MEI 2025
Mark Sherwood Senior Product Manager
Matthew Chan Staff Software Engineer
Marissa Ikonomidis Staff Software Engineer

Tahun lalu, Google AI Edge memperkenalkan dukungan untuk model bahasa kecil (SLM) di perangkat dengan empat model awal di Android, iOS, dan Web. Hari ini, kami dengan senang hati mengumumkan perluasan dukungan ke lebih dari selusin model, termasuk model Gemma 3 dan Gemma 3n baru, yang di-host di komunitas LiteRT Hugging Face baru kami.

Gemma 3n, yang tersedia melalui Google AI Edge sebagai pratinjau awal, adalah model bahasa kecil multimodal di perangkat pertama Gemma yang mendukung input teks, gambar, video, dan audio. Dipasangkan dengan library Retrieval Augmented Generation (RAG) dan Panggilan Fungsi baru kami, Anda memiliki semua yang dibutuhkan untuk membuat prototipe dan membangun fitur AI transformatif sepenuhnya di edge.

Izinkan pengguna mengontrol aplikasi dengan SLM di perangkat dan library panggilan fungsi baru kami

Dukungan model yang lebih luas

Anda dapat menemukan daftar model kami yang terus bertambah untuk dipilih di Komunitas LiteRT Hugging Face. Download salah satu model ini, lalu jalankan dengan mudah di perangkat hanya dengan beberapa baris kode. Model ini sepenuhnya dioptimalkan serta dikonversi untuk perangkat seluler dan web. Petunjuk lengkap tentang cara menjalankan model ini dapat ditemukan dalam dokumentasi kami dan pada setiap kartu model di Hugging Face.

Untuk menyesuaikan salah satu model ini, sempurnakan model dasar, lalu lakukan konversi dan kuantisasi model menggunakan library AI Edge yang sesuai. Kami memiliki Colab yang menunjukkan setiap langkah yang Anda butuhkan untuk menyempurnakan dan mengonversi Gemma 3 1B.

Dengan rilis terbaru alat kuantisasi, kami memiliki skema kuantisasi baru yang memungkinkan kuantisasi pasca-pelatihan int4 yang jauh lebih berkualitas. Dibandingkan dengan bf16, tipe data default untuk banyak model, kuantisasi int4 dapat mengurangi ukuran model bahasa hingga 2,5⁠–4X sekaligus mengurangi latensi dan konsumsi memori puncak secara signifikan.


Gemma 3 1B & Gemma 3n

Pada awal tahun ini, kami memperkenalkan Gemma 3 1B. Dengan ukuran hanya 529 MB, model ini dapat menjalankan hingga 2.585 token per detik pra-isi pada GPU seluler, yang memungkinkannya memproses hingga satu halaman konten dalam waktu kurang dari satu detik. Jejak kecil Gemma 3 1B memungkinkannya mendukung berbagai perangkat dan membatasi ukuran file yang perlu di-download pengguna akhir di aplikasi mereka.

Hari ini, kami dengan gembira mengumumkan penambahan pratinjau awal Gemma 3n ke koleksi model yang didukung. Varian parameter 2B dan 4B akan mendukung input teks, gambar, video, dan audio asli. Modalitas teks dan gambar tersedia di Hugging Face dengan audio yang akan segera hadir.

Gemma 3n menganalisis gambar sepenuhnya di perangkat

Gemma 3n sangat bagus untuk kasus penggunaan perusahaan di mana developer memiliki sumber daya penuh dari perangkat yang tersedia bagi mereka, yang memungkinkan untuk model yang lebih besar di perangkat seluler. Teknisi lapangan yang tidak memiliki layanan dapat mengambil foto bagian tertentu dan mengajukan pertanyaan. Pekerja di gudang atau dapur dapat memperbarui inventaris melalui suara saat tangan sedang sibuk.


Membawa konteks ke percakapan: Retrieval Augmented Generation (RAG) di Perangkat

Salah satu kemampuan baru paling menarik yang kami hadirkan di Google AI Edge adalah dukungan yang kuat untuk Retrieval Augmented Generation (RAG) di perangkat. RAG memungkinkan Anda mengaugmentasi model bahasa kecil dengan data khusus untuk aplikasi Anda, tanpa perlu melakukan penyempurnaan. Dari 1.000 halaman informasi atau 1.000 foto, RAG dapat membantu menemukan hanya bagian data yang paling relevan untuk dimasukkan ke model Anda.

Library RAG AI Edge bekerja dengan semua model bahasa kecil kami yang didukung. Selain itu, library ini menawarkan fleksibilitas untuk mengubah bagian mana pun dari pipeline RAG yang memungkinkan database khusus, metode chunking, dan fungsi pengambilan. Library RAG AI Edge saat ini tersedia di Android dan akan segera hadir di lebih banyak platform. Hal ini berarti aplikasi AI generatif di perangkat Anda kini dapat didasarkan pada informasi spesifik yang relevan bagi pengguna, yang membuka kelas fitur cerdas baru.


Tindakan pengaktifan: Panggilan fungsi di perangkat

Untuk membuat model bahasa di perangkat benar-benar interaktif, kami memperkenalkan panggilan fungsi di perangkat. Library Panggilan Fungsi AI Edge saat ini tersedia di Android dan akan segera hadir di lebih banyak platform. Library tersebut mencakup semua utilitas yang Anda perlukan untuk berintegrasi dengan model bahasa di perangkat, mendaftarkan fungsi aplikasi Anda, mengurai respons, dan memanggil fungsi Anda. Lihat dokumentasi untuk mencobanya sendiri.

Fitur canggih ini memungkinkan model bahasa Anda untuk secara cerdas memutuskan kapan harus memanggil fungsi atau API yang telah ditentukan dalam aplikasi Anda. Misalnya, dalam aplikasi contoh, kami mendemonstrasikan penggunaan panggilan fungsi untuk mengisi formulir melalui bahasa alami. Dalam konteks aplikasi medis yang meminta riwayat pasien sebelum janji temu, pengguna mendikte informasi pribadi mereka. Dengan library panggilan fungsi dan model bahasa di perangkat, aplikasi mengonversi suara menjadi teks, mengekstrak informasi yang relevan, lalu memanggil fungsi khusus aplikasi untuk mengisi bidang yang sesuai.

Library panggilan fungsi juga dapat dipasangkan dengan library simulasi alat python kami. Library simulasi alat membantu Anda dalam membuat model bahasa khusus untuk fungsi spesifik Anda melalui pembuatan dan evaluasi data sintetis, yang meningkatkan akurasi panggilan fungsi di perangkat.


Apa berikutnya

Kami akan terus mendukung model bahasa kecil terbaru dan terbaik di edge, termasuk modalitas baru. Pantau Komunitas LiteRT Hugging Face kami untuk rilis model baru. Library RAG dan panggilan fungsi akan terus berkembang dalam fungsionalitas dan platform yang didukung.

Untuk berita Google AI Edge lainnya, baca tentang LiteRT API baru dan layanan AI Edge Portal baru kami untuk tolok ukur dan evaluasi perangkat secara luas.

Jelajahi pengumuman ini dan semua update Google I/O 2025 di io.google mulai tanggal 22 Mei.


Ucapan Terima kasih

Kami juga ingin berterima kasih kepada para Googler berikut atas dukungan mereka dalam peluncuran ini: Advait Jain, Akshat Sharma, Alan Kelly, Andrei Kulik, Byungchul Kim, Chunlei Niu, Chun-nien Chan, Chuo-Ling Chang, Claudio Basile, Cormac Brick, Ekaterina Ignasheva, Eric Yang, Fengwu Yao, Frank Ban, Gerardo Carranza, Grant Jensen, Haoliang Zhang, Henry Wang, Ho Ko, Ivan Grishchenko, Jae Yoo, Jingjiang Li, Jiuqiang Tang, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Marissa Ikonomidis, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Mogan Shieh, Mohammadreza Heydary, Na Li, Pauline Sho, Pedro Gonnet, Ping Yu, Pulkit Bhuwalka, Quentin Khan, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Steven Toribio, Suleman Shahid, T.J. Alumbaugh, Tenghui Zhu, Terry (Woncheol) Heo, Tyler Mullen, Vitalii Dziuba, Wai Hon Law, Weiyi Wang, Xu Chen, Yi-Chun Kuo, Yishuang Pang, Youchuan Hu, Yu-hui Chen, Zichuan Wei