Modelos de lenguaje pequeños en el dispositivo con multimodalidad, RAG y llamada a funciones

20 DE MAYO DE 2025

Mark Sherwood Senior Product Manager

Matthew Chan Staff Software Engineer

Marissa Ikonomidis Staff Software Engineer

El año pasado, Google AI Edge introdujo la compatibilidad con modelos de lenguaje pequeños (SLM) en el dispositivo con cuatro modelos iniciales en Android, iOS y la Web. Hoy, nos entusiasma expandir la compatibilidad a más de una docena de modelos, incluidos los nuevos modelos Gemma 3 y Gemma 3n, alojados en nuestra nueva comunidad de LiteRT en Hugging Face.

Gemma 3n, disponible a través de Google AI Edge como versión preliminar anticipada, es el primer modelo de lenguaje pequeño multimodal en el dispositivo de Gemma que admite entradas de texto, imagen, video y audio. Combinado con nuestras nuevas bibliotecas de generación aumentada por recuperación (RAG) y llamada a funciones, te ofrece todo lo que necesitas para generar prototipos y compilar funciones de IA transformadora en el dispositivo.

Deja que los usuarios controlen apps con SLM en el dispositivo y nuestra nueva biblioteca de llamada a funciones

Compatibilidad más amplia con modelos

Puedes hallar nuestra lista creciente de modelos para elegir en la comunidad de LiteRT en Hugging Face. Descarga cualquiera de estos modelos y ejecútalos fácilmente en dispositivos con unas pocas líneas de código. Los modelos se convirtieron y se optimizaron totalmente para dispositivos móviles y la Web. Encontrarás instrucciones completas sobre cómo ejecutar estos modelos en nuestra documentación y en cada tarjeta de modelo en Hugging Face.

Para personalizar cualquiera de estos modelos, debes ajustar el modelo base y luego convertir y cuantificar el modelo utilizando las bibliotecas de AI Edge correspondientes. Ofrecemos un colab en el que se muestra cada paso que debes seguir para ajustar y convertir Gemma 3 1B.

Con la última versión de nuestras herramientas de cuantificación, disponemos de nuevos esquemas de cuantificación que permiten una cuantificación postentrenamiento de int4 de calidad mucho más alta. En comparación con bf16, el tipo de datos predeterminado para muchos modelos, la cuantificación de int4 puede reducir el tamaño de los modelos de lenguaje entre 2,5 y 4 veces y, al mismo tiempo, disminuir considerablemente la latencia y el consumo pico de memoria.

Gemma 3 1B & Gemma 3n

A principios de este año, presentamos Gemma 3 1B. Con un tamaño de 529 MB, este modelo puede ejecutar un prellenado de hasta 2585 tokens por segundo en GPU de dispositivos móviles, lo que le permite procesar hasta una página de contenido en menos de un segundo. La huella pequeña de Gemma 3 1B le permite admitir una amplia variedad de dispositivos y limita el tamaño de los archivos que un usuario final necesitaría descargar en su aplicación.

Hoy, con mucho entusiasmo, agregamos una versión preliminar de Gemma 3n a nuestra colección de modelos compatibles. Las variantes de 2000 millones y 4000 millones de parámetros admitirán entradas nativas de texto, imagen, video y audio. Las modalidades de texto e imagen están disponibles en Hugging Face y pronto también lo estará la de audio.

Gemma 3n analizando imágenes por completo en el dispositivo

Gemma 3n es ideal para casos de uso empresarial en los que los desarrolladores cuentan con todos los recursos del dispositivo, lo que permite modelos más grandes en dispositivos móviles. Los técnicos de campo sin servicio podrían obtener una foto de una pieza y hacer una pregunta. Quienes trabajan en un depósito o una cocina podrían actualizar el inventario con la voz mientras tienen las manos ocupadas.

Dar contexto a las conversaciones: generación aumentada por recuperación (RAG) en el dispositivo

Una de las más emocionantes capacidades nuevas que incorporaremos a Google AI Edge es la compatibilidad sólida con la generación aumentada por recuperación (RAG). La RAG te permite ampliar tu modelo de lenguaje pequeño con datos específicos de tu aplicación, sin necesidad de realizar ajustes. A partir de 1000 páginas de información o 1000 fotos, la RAG puede ayudarte a encontrar los datos más relevantes para tu modelo.

La biblioteca de RAG de AI Edge funciona con cualquiera de nuestros modelos de lenguaje pequeños compatibles. Además, ofrece la flexibilidad necesaria para cambiar cualquier parte de la canalización de RAG y permitir bases de datos personalizadas, métodos de fragmentación y funciones de recuperación. La biblioteca está disponible ahora en Android y pronto se ofrecerá en más plataformas. Esto significa que tus aplicaciones de IA generativa en el dispositivo ahora se pueden basar en información específica y pertinente para el usuario, lo que proporciona una nueva clase de funciones inteligentes.

Posibilidad de acción: llamada a funciones en el dispositivo

Para que los modelos de lenguaje en el dispositivo sean verdaderamente interactivos, presentaremos la llamada a funciones en el dispositivo. La biblioteca de llamada a funciones de AI Edge está disponible ahora en Android y pronto se ofrecerá en más plataformas. Incluye todas las utilidades que necesitas para realizar la integración con un modelo de lenguaje en el dispositivo, registrar las funciones de tu aplicación, analizar la respuesta y llamar a tus funciones. Lee la documentación para probarla por tu cuenta.

Esta potente función permite que tus modelos de lenguaje decidan de manera inteligente cuándo llamar a funciones o API predefinidas dentro de tu aplicación. Por ejemplo, en nuestra app de muestra, demostramos cómo la llamada a funciones se puede usar para completar un formulario a través de lenguaje natural. En el contexto de una app médica que solicita la historia clínica del paciente antes de la consulta, el usuario dicta su información personal. Con nuestra biblioteca de llamada a funciones y un modelo de lenguaje en el dispositivo, la app convierte la voz a texto, extrae la información pertinente y, luego, llama a funciones específicas de la aplicación para completar cada campo.

La biblioteca de llamada a funciones también se puede combinar con nuestra biblioteca de simulación de herramientas de Python, la cual te asiste en la creación de un modelo de lenguaje personalizado para tus funciones específicas a través de la generación y evaluación de datos sintéticos, lo que aumenta la precisión de la llamada a funciones en el dispositivo.

Qué sigue

Continuaremos ofreciendo compatibilidad con los modelos de lenguaje pequeños más nuevos e importantes en el dispositivo, incluidas las nuevas modalidades. Mantente al tanto de las novedades de nuestra comunidad de LiteRT en Hugging Face para enterarte de las nuevas versiones de modelos. Se seguirán ampliando las funcionalidades y la compatibilidad con plataformas de las bibliotecas de RAG y llamada a funciones.

Para ver más novedades de Google AI Edge, lee acerca de las nuevas API de LiteRT y nuestro nuevo servicio de portal de AI Edge, y accede a una amplia cobertura de comparativas y evaluaciones en dispositivos.

Explora este anuncio y todas las novedades de Google I/O 2025 en io.google a partir del 22 de mayo.

Agradecimientos

^{También queremos agradecer a los siguientes Googlers por su apoyo en estos lanzamientos: Advait Jain, Akshat Sharma, Alan Kelly, Andrei Kulik, Byungchul Kim, Chunlei Niu, Chun-nien Chan, Chuo-Ling Chang, Claudio Basile, Cormac Brick, Ekaterina Ignasheva, Eric Yang, Fengwu Yao, Frank Ban, Gerardo Carranza, Grant Jensen, Haoliang Zhang, Henry Wang, Ho Ko, Ivan Grishchenko, Jae Yoo, Jingjiang Li, Jiuqiang Tang, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Marissa Ikonomidis, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Mogan Shieh, Mohammadreza Heydary, Na Li, Pauline Sho, Pedro Gonnet, Ping Yu, Pulkit Bhuwalka, Quentin Khan, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Steven Toribio, Suleman Shahid, T.J. Alumbaugh, Tenghui Zhu, Terry (Woncheol) Heo, Tyler Mullen, Vitalii Dziuba, Wai Hon Law, Weiyi Wang, Xu Chen, Yi-Chun Kuo, Yishuang Pang, Youchuan Hu, Yu-hui Chen, Zichuan Wei}