Novedades de la API de Gemini en I/O

23 DE MAYO DE 2025

Shrestha Basu Mallick Group Product Manager

Logan Kilpatrick Group Product Manager

Alisa Fortin Product Manager

Ivan Solovyev Product Manager

La API de Gemini ofrece a los desarrolladores una forma simplificada de crear aplicaciones innovadoras con modelos de IA generativos de vanguardia. Google AI Studio simplifica este proceso de prueba de todas las capacidades de la API, lo que permite el prototipado rápido y la experimentación con indicaciones de texto, imágenes e incluso video. Cuando los desarrolladores quieren probar y compilar a escala, pueden aprovechar todas las capacidades disponibles a través de la API de Gemini.

Nuevos modelos disponibles a través de la API

Versión preliminar de Gemini 2.5 Flash: agregamos una nueva versión preliminar de 2.5 Flash (gemini-2.5-flash-preview-05-20) que es mejor que la versión preliminar anterior en términos de razonamiento, código y contexto largo. Actualmente, esta versión de 2.5 Flash se posiciona en segundo lugar en la tabla de clasificación de LMarena, solo por detrás de 2.5 Pro. También mejoramos la rentabilidad de Flash con esta última actualización, que reduce la cantidad de tokens necesarios para el mismo rendimiento, lo que genera un aumento de la eficiencia del 22% en nuestras evaluaciones. Nuestro objetivo es seguir mejorando en función de los comentarios y hacer que ambos estén disponibles de forma general pronto.

Texto a voz (TTS) de Gemini 2.5 Pro y Flash: también anunciamos versiones preliminares de 2.5 Pro y Flash para texto a voz (TTS), que admiten la salida de audio nativa para hablantes individuales y múltiples en 24 idiomas. Con estos modelos, puedes controlar la expresión y el estilo de TTS para crear una salida de audio enriquecida. Con la función de múltiples hablantes, puedes generar conversaciones con múltiples voces distintas para interacciones dinámicas.

Diálogo de audio nativo de Gemini Flash 2.5: en la versión preliminar, este modelo está disponible a través de la API en vivo para generar voces que suenan naturales para la conversación, con más de 30 voces distintas y en más de 24 idiomas. También agregamos audio proactivo para que el modelo pueda distinguir entre el hablante y las conversaciones de fondo, a fin de que sepa cuándo responder. Además, el modelo responde adecuadamente a la expresión y el tono emocional de un usuario. Un modelo de pensamiento aparte permite consultas más complejas. Ahora es posible crear agentes de IA conversacionales y experiencias que se sienten más intuitivas y naturales, como mejorar las interacciones del centro de llamadas, desarrollar personajes dinámicos, crear personajes de voz únicos y mucho más.

Lyria RealTime: la generación de música en vivo ahora está disponible en la API de Gemini y Google AI Studio para crear un flujo continuo de música instrumental con indicaciones de texto. Con Lyria RealTime, utilizamos WebSockets para establecer un canal de comunicación persistente y en tiempo real. El modelo produce música continuamente en trozos pequeños y fluidos, y se adapta en función de las entradas. ¡Imagina agregar una banda sonora adaptable a tu aplicación o diseñar un nuevo tipo de instrumento musical! Prueba Lyria RealTime con la aplicación PromptDJ-MIDI en Google AI Studio.

Razonamiento profundo de Gemini 2.5 Pro: también estamos probando un modo de razonamiento experimental para 2.5 Pro. Notamos un rendimiento increíble con estas capacidades de razonamiento profundo para indicaciones matemáticas y de codificación sumamente complejas. Esperamos que pronto estén ampliamente disponibles para que experimentes con ellas.

Gemma 3n: Gemma 3n es un modelo abierto de IA generativa optimizado para su uso en dispositivos cotidianos, como teléfonos, computadoras portátiles y tablets. Puede manejar entradas de texto, audio y visión. Este modelo incluye innovaciones en el procesamiento eficiente de parámetros, incluido el almacenamiento en caché de parámetros de incorporación por capas (PLE) y una arquitectura de modelo MatFormer que proporciona la flexibilidad para reducir los requisitos de cómputo y memoria.

Nueva funcionalidad en la API

Resúmenes de razonamientos

Para ayudar a los desarrolladores a comprender y depurar las respuestas del modelo, agregamos resúmenes de razonamientos para 2.5 Pro y Flash en la API de Gemini. Tomamos los razonamientos crudos del modelo y los sintetizamos en un resumen útil con encabezados, detalles relevantes y llamadas a herramientas. La cadena de ideas en bruto de Google AI Studio también se ha actualizado con los nuevos resúmenes de razonamientos.

Presupuestos de razonamiento

Lanzamos 2.5 Flash con presupuestos de razonamiento, con el fin de proporcionar a los desarrolladores control sobre cuánto razonan los modelos para equilibrar el rendimiento, la latencia y el costo de las aplicaciones que están compilando. Pronto ampliaremos esta capacidad a 2.5 Pro.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "¿Cuál es la suma de los primeros 50 números primos?"
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-05-20",
  contents=prompt,
  config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=1024,
      include_thoughts=True
    )
  )
)
 
for part in response.candidates[0].content.parts:
  if not part.text:
    continue
  if part.thought:
    print("Resumen de razonamiento:")
    print(part.text)
    print()
  else:
    print("Respuesta:")
    print(part.text)
    print()

Python

Código de ejemplo para habilitar y recuperar resúmenes de razonamiento sin transmisión, lo que devuelve un resumen de razonamiento final con la respuesta.

Nueva herramienta de contexto de URL

Agregamos una nueva herramienta experimental, el contexto de URL, para recuperar más contexto de los vínculos que proporcionas. Se puede usar sola o junto con otras herramientas, como Fundamentación con la Búsqueda de Google. Esta herramienta es un elemento clave para los desarrolladores que buscan compilar su propia versión de agentes de investigación con la API de Gemini.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
 
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
 
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
 
response = client.models.generate_content(
    model=model_id,
    contents="Arma un cronograma para un evento de tres días en función de TU_URL. También dime de qué cuestiones hay que ocuparse teniendo en cuenta el clima y el traslado al lugar.",
    config=GenerateContentConfig(
        tools=tools,
        response_modalities=["TEXT"],
    )
)
 
for each in response.candidates[0].content.parts:
    print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)

Python

Código de ejemplo de Fundamentación con la Búsqueda de Google y el contexto de URL

Herramienta de uso de computadora

Llevamos las capacidades de control del navegador de Project Mariner a la API de Gemini a través de una nueva herramienta de uso de computadora. Para facilitarles a los desarrolladores el uso de esta herramienta, habilitamos la creación de instancias de Cloud Run configuradas de manera óptima para ejecutar agentes de control del navegador con un solo clic desde Google AI Studio. Comenzamos las primeras pruebas con empresas, como Automation Anywhere, UiPath y Browserbase. Sus valiosos comentarios serán fundamentales para perfeccionar las capacidades y lograr un lanzamiento experimental más amplio para desarrolladores este verano.

Mejoras en los resultados estructurados

La API de Gemini ahora tiene una compatibilidad más amplia con el esquema JSON, que incluye palabras clave muy solicitadas como "$ref" (para referencias) y aquellas que permiten la definición de estructuras similares a tuplas (por ejemplo, prefixItems).

Mejoras en la comprensión de videos

La API de Gemini ahora permite que las URL de videos de YouTube o las cargas de videos se agreguen a una indicación, lo que permite a los usuarios resumir, traducir o analizar el contenido del video. Con esta actualización reciente, la API admite el recorte de videos, lo que permite flexibilidad en el análisis de partes específicas de un video. Es particularmente beneficioso para videos de más de 8 horas. También agregamos compatibilidad con cuadros dinámicos por segundo (FPS), lo que permite 60 FPS para videos de juegos o deportes donde la velocidad es crítica y 0.1 FPS para videos donde la velocidad es una prioridad menor. Para ayudar a los usuarios a guardar tokens, también agregamos compatibilidad con 3 resoluciones de video diferentes: alta (720p), estándar (480p) y baja (360p).

Llamada a funciones asíncrona

La arquitectura en cascada de la API Live ahora admite llamadas a funciones asíncronas, lo que garantiza que las conversaciones de los usuarios sigan siendo fluidas e ininterrumpidas. Esto significa que tu agente de Live puede continuar generando respuestas, incluso mientras está ocupado ejecutando funciones en segundo plano, simplemente agregando el campo de comportamiento a la definición de la función y configurándolo en NON-BLOCKING. Obtén más información en la documentación para desarrolladores de la API de Gemini.

API de lotes

También estamos probando una nueva API, que te permite agrupar fácilmente tus solicitudes y recuperarlas en un tiempo máximo de respuesta de 24 horas. La API tendrá la mitad del precio de la API interactiva y con límites de velocidad mucho más altos. Esperamos implementarla más ampliamente a finales de este verano.

Comienza a compilar

Este fue un resumen del I/O de este año. Con la API de Gemini y Google AI Studio, puedes hacer realidad tus ideas, tanto si estás compilando agentes de IA conversacionales con audio de sonido natural como desarrollando herramientas para analizar y generar código. Como siempre, consulta la documentación para desarrolladores de la API de Gemini para ver los ejemplos de código más recientes y mucho más.

Explora este anuncio y todas las novedades de Google I/O 2025 en io.google.