”Una mirada en el espejo mágico: experiencia interactiva con modelos de Gemini

28 DE MAYO DE 2025
Paul Ruiz Senior Developer Relations Engineer

Imagina mirarte en un espejo y ver no solo tu reflejo, sino también una puerta de acceso a información, creatividad y un toque de encanto. Esto es precisamente lo que ofrece el proyecto “Espejo Mágico”, respaldado por Gemini. Más allá de una simple pantalla, este proyecto muestra las increíbles capacidades interactivas de la API de Gemini y el SDK de GenAI de JavaScript, que transforman un objeto familiar en una nueva interfaz de chat.

Link to Youtube Video (visible only when JS is disabled)

Este proyecto crea una experiencia interactiva aplicando varias funciones de la API de Gemini:


1: Conversaciones fluidas en tiempo real con la API Live

La base de la interactividad del espejo mágico radica en la API Live, la cual permite interacciones de voz continuas y en tiempo real. Tú hablas y el espejo no escucha una sola orden, sino que también participa en una conversación fluida al procesar tu discurso mientras hablas, lo que permite un diálogo de ida y vuelta más natural en texto o audio.

Además de esto, la API Live es capaz de captar si hablas durante la reproducción e interpretar esa interrupción para modificar la narrativa y la conversación según tus entradas, lo que permite conversaciones audibles dinámicas junto con el texto.

Link to Youtube Video (visible only when JS is disabled)

2: El narrador encantado

Además de poder conversar a través de la API Live, el espejo mágico también se puede personalizar para crear cuentos, todo gracias a las capacidades de generación avanzada del modelo Gemini con instrucciones específicas del sistema y actualización de configuraciones de voz durante la inicialización para incluir diferentes dialectos o acentos, voces y una variedad de otros atributos.

Link to Youtube Video (visible only when JS is disabled)

Si bien las conversaciones y las historias son geniales, a veces uno desea poder conocer el mundo que lo rodea durante el desarrollo. Este proyecto de espejo mágico aprovecha la capacidad del modelo para integrarse con la fundamentación con la Búsqueda de Google, y brinda información fundamentada y actualizada.

Link to Youtube Video (visible only when JS is disabled)

4: Alquimia visual: generación de imágenes a pedido

Usando la llamada a funciones con la API de Gemini, el espejo mágico puede generar imágenes basadas en tus descripciones para potenciar la narrativa de las historias y enriquecer la experiencia de interacción con el modelo Gemini. El modelo Gemini determina que tu solicitud requiere generación de imágenes y llama a una función predefinida basada en características establecidas, transmitiendo la indicación detallada que crea a partir de tus palabras.

Link to Youtube Video (visible only when JS is disabled)

La magia detrás del telón

Si bien el propósito de la experiencia de usuario es ocultar los detalles técnicos, se combinan varias funciones potentes de los modelos Gemini para hacer que esta experiencia sea mágica:

  • API Live: el motor para la transmisión bidireccional de audio en tiempo real y la conversación.

  • Llamada a funciones: permite que los modelos Gemini interactúen con herramientas y servicios externos disponibles públicamente (como la generación de imágenes o acciones personalizadas), según la conversación.

  • Fundamentación con la Búsqueda de Google: garantiza el acceso a información objetiva en tiempo real.

  • Instrucciones del sistema: dan forma al tono y al estilo de conversación de la IA.

  • Configuración del habla: personaliza la voz y el idioma de las respuestas de la IA.

  • Control de modalidad: permite que la API de Gemini responda en texto o audio, o se prepare para otras salidas.


Más allá del reflejo: el futuro es interactivo

Este espejo mágico hecho realidad con Gemini es más que una novedad; es una poderosa demostración de cómo la IA sofisticada se puede integrar a nuestro entorno físico para generar interacciones útiles, atractivas e incluso encantadoras. La flexibilidad de la API de Gemini abre la puerta a otras innumerables aplicaciones, desde asistentes ultrapersonalizados hasta herramientas educativas dinámicas y plataformas de entretenimiento inmersivas.

Puedes ver el código de todo este proyecto en GitHub y un tutorial técnico completo en Hackster.io.


Te invitamos a imaginar las posibilidades. ¿Qué haría tu espejo mágico?

Asegúrate de compartir tus ideas y creaciones potenciadas por Gemini con nosotros en X y LinkedIn.