探索“魔镜 (Magic Mirror)”:采用 Gemini 模型的互动体验

2025年5月28日
Paul Ruiz Senior Developer Relations Engineer

想象一下,当您凝视着一面镜子时,看到的不再仅仅是自己的倒影,而是一扇通向信息、创造性和一丝魔力的大门。这正是采用 Gemini 技术的“魔镜”项目所呈现的景象。该项目并非仅仅是一个简单的展示,展现了 Gemini API 和 JavaScript GenAI SDK 的强大交互能力,能够将常见的物体转变为全新的聊天界面。

Link to Youtube Video (visible only when JS is disabled)

该项目使用 Gemini API 的多个功能创建了交互式体验:


1:通过实时 API 实现流畅的实时对话

“魔镜”的交互性建立在实时 API 之上。实时 API 可助力实现实时且不间断的语音交互。当您说话时,“魔镜”不仅仅会听取单个指令,还会通过处理您的言语内容,实现流畅的对话,支持文本或语音形式的自然对答交流。

除此之外,当您在语音播放过程中说话时,实时 API 能即刻解析这种打断行为,根据您的输入实时调整叙事与对话走向,实现语音对话与文字交互并行的动态双向交互体验。

Link to Youtube Video (visible only when JS is disabled)

2:迷人的故事讲述者

除了能够通过实时 API 进行对话之外,魔镜还可以根据特定的系统指令进行定制,从而编排故事。这一切都要归功于 Gemini 模型先进的生成能力,因为在初始化过程中,这一能力可以通过更新语音配置来涵盖不同的方言或口音、声音以及各种其他属性。

Link to Youtube Video (visible only when JS is disabled)

对话和故事固然精彩,但有时您可能也希望能够实时了解周围世界发生的一切。这个“魔镜”项目利用该模型集成了 Grounding with Google Search 功能,从而能够提供具有可靠依据的最新内容。

Link to Youtube Video (visible only when JS is disabled)

4:视觉炼金术:按命令生成图像

通过结合使用 Gemini API 的函数调用功能,魔镜能够根据您的描述内容生成视觉效果,为故事注入层次感,并深化与 Gemini 模型的交互体验。当 Gemini 模型判定您的请求需要图像生成时,会基于您声明的特征要素调用预定义函数,同时将由语音转化而来的详细提示传递给该函数。

Link to Youtube Video (visible only when JS is disabled)

幕后的神奇技术

虽然用户体验旨在隐藏技术细节,但 Gemini 模型的多项强大功能协同运作,共同打造了这一神奇体验:

  • 实时 API:实时、双向音频流式传输和对话的引擎。

  • 函数调用:使 Gemini 模型能够根据对话与公开可用的外部工具和服务(如图像生成或自定义操作)进行交互。

  • Grounding with Google Search:确保获取实时而真实的信息。

  • 系统指令:塑造 AI 的语气和对话风格。

  • 语音配置:自定义 AI 响应的声音和语言。

  • 模态控制:允许 Gemini API 以文本、音频形式进行响应或准备其他输出。


越“镜”之思:互动驱动未来

这款搭载 Gemini 技术的魔镜不仅仅是一件新奇事物,它更是一次关于如何将复杂的 AI 融入我们的物理环境,从而创造出实用、引人入胜甚至令人着迷的互动体验的有力示范。Gemini API 的灵活性为无数其他应用打开了大门,从高度个性化的助手到动态教育工具和沉浸式娱乐平台,不一而足。

您可以前往 GitHub 查看整个项目的代码,还可以前往 Hackster.io 查看完整的技术教程。


我们鼓励您发挥想象力。您的魔镜又将有何表现?

请务必在 XLinkedIn 上与我们分享您的想法以及使用 Gemini 所创作的内容。