探索“魔镜 (Magic Mirror)”：采用 Gemini 模型的互动体验

2025年5月28日

Paul Ruiz Senior Developer Relations Engineer

想象一下，当您凝视着一面镜子时，看到的不再仅仅是自己的倒影，而是一扇通向信息、创造性和一丝魔力的大门。这正是采用 Gemini 技术的“魔镜”项目所呈现的景象。该项目并非仅仅是一个简单的展示，展现了 Gemini API 和 JavaScript GenAI SDK 的强大交互能力，能够将常见的物体转变为全新的聊天界面。

Link to Youtube Video (visible only when JS is disabled)

该项目使用 Gemini API 的多个功能创建了交互式体验：

1：通过实时 API 实现流畅的实时对话

“魔镜”的交互性建立在实时 API 之上。实时 API 可助力实现实时且不间断的语音交互。当您说话时，“魔镜”不仅仅会听取单个指令，还会通过处理您的言语内容，实现流畅的对话，支持文本或语音形式的自然对答交流。

除此之外，当您在语音播放过程中说话时，实时 API 能即刻解析这种打断行为，根据您的输入实时调整叙事与对话走向，实现语音对话与文字交互并行的动态双向交互体验。

Link to Youtube Video (visible only when JS is disabled)

2：迷人的故事讲述者

除了能够通过实时 API 进行对话之外，魔镜还可以根据特定的系统指令进行定制，从而编排故事。这一切都要归功于 Gemini 模型先进的生成能力，因为在初始化过程中，这一能力可以通过更新语音配置来涵盖不同的方言或口音、声音以及各种其他属性。

Link to Youtube Video (visible only when JS is disabled)

3：即时信息：Grounding with Google Search

对话和故事固然精彩，但有时您可能也希望能够实时了解周围世界发生的一切。这个“魔镜”项目利用该模型集成了 Grounding with Google Search 功能，从而能够提供具有可靠依据的最新内容。

Link to Youtube Video (visible only when JS is disabled)

4：视觉炼金术：按命令生成图像

通过结合使用 Gemini API 的函数调用功能，魔镜能够根据您的描述内容生成视觉效果，为故事注入层次感，并深化与 Gemini 模型的交互体验。当 Gemini 模型判定您的请求需要图像生成时，会基于您声明的特征要素调用预定义函数，同时将由语音转化而来的详细提示传递给该函数。

Link to Youtube Video (visible only when JS is disabled)

幕后的神奇技术

虽然用户体验旨在隐藏技术细节，但 Gemini 模型的多项强大功能协同运作，共同打造了这一神奇体验：

实时 API：实时、双向音频流式传输和对话的引擎。

函数调用：使 Gemini 模型能够根据对话与公开可用的外部工具和服务（如图像生成或自定义操作）进行交互。

Grounding with Google Search：确保获取实时而真实的信息。

系统指令：塑造 AI 的语气和对话风格。

语音配置：自定义 AI 响应的声音和语言。

模态控制：允许 Gemini API 以文本、音频形式进行响应或准备其他输出。

越“镜”之思：互动驱动未来

这款搭载 Gemini 技术的魔镜不仅仅是一件新奇事物，它更是一次关于如何将复杂的 AI 融入我们的物理环境，从而创造出实用、引人入胜甚至令人着迷的互动体验的有力示范。Gemini API 的灵活性为无数其他应用打开了大门，从高度个性化的助手到动态教育工具和沉浸式娱乐平台，不一而足。

您可以前往 GitHub 查看整个项目的代码，还可以前往 Hackster.io 查看完整的技术教程。

我们鼓励您发挥想象力。您的魔镜又将有何表现？

请务必在 X 和 LinkedIn 上与我们分享您的想法以及使用 Gemini 所创作的内容。