Magic Mirror 둘러보기: Gemini 모델 기반의 대화형 경험

2025년 5월 28일
Paul Ruiz Senior Developer Relations Engineer

거울을 들여다보며 거울에 비친 자신의 모습뿐 아니라 다양한 정보와 창의성, 마법 같은 황홀감으로 이어지는 관문을 본다고 상상해 보세요. Gemini가 지원하는 Magic Mirror 프로젝트가 바로 이런 결과물을 실현합니다. 이 프로젝트는 단순한 디스플레이를 넘어 Gemini API 및 JavaScript GenAI SDK의 놀라운 대화형 기능을 선보이며 친숙한 객체를 새로운 채팅 인터페이스로 변환합니다.

Link to Youtube Video (visible only when JS is disabled)

이 프로젝트는 Gemini API의 여러 기능을 사용하여 대화형 환경을 만듭니다.


1: Live API를 통한 유동적인 실시간 대화

Magic Mirror의 상호작용성은 Live API를 기반으로 합니다. 이를 통해 지속적인 실시간 음성 상호작용이 가능합니다. 즉, 사용자가 말을 하면 Magic Mirror는 하나의 명령만 듣는 것이 아니라, 말하는 동안 발화되는 음성을 처리하여 매끄러운 대화를 이어갑니다. 이를 통해 텍스트 또는 오디오로 보다 자연스럽게 전후 맥락이 이어지는 대화를 할 수 있습니다.

그 밖에도, Live API는 대화 음성 재생 중에 사용자가 끼어들어 말하는 것을 인식하고 중단 상황을 해석하여 사용자 입력에 따라 이야기와 대화를 선회할 수 있으며, 이를 통해 텍스트와 함께 동적인 음성 기반 대화를 할 수 있습니다.

Link to Youtube Video (visible only when JS is disabled)

2: 마법에 걸린 스토리텔러

Live API를 통해 대화를 나누는 것 외에도, Magic Mirror는 이야기를 엮을 수 있도록 맞춤 설정할 수 있습니다. 이는 초기화 시 특정 시스템 지시를 제공하고 음성 설정을 다양한 방언이나 억양, 목소리, 기타 다양한 속성을 포함하도록 업데이트함으로써 Gemini 모델의 뛰어난 생성 기능을 활용한 덕분에 가능합니다.

Link to Youtube Video (visible only when JS is disabled)

대화와 이야기는 훌륭하지만, 때로는 실시간으로 해당 대화와 이야기를 둘러싼 주변 세계에 대해 알고 싶을 때도 있습니다. 이 Magic Mirror 프로젝트는 Google 검색으로 그라운딩과 통합할 수 있는 모델의 기능을 활용하여 근거 있는 최신 정보를 제공합니다.

Link to Youtube Video (visible only when JS is disabled)

4: 비주얼의 연금술: 명령에 따른 이미지 생성

Magic Mirror는 Gemini API의 함수 호출 기능을 사용하여 사용자의 설명을 기반으로 비주얼을 생성할 수 있고, 이를 통해 이야기에 깊이를 더하고 Gemini 모델과의 상호작용 경험을 더욱 풍부하게 만들어 줍니다. Gemini 모델은 요청에 이미지 생성이 필요하다고 판단하면, 명시된 특성을 기반으로 미리 정의된 함수를 호출하여 사용자가 쓴 단어를 바탕으로 도출한 상세한 프롬프트를 전달합니다.

Link to Youtube Video (visible only when JS is disabled)

커튼 뒤의 마법

사용자 경험은 기술적 세부 사항을 숨기기 위한 것이지만, Gemini 모델의 몇 가지 강력한 기능이 함께 작동하여 이 마법 같은 경험을 완성합니다.

  • Live API: 실시간 양방향 오디오 스트리밍 및 대화를 위한 엔진입니다.

  • 함수 호출: Gemini 모델이 대화를 기반으로 공개적으로 사용 가능한 외부 도구 및 서비스(예: 이미지 생성 또는 맞춤 설정 작업)와 상호작용할 수 있도록 지원합니다.

  • Google 검색으로 그라운딩: 사실에 기반한 실시간 정보에 대한 액세스를 보장합니다.

  • 시스템 지시: AI의 어조와 대화 스타일을 형성합니다.

  • 음성 구성: AI 응답의 음성과 언어를 맞춤 설정합니다.

  • 모달리티 제어: Gemini API가 텍스트나 오디오로 응답하거나 다른 출력을 준비할 수 있도록 합니다.


거울 너머의 세계: 미래는 쌍방향

이 Gemini 기반 Magic Mirror는 단순한 새로움 그 이상으로, 정교한 AI를 물리적 환경에 결합하여 유용하고 재미있고 매혹적이기까지 한 상호작용을 만드는 방법을 매우 잘 보여줍니다. Gemini API는 유연성이 매우 뛰어나 초개인화된 어시스턴트부터 역동적인 교육용 도구와 몰입형 엔터테인먼트 플랫폼에 이르기까지 수없이 많은 다양한 애플리케이션을 만들 수 있는 가능성을 열어줍니다.

GitHub에서 이 전체 프로젝트의 코드를 볼 수 있으며 Hackster.io에서 기술 튜토리얼 전문을 볼 수 있습니다.


다양한 가능성을 상상해 보세요. 나만의 마법 거울로 무엇을 할 수 있을까요?

XLinkedIn에서 다양한 아이디어와 Gemini를 기반으로 만든 결과물을 공유해 주세요.