목록으로 돌아가기

Native Multimodal 음성 챗봇 전략

Native Multimodal Voice Chatbot Strategy

Customer Problem Solving Case 7

“STT 단계를 제거해 음성 처리 지연과 비용 구조를 다시 설계하다”

기존 음성 챗봇은 STT, 텍스트 처리, TTS를 거치면서 지연과 비용이 누적되었습니다. 이 사례는 STT 없이 오디오를 직접 입력받는 Native API 구조와, 최신 대형 모델 대신 2.5 Flash + Context Caching 조합으로 최적화한 전략 브리프입니다.

1. Need: 도입 배경

대규모 음성 트래픽 환경에서는 음성 처리 단계가 길어질수록 대기 시간과 인프라 비용이 빠르게 증가했습니다.

2. Problem Definition: 문제 정의

STT 기반 구조는 지연을 유발할 뿐 아니라, 트래픽이 커질수록 API 비용과 처리 단계가 함께 늘어나는 구조적 한계가 있었습니다.

최신 모델을 곧바로 도입하면 성능은 높을 수 있지만 운영비와 예산 예측 가능성 측면에서 부담이 컸습니다.

3. Key View: 접근 방식

핵심은 음성을 텍스트로 꼭 바꿔야 한다는 전제를 버리고, 오디오를 직접 다루는 Native API 구조로 전환하는 것이었습니다.

여기에 2.5 Flash와 Context Caching을 결합하면, 성능과 비용의 균형을 현실적인 수준으로 맞출 수 있다고 판단했습니다.

4. Design / Framing: 아키텍처 설계

사용자 오디오는 중간 STT 계층 없이 Native Multimodal API로 직접 전달되고, 세션 맥락은 Context Caching으로 유지하도록 설계했습니다.

모델 선택은 최신 프리뷰보다, 가성비가 검증된 2.5 Flash를 주력으로 배치해 대규모 트래픽 시뮬레이션에 대비하는 방향으로 정리했습니다.

graph TD User([Audio Input]) --> Native[Native Multimodal API]; Native --> Cache[Context Cache]; Cache --> Model[Gemini 2.5 Flash]; Model --> Voice[Voice Response]; Voice --> Resp([Direct Audio Conversation]); style User fill:#f8fafc,stroke:#94a3b8 style Native fill:#eff6ff,stroke:#3b82f6 style Cache fill:#fefce8,stroke:#eab308 style Model fill:#fefce8,stroke:#eab308 style Voice fill:#ecfeff,stroke:#06b6d4 style Resp fill:#ecfdf5,stroke:#10b981

5. Impact: 적용 결과

  • 처리 단계 단순화STT 단계를 제거해 음성 파이프라인 구조를 줄였습니다.
  • 지연 및 인프라 부담 완화음성 처리 단계가 줄어들면서 지연과 인프라 부담이 함께 낮아졌습니다.
  • 비용 시뮬레이션 기준 최적화대규모 트래픽 시뮬레이션 기준 연간 인프라 예산을 약 85% 절감하는 전략적 가능성을 확인했습니다.