Native Multimodal 음성 챗봇 전략
Native Multimodal Voice Chatbot Strategy
Customer Problem Solving Case 7
“STT 단계를 제거해 음성 처리 지연과 비용 구조를 다시 설계하다”
“Removing the STT stage to redesign latency and cost in voice processing”
기존 음성 챗봇은 STT, 텍스트 처리, TTS를 거치면서 지연과 비용이 누적되었습니다. 이 사례는 STT 없이 오디오를 직접 입력받는 Native API 구조와, 최신 대형 모델 대신 2.5 Flash + Context Caching 조합으로 최적화한 전략 브리프입니다.
1. Need: 도입 배경
1. Need: Background
대규모 음성 트래픽 환경에서는 음성 처리 단계가 길어질수록 대기 시간과 인프라 비용이 빠르게 증가했습니다.
2. Problem Definition: 문제 정의
2. Problem Definition: Problem Statement
STT 기반 구조는 지연을 유발할 뿐 아니라, 트래픽이 커질수록 API 비용과 처리 단계가 함께 늘어나는 구조적 한계가 있었습니다.
최신 모델을 곧바로 도입하면 성능은 높을 수 있지만 운영비와 예산 예측 가능성 측면에서 부담이 컸습니다.
3. Key View: 접근 방식
3. Key View: Approach
핵심은 음성을 텍스트로 꼭 바꿔야 한다는 전제를 버리고, 오디오를 직접 다루는 Native API 구조로 전환하는 것이었습니다.
여기에 2.5 Flash와 Context Caching을 결합하면, 성능과 비용의 균형을 현실적인 수준으로 맞출 수 있다고 판단했습니다.
4. Design / Framing: 아키텍처 설계
4. Design / Framing: Architecture Design
사용자 오디오는 중간 STT 계층 없이 Native Multimodal API로 직접 전달되고, 세션 맥락은 Context Caching으로 유지하도록 설계했습니다.
모델 선택은 최신 프리뷰보다, 가성비가 검증된 2.5 Flash를 주력으로 배치해 대규모 트래픽 시뮬레이션에 대비하는 방향으로 정리했습니다.
graph TD
User([Audio Input]) --> Native[Native Multimodal API];
Native --> Cache[Context Cache];
Cache --> Model[Gemini 2.5 Flash];
Model --> Voice[Voice Response];
Voice --> Resp([Direct Audio Conversation]);
style User fill:#f8fafc,stroke:#94a3b8
style Native fill:#eff6ff,stroke:#3b82f6
style Cache fill:#fefce8,stroke:#eab308
style Model fill:#fefce8,stroke:#eab308
style Voice fill:#ecfeff,stroke:#06b6d4
style Resp fill:#ecfdf5,stroke:#10b981
5. Impact: 적용 결과
5. Impact: Results
- ✓처리 단계 단순화STT 단계를 제거해 음성 파이프라인 구조를 줄였습니다.
- ✓지연 및 인프라 부담 완화음성 처리 단계가 줄어들면서 지연과 인프라 부담이 함께 낮아졌습니다.
- ✓비용 시뮬레이션 기준 최적화대규모 트래픽 시뮬레이션 기준 연간 인프라 예산을 약 85% 절감하는 전략적 가능성을 확인했습니다.