엔터프라이즈 RAG 챗봇 아키텍처
Enterprise RAG Chatbot Architecture
Customer Problem Solving Case 1
“단순 RAG를 넘어, 의도를 식별하는 하이브리드 라우팅 아키텍처”
“Beyond Simple RAG: Hybrid Routing Architecture for Intent Identification”
엔터프라이즈 사내 검색 환경에서는 단순한 키워드 매칭을 넘어, 다양한 문맥이 섞인 복합 질의를 유연하게 처리해야 합니다. 모든 요청을 단일 거대 모델에 위임하여 지연과 비용을 유발하는 대신, 앞단에 가벼운 의도 분류 모델(Intent Classifier)을 두어 검색 요청을 분기 처리하는 최적화 사례입니다.
1. Need: 도입 배경
1. Need: Background
기업 내 검색 요구사항이 점차 고도화됨에 따라 단순 정보 탐색을 넘어 여러 맥락이 얽힌 질문들이 쏟아지기 시작했습니다. 하지만 초기 구축된 단일 RAG(검색 증강 생성) 시스템으로는 이러한 복합적인 질의(문맥 혼재)를 효과적으로 처리하는 데 한계가 명확했습니다.
2. Problem Definition: 문제 정의
2. Problem Definition: Problem Statement
가장 큰 문제는 질의의 '의도(Intent)'를 시스템이 명확하게 이해하지 못한 채 무조건적으로 전체 문서 DB를 뒤진다는 것이었습니다.
이로 인해 엉뚱한 문서가 검색 결과로 편입되거나 불필요한 LLM 추론 자원이 소모되는 비효율성이 발생했고, 결과적으로 오답률이 오르고 응답 지연(Latency)이 늘어나는 병목 현상에 직면했습니다.
3. Key View: 접근 방식
3. Key View: Approach
단순 RAG 시스템의 한계를 극복하기 위해, 텍스트를 생성하거나 문서를 검색하기 전 사용자의 질의 특성을 먼저 분류하여 가장 적합한 전담 에이전트(Agent)로 라우팅하는 구조가 필요하다고 판단했습니다.
검색의 품질을 좌우하는 것은 모델의 파라미터 크기가 아니라, 질의의 맥락에 맞춰 사내 문서(BigQuery)를 Lexical + Semantic 하이브리드 방식으로 정확히 연결해주는 '분류와 조율' 계층에 있다고 보았습니다.
4. Design / Framing: 아키텍처 설계
4. Design / Framing: Architecture Design
거대 단일 모델(Heavy LLM)에 모든 연산을 의존하여 생기는 고비용·고지연 문제를 회피하기 위해, 가벼운 의도 분류 모델(Lightweight Classifier 계층)을 앞단으로 분리(Decoupling)했습니다.
이 Classifier는 질의를 분석한 뒤, 적절한 RAG Agent(Vertex AI Agent Builder 기반 하이브리드 검색)로 분기시킵니다. 질의 로그와 사용자 세션은 SQL에서 관리하고 핵심 검색 대상 문서는 BigQuery에 적재하여, 성능과 정확도의 균형을 최적화했습니다.
Lightweight Model} Classifier -->|일반 지식 질의| AgentA[General Knowledge Agent] Classifier -->|특수 도메인 질의| AgentB[Specialized Domain Agent] end subgraph Data & Search AgentA -->|3. 하이브리드 검색| Vertex[Vertex AI Agent Builder] AgentB -->|3. 특화 검색 조건| Vertex Vertex -.->|Lexical + Semantic| BQ[(BigQuery
사내 문서 DB)] end subgraph Generation Vertex -->|4. 검색된 Context 반환| API API -->|5. Prompt + Context| LLM[Gemini API] LLM -->|6. 응답 생성| Response([Fact-based Response]) end style User fill:#f8fafc,stroke:#94a3b8 style API fill:#eff6ff,stroke:#3b82f6 style SQL fill:#f1f5f9,stroke:#64748b style Classifier fill:#fee2e2,stroke:#ef4444 style AgentA fill:#f3f4f6,stroke:#9ca3af style AgentB fill:#f3f4f6,stroke:#9ca3af style Vertex fill:#fefce8,stroke:#eab308 style BQ fill:#f1f5f9,stroke:#64748b style LLM fill:#fefce8,stroke:#eab308 style Response fill:#ecfdf5,stroke:#10b981
5. Impact: 적용 결과
5. Impact: Results
분류기를 통해 사전 정제된 질의만 LLM과 검색 엔진에 도달하게 함으로써, 불필요한 API 비용을 삭감하고 응답 품질을 안정화했습니다.
-
✓
검색 품질 및 정확도 향상 복합 질의 처리 시 빈번하게 발생하던 문맥 오인식 및 오답 비율을 획기적으로 낮추었습니다.
-
✓
응답 속도와 비용 구조 최적화 무거운 거대 모델의 불필요한 전체 호출 횟수를 줄여 시스템 응답 속도를 향상시키고 운영 비용 예측 가능성을 높였습니다.