Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

하이브리드 RAG

외부 망과 완벽히 격리된 온프레미스 인프라 환경에서 언어 모델에 최신의 도메인 지식이나 보안 기밀 데이터를 정밀하게 학습 및 인가하기 위한 가장 유연하고 즉각적인 수단은 RAG(검색 증강 생성)입니다. Open WebUI는 시스템 아키텍처 레벨의 추가 데이터베이스 설계 복잡성을 완전히 걷어낸 서버리스 하이브리드 RAG 메커니즘을 내장하고 있습니다.

1내장 벡터 DB 기반의 무설정 인덱싱

사용자가 대화 입력창에 파일을 끌어다 놓거나(Drag & Drop) 공용 문서 저장소 공간에 업로드하는 즉시, 다음과 같은 다단계 RAG 파이프라인이 자동 백그라운드 구동됩니다.

  1. 텍스트 추출 및 청킹 (Chunking): 문서의 포맷(PDF, Markdown, CSV, DOCX 등)을 자동으로 인지하여 텍스트를 정교하게 발췌하고, 문맥의 유실을 최소화하는 일정한 토큰 윈도우 단위로 문단을 분할합니다.

  2. 실시간 임베딩 및 인덱싱: 서버 내부에 독립 컨테이너나 내장 모듈로 가동 중인 Chroma와 같은 경량 벡터 데이터베이스에 로컬 임베딩 모델(예: BAAI/bge-m3 등)을 연결하여 고차원 밀집 벡터로 변환 및 즉각 탑재를 수행합니다.

1.1지식베이스 (Knowledge Bases) 및 # 단축 바인딩

2하이브리드 리트리버와 의미론적 유사성 융합

단순한 형태소 비교나 어휘 분석만으로는 최상의 맥락 데이터를 검색하기 어렵습니다. 이에 따라 하이브리드 RAG는 다음 두 가지 트랙의 검색 스코어를 동적으로 융합합니다.

두 계열의 검색 결과를 RRF(Reciprocal Rank Fusion) 알고리즘으로 동적으로 혼합 가중 계산하여, 모델의 문맥 제한 윈도우 내에 로컬 사내 지식을 완벽하게 주입하고 정확도 높은 근거 기반 추론을 영위하게 합니다.

3격리망을 위한 프라이빗 웹 검색 및 에이전틱 리서치

인프라 내부 지식 외에 실시간 인터넷 리소스를 RAG 컨텍스트로 바인딩하기 위한 확장 기능을 제공합니다.

외부 DuckDuckGo API나 Google API 호출이 불가능한 강력한 프라이빗 폐쇄망 환경에서는, 프라이버시가 강건하게 확보되는 자체 호스팅 검색 엔진인 SearXNG를 로컬 도커로 함께 구동하여 최상의 웹 검색 인프라를 완성합니다.

3.2에이전틱 검색 모드 (Agentic Mode)

단순히 검색 키워드에 대응하는 최상위 검색 결과 텍스트들을 모델 입력창에 그대로 밀어 넣는 레거시 RAG 방식과 차별화됩니다.

4임베딩 모델(Embedding Model) 선택과 설정 가이드

RAG 시스템을 사내 인프라에 안착시킬 때, 모델 자체의 지능만큼이나 임베딩 모델의 선택과 튜닝이 전체 지식 회수 품질(Recall Quality)을 좌우하는 절대적인 요소입니다. 아무리 뛰어난 70B 초대형 추론 모델을 사용하더라도, 임베딩 단계에서 문맥의 의미론적 유사도 판정에 실패해 잘못된 지식 조각을 프롬프트 창에 밀어 넣어준다면 답변의 정확도는 현격히 무너집니다.

4.1온프레미스 고성능 다국어 임베딩 모델 추천

오프라인 프라이빗 환경에 배포하기 적합한 대표적인 오픈소스 임베딩 모델군입니다:

4.2메인 추론 모델과 임베딩 제공사의 아키텍처적 정합 분리

많은 인프라 설계자들이 범하는 오류 중 하나는 챗 대화용 메인 모델과 임베딩 모델의 제공사를 동일하게 종속시키는 것입니다. Open WebUI는 두 엔진의 공급자를 완전히 독립적으로 격리 및 분리 지정하는 지능형 유연 설계를 제공하며, 이는 보안과 비용 사수에 있어 극도로 중추적인 역할을 합니다.

4.3임베딩 스펙: Context 길이와 Re-indexing

임베딩 모델을 선택하거나 변경한 후에는 해당 모델이 지원하는 물리적인 최대 Context 윈도우 한계를 확인하여 청킹 스펙을 반드시 동기화해야 합니다.

4.4RAG Prefix 및 고도화 환경 변수 제어

지시 기반 임베딩 모델(Instruction-aware Embedding Models)은 질문(Query)과 저장할 문서 청크(Passage)의 역할을 사전에 구분하여 인지해야만 벡터 공간 내에서 의미적 정합성을 정상 판정해 냅니다.

Open WebUI는 이러한 모델들을 위해 문장을 가공하기 전 접두사를 자동으로 조립하여 모델에 인가해 주는 전용 환경 변수 환경을 지원합니다.

4.4.1각 대표 임베딩 모델별 최적의 Prefix 매핑 설정 규격

타겟 임베딩 모델질문용 환경 변수 (RAG_EMBEDDING_MODEL_QUERY_PREFIX)문서용 환경 변수 (RAG_EMBEDDING_MODEL_PASSAGE_PREFIX)공학적 의의 및 작동 가이드
nomic-ai/nomic-embed-text"search_query: ""search_document: "Nomic 텍스트 모델들의 검색 매칭 정확도를 극대화하는 표준 지시 규격
intfloat/multilingual-e5-large"query: ""passage: "E5 계열 모델들의 벡터 유사성 공간(Subspace Alignment) 매핑을 위한 필수 선언값
BAAI/bge-m3"Represent this sentence for searching relevant passages: """ (비워둠)다국어 검색 성능 확보를 위해 질문 시에만 명시적 조력을 부여하고 문서는 공백 처리