워크스페이스 - 딥러닝 언어 모델

대규모 기업 조직이나 연구 개발 센터에서 다중 사용자 기반의 프라이빗 인프라를 효율적으로 운영하기 위해서는 사용자의 편의성을 도모하고 컴퓨팅 자원을 합리적으로 활용하는 자산 설계가 필수적입니다. Open WebUI는 웹 인터페이스상에서 직접 모델과 템플릿을 커스터마이징하는 Workspace 자산 엔진과, 시스템 무거운 부하를 최적화하는 Task Models 아키텍처를 제공하여 최상의 관리 가용성을 지원합니다.

1워크스페이스 커스텀 자산 관리¶

관리자 및 일반 권한 사용자가 플랫폼 내부에서 독자적인 모델 사양과 공용 자산을 생성하여 사내 전체에 전파하고 공유할 수 있는 자산 허브입니다.

1.1커스텀 모델 정의 (Workspace Models)¶

웹 기반 Modelfile 빌드: 텍스트 터미널에서 어렵게 빌드하던 Ollama의 Modelfile 원리를 세련된 웹 GUI 대시보드로 옮겨왔습니다.
커스텀 번들 생성: 관리자는 Workspace > Models로 이동한 뒤, 베이스 LLM(예: Llama 3 8B)을 지정하고, 사내 표준 행동 규범을 정의한 시스템 프롬프트(System Prompt), 온도(Temperature) 및 Top-K 등의 세부 추론 파라미터, 그리고 특정 지식베이스(Knowledge Bases) RAG 설정을 단일 번들로 패키징할 수 있습니다.
사내 공유 릴리즈: 패키징이 끝난 커스텀 모델을 저장하면 대화방의 모델 선택 드롭다운 목록에 즉각 독립 모델 식별 태그로 배포되어, 사내 모든 임직원이 동일한 사전 설정 및 정렬 품질 하에 프라이빗 대화 서비스를 즉시 공급받을 수 있습니다.

1.2프롬프트 템플릿 공유 (Workspace Prompts)¶

정형화된 대화 품질 유도: 일관된 문서 작성 양식, 사내 양식 변환, 보안 규정 진단 등 자주 재사용되는 고도화된 프롬프트 양식을 관리합니다.
슬래시(/) 단축 바인딩: Workspace > Prompts에서 특정 단축어(예: /report 등)를 정의해 프롬프트 템플릿을 등록하면, 사용자는 대화 입력창에서 해당 슬래시 단축키를 입력하는 즉시 사전 지정된 템플릿 텍스트를 불러와 채워 넣을 수 있어 불필요한 타이핑과 프롬프트 입력 오차를 최소화합니다.

1.3지식베이스 구조화 (Workspace Knowledge Bases)¶

논리적 문서 컬렉션: 개별 파일들을 일일이 대화방에 업로드하는 불편함을 걷어내고, 인사 규정, 기술 매뉴얼, 사내 개발 가이드라인 등 연관된 문서와 디렉토리 자원들을 하나의 의미론적 아카이브인 지식베이스(Knowledge Bases)로 묶어 구조화합니다.
영속적 RAG 인프라 연동: 구축된 지식베이스를 커스텀 모델 정의 시 기본 탑재(Modelfile 정합)해 두면, 구성원들은 별도의 수동 문서 바인딩 없이도 모델 질의만으로 사내 최신 지식이 상시 주입되는 최첨단 지식 네트워크를 즉시 공급받을 수 있습니다.

1.4실시간 컨텍스트 메모리: 노트 (Workspace Notes)¶

인라인 텍스트 아카이빙: 외부 텍스트 편집기나 메모장 도구 없이, 대화 웹 대시보드 내부인 Workspace > Notes에서 중요한 규칙, 배경 맥락, 또는 전제 조건 텍스트를 즉시 생성, 수정 및 영속 보관할 수 있습니다.
동적 텍스트 바인딩 (# 단축키): 대화방에서 # 단축키 뒤에 노드의 제목(예: #코드스타일가이드)을 기재하여 선택 인가하면, 해당 노트의 전체 텍스트가 대화 문맥 윈도우 상에 동적으로 즉각 주입됩니다.
일관된 텍스트 품질 사수: 복수의 대화 세션에 걸쳐 동일한 요약 지침, 정형화된 번역 템플릿, 혹은 사내 메일 격식 규정을 반복 입력할 필요 없이 노트에 한 번 등록해 두고 필요할 때마다 동적으로 임포트함으로써 균일하고 정합성 높은 출력을 영위하게 합니다.

1.5지능형 행동 스킬: 스킬 (Workspace Skills) 개발¶

파이썬 기반 액션 도구 장착: Skills는 웹 GUI상에서 직접 파이썬(Python) 함수 코드를 설계 및 등록하여, 모델이 필요시 스스로 가동할 수 있는 액티브 도구(Tools) 엔진의 개발 허브입니다.
자율적 외부 기능 제어: 모델이 복잡한 계산 연산, 외부 사내 날씨/주식 API 호출, 데이터 파일 마스킹 등 일반 LLM 텍스트 추론으로는 수행 불가능한 논리적 명령을 마주했을 때, 사용자의 명에 부합하는 적합한 파이썬 스킬 함수를 동적으로 자동 호출(Function Calling)하여 작업을 해결합니다.
커스텀 에이전트 빌드: 이렇게 개발한 개별 스킬들을 커스텀 모델 정의 시 Tools 탭에서 클릭 한 번으로 바인딩해 두면, 단순 질의응답을 넘어 스스로 계획하고 행동하는 고수준 사내 전용 자율 에이전트 모델로 즉시 고도화할 수 있습니다.

2인프라 고가용성을 위한 태스크 모델 (Task Models) 오프로딩¶

사용자가 메인 추론용 초대형 모델(예: 70B 규모 MoE 모델)과 긴 대화를 이어나갈 때, 시스템 백그라운드에서는 대화방 제목 생성(Title Generation), RAG 검색을 위한 사용자 질문 재정제(Query Refinement), 대화 주제 자동 분류(Tagging) 등 수많은 부차적인 추론 연산이 쉼 없이 자동 가동됩니다.

이러한 부가 태스크들을 전부 고비용 GPU 클러스터를 사용하는 메인 추론 모델에 맡기는 것은 엄청난 연산 VRAM의 낭비이자 추론 대기 시간(Latency)의 급격한 상승을 야기하는 비효율의 주원인입니다.

2.1특화 소형 모델 오프로딩 아키텍처¶

Open WebUI는 이러한 운영 비효율을 완벽히 소거하기 위해, 부차적인 배경 연산들을 전담하여 처리하는 태스크 모델(Task Models) 설정을 지원합니다.

분리 매핑: Admin Panel > Settings > Task Models로 진입하면, 대화방 제목 자동 생성(Title Generation Model), RAG 검색어 정제(RAG Query Generation Model) 등 각 태스크 영역별로 가동할 독립적인 경량 모델을 개별적으로 선택하고 인가할 수 있습니다.
공학적 이점:
- GPU VRAM 및 연산 자산 수호: 배경 연산 처리를 Ollama의 소형 CPU/GPU 경량 모델(예: Qwen 2 1.5B 또는 Llama 3 8B)로 오프로딩하여, 값비싼 다중 GPU 노드(vLLM 클러스터)의 메인 모델 자원을 순수 추론 연산에만 오롯이 집중 보존합니다.
- 극적인 레이턴시(Latency) 단축: 경량 모델이 가볍게 RAG 쿼리를 전처리하고 대화 태그를 자동 지정함으로써, 백그라운드 처리 시간과 전체 사용자 체감 대기 지연 시간을 대폭 소거하여 쾌적한 비즈니스 협업 UX 환경을 영위하도록 합니다.