Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

멀티모달 미디어

엔터프라이즈 환경에서 비공개 인공지능 비서의 가치를 극대화하기 위해서는 단순 텍스트 질의응답을 넘어 음성으로 대화하고 실시간 이미지 시각 자산을 직접 만들어내는 다감각적 멀티모달(Multimodal) 인터페이스의 융합이 요구됩니다. Open WebUI는 외부 클라우드 망과의 완전한 격리를 보존하면서도 온프레미스 GPU 서버 내에서 미디어를 자급자족 오케스트레이션할 수 있는 강력한 API 정합 아키텍처를 기본 내장하고 있습니다.

1프라이빗 음성 비서: STT & TTS 통합

웹 상에서 마우스 클릭이나 키보드 입력 없이 자연스럽게 음성으로 말을 걸고 언어 모델의 답변을 고품질 음성 스트리밍으로 청취하는 폐쇄형 음성 환경을 제공합니다.

1.1Whisper 기반 오프라인 음성 인식 (STT)

사용자의 마이크 음성 입력을 받아 이를 정밀한 한글/영어 텍스트로 변환하는 음성 인식(Speech-to-Text) 장치를 로컬 인프라에 장착합니다.

1.2OpenAI TTS 규격 및 음성 합성 (TTS)

언어 모델이 생성한 텍스트 답변을 사람의 목소리로 자연스럽게 변환하여 스피커로 출력하는 음성 합성(Text-to-Speech) 기법입니다.

2온프레미스 이미지 생성 엔진 연동

대화 문맥에서 "사내 보안 인프라를 묘사하는 3D 렌더링 그림을 그려줘"와 같은 오더를 내렸을 때, 모델이 즉각 프롬프트를 번역하고 외부 미디어 도구를 가동해 이미지를 생성(Image Generation)해 줍니다.

2.1AUTOMATIC1111 (Stable Diffusion WebUI) 연동

사내 GPU 인프라의 여유 VRAM 풀에 Stable Diffusion 추론 서버를 띄워 Open WebUI와 API 결합을 달성합니다.

2.2ComfyUI API 통합

보다 복잡하고 정교한 워크플로우 제어(예: FLUX 모델 가동, 고해상도 업스케일러 매핑 등)를 영위하는 노드 기반 이미지 가속 엔진인 ComfyUI를 통합할 수 있습니다.

3보안 격리 가상 터미널: Open Terminal

Open WebUI는 격리된 안전한 도커 컨테이너 샌드박스 내부에서 실제 Linux 쉘 환경을 제공하고, 언어 모델이 사용자의 명에 따라 CLI 명령을 자율 수행하도록 하는 가상 터미널(Open Terminal) 연동을 지원합니다.