MoE - 딥러닝 언어 모델

대형 언어 모델의 규모(파라미터 수)를 수천억에서 조 단위로 계속 확장하는 과정에서 마주하는 최대 병목은 연산 자원의 물리적 한계와 실서비스 시 발생하는 천문학적인 비용 장벽입니다. 이를 창조적으로 타개하기 위해 탄생한 아키텍처가 바로 혼합 전문가(Mixture of Experts, MoE) 설계 기법입니다.

MoE 아키텍처는 역사적으로 Jacobs 등의 Local Experts 혼합 모델 기법Jacobs et al. (1991)에 그 뿌리를 두고 있으며, 현대의 대규모 딥러닝 및 트랜스포머 스케일링 레이어로 Sparsely-Gated 구조를 성공적으로 이식한 Shazeer 등의 선구적 연구Shazeer et al. (2017)를 통해 거대 모델 시대의 중추적 혁신 기술로 자리매김했습니다.

1Dense 모델 vs MoE 모델 구조 비교¶

전통적인 인공신경망 아키텍처와 MoE 아키텍처의 물리적 계산 차이는 다음과 같습니다.

1.1밀집(Dense) 아키텍처¶

계산 메커니즘: 트랜스포머 레이어에 입력되는 매 토큰마다 신경망 전체 레이어의 매개변수가 100% 모두 연산에 참여합니다.
한계: 모델의 일반화 능력을 키우기 위해 파라미터 크기( $N$ )를 확장하면, 매 토큰을 생성할 때 계산해야 하는 연산량(FLOPs)과 VRAM 소비 부담이 정비례하여 선형적으로 폭증합니다.

1.2희소 혼합 전문가(Sparse MoE) 아키텍처¶

계산 메커니즘: 트랜스포머 블록 내의 피드포워드 네트워크(FFN) 레이어를 여러 개의 독립된 서브 네트워크인 전문가(Expert) 레이어들로 분할 배치합니다.
작동 프로세스:
1. 입력 토큰이 유입되면 레이어 초입에 위치한 라우터 / 게이팅 네트워크(Router / Gating Network)가 활성화 스코어를 계산합니다.
2. 라우터가 계산한 확률에 기반하여, 전체 수십 개의 전문가 중 오직 극소수(예: 상위 1~2개의 전문가)인 활성 전문가(Active Experts)만 깨워 토큰을 통과시키고 연산을 위임합니다.
3. 선택을 받지 못한 나머지 대다수의 전문가 레이어들은 계산에 참여하지 않고 동결(Idle) 상태를 유지합니다.

2MoE 아키텍처의 혁신적 가치와 의의¶

MoE 아키텍처는 단순히 연산을 쪼개는 것을 넘어, 현대 딥러닝 스케일링 엔지니어링의 패러다임을 바꾼 여러 가치를 제공합니다.

2.1총 파라미터(Total)와 활성 파라미터(Active)의 분리¶

모델 용량(Capacity)의 확보: 언어 모델이 세상의 법칙과 정교한 인과 관계를 고도로 기억하는 지식 밀도는 총 파라미터 크기(Total Parameters)에 지배적인 영향을 받습니다.
추론 비용(Compute Cost)의 억제: 실제 GPU 장비에서 전기세와 하드웨어 비용으로 직접 변환되는 연산량은 오직 토큰 계산에 참여하는 활성 파라미터 크기(Active Parameters)에만 영향을 받습니다.
이점: 총 매개변수가 수천억에 달하는 메머드급 인프라 모델이라도, 토큰당 활성 파라미터를 100억 개 수준으로 묶어두면 서빙 레이턴시와 가용 컴퓨팅 비용은 100억 파라미터급 Dense 모델 수준으로 극단적으로 억제되어 서빙 효율성의 민주화를 달성할 수 있습니다.

2.2규모의 법칙(Scaling Laws)의 한계 한 단계 더 확장¶

연산량 증가 대비 학습 손실(Loss)이 감소하는 멱함수 기반 규모의 법칙을 저비용으로 달성해 줍니다.
제한된 학습 예산 범위 내에서 모델 파라미터 확장의 효과를 온전히 누릴 수 있어, 동서양의 빅테크 기업들이 최첨단 상용 및 가중치 공개 모델의 기초 아키텍처로 MoE를 전격 설계 및 정착시키는 계기가 되었습니다.

3대표적인 현대 MoE 혁신 사례¶

Fine-Grained Expert 분할: 전문가 1개의 크기를 잘게 쪼개어(예: DeepSeekMoE 등) 전문가 간의 지식 중복을 방지하고 고도의 도메인 특화 지능 분할을 달성했습니다.
공유 전문가 (Shared Expert): 게이팅 선택과 관계없이 항상 활성화되어 모든 토큰에 공통으로 필요한 기초 세계 상식과 물리적 텍스트 구조를 처리하는 고정 전문가 블록을 상설 가동하여, 다이나믹 라우팅 시 발생하는 지식 누수와 병목 현상을 완벽히 해결했습니다.

References¶

Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural Computation, 3(1), 79–87.
Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. https://arxiv.org/abs/1701.06538