Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

MoE

대형 언어 모델의 규모(파라미터 수)를 수천억에서 조 단위로 계속 확장하는 과정에서 마주하는 최대 병목은 연산 자원의 물리적 한계와 실서비스 시 발생하는 천문학적인 비용 장벽입니다. 이를 창조적으로 타개하기 위해 탄생한 아키텍처가 바로 혼합 전문가(Mixture of Experts, MoE) 설계 기법입니다.

MoE 아키텍처는 역사적으로 Jacobs 등의 Local Experts 혼합 모델 기법Jacobs et al. (1991)에 그 뿌리를 두고 있으며, 현대의 대규모 딥러닝 및 트랜스포머 스케일링 레이어로 Sparsely-Gated 구조를 성공적으로 이식한 Shazeer 등의 선구적 연구Shazeer et al. (2017)를 통해 거대 모델 시대의 중추적 혁신 기술로 자리매김했습니다.

1Dense 모델 vs MoE 모델 구조 비교

전통적인 인공신경망 아키텍처와 MoE 아키텍처의 물리적 계산 차이는 다음과 같습니다.

1.1밀집(Dense) 아키텍처

1.2희소 혼합 전문가(Sparse MoE) 아키텍처

전문가 혼합(MoE)의 라우팅과 Top-2 전문가 활성화 구조

전문가 혼합(MoE)의 라우팅과 Top-2 전문가 활성화 구조

2MoE 아키텍처의 혁신적 가치와 의의

MoE 아키텍처는 단순히 연산을 쪼개는 것을 넘어, 현대 딥러닝 스케일링 엔지니어링의 패러다임을 바꾼 여러 가치를 제공합니다.

2.1총 파라미터(Total)와 활성 파라미터(Active)의 분리

2.2규모의 법칙(Scaling Laws)의 한계 한 단계 더 확장

3대표적인 현대 MoE 혁신 사례

References
  1. Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural Computation, 3(1), 79–87.
  2. Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. https://arxiv.org/abs/1701.06538