대형 언어 모델 - 딥러닝 언어 모델

사전 훈련된 BERT와 GPT는 전례 없는 성능을 보여주며, 언어 모델의 규모 확장에 있어 중요한 전환점을 마련했습니다. 기존 딥러닝 연구에서도 모델의 크기와 깊이(depth)가 성능 향상에 핵심적이라는 사실은 알려져 있었지만, 그 병목 중 하나는 충분한 훈련 데이터의 확보였습니다.

그러나 BERT와 GPT는 비지도 학습 기반의 사전훈련 방식을 채택함으로써, 기존처럼 사람이 일일이 레이블을 부여하는 지도학습 방식의 한계를 넘어서게 되었습니다. 이로 인해 대규모 텍스트 데이터를 인터넷 등으로부터 자유롭게 수집하여 학습할 수 있었고, 그 결과 모델의 크기를 획기적으로 키울 수 있는 토대가 마련되었습니다.

이후 OpenAI는 GPT-2, 그리고 이어서 GPT-3를 연이어 공개했으며, 이들 모델은 이전 버전에 비해 규모와 성능 면에서 획기적인 도약을 이뤘습니다. 특히 GPT-3는 파라미터 수가 수십 배 증가했으며, 이로 인해 단순한 미세조정 없이도 다양한 태스크를 수행할 수 있는 few-shot / zero-shot 능력을 보여주었습니다.

1GPT 계열 모델 비교¶

상용 대형 언어 모델의 성장을 견인한 대표적인 독점형 모델 패밀리인 GPT 시리즈의 구조적 특징은 다음과 같이 요약됩니다.

모델	출시 시기	파라미터 수	주요 특징
GPT-1	초창기	117M	최초의 사전학습 + 미세조정 구조 도입
GPT-2	과도기	1.5B	대규모 언어 생성 능력, 텍스트 자동 완성 품질 혁신
GPT-3	본격 확장기	175B	Few-shot / Zero-shot 학습 가능, API 상용화 시작
GPT-3.5	ChatGPT 시초	약 175B	대화 인터페이스 최적화 및 실용성 개선
GPT-4	멀티모달 고도화	비공개 (수백B 추정)	멀티모달 지원, 높은 정답률과 안정성
GPT-4o	실시간 멀티모달	비공개	텍스트, 이미지, 음성 실시간 동시 처리 네이티브 구현

2희소 혼합 전문가 아키텍처의 도약¶

대형 언어 모델의 연산 효율성을 FP16 Dense 모델 수준으로 동결시키면서 모델 지식 용량만 조 단위 파라미터로 무제한 스케일링하기 위해 고안된 구조가 바로 희소 혼합 전문가(Sparse Mixture of Experts, MoE) 아키텍처입니다.

과거 연구에 머물던 Jacobs 등의 Local Experts 기법Jacobs et al. (1991)과 현대 트랜스포머 블록에 극효율 Sparsely-Gated 라우팅 기법을 성공적으로 이식한 Shazeer 등의 획기적인 연구Shazeer et al. (2017)를 거치며, MoE 아키텍처는 오늘날 초대형 최첨단 AI 언어 모델의 중추 설계 규격으로 자리매김했습니다.

MoE 아키텍처의 동작 원리, Dense 구조 대비 FLOPs 연산적 우위성, 그리고 라우팅 게이팅 루틴과 대형화 혁신 가치에 대한 상세 분석은 독립된 전용 장인 **혼합 전문가 아키텍처**에서 심도 있게 다룹니다.

References¶

Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural Computation, 3(1), 79–87.
Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. https://arxiv.org/abs/1701.06538