Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

양자화 (Quantization)

1양자화란?

양자화(Quantization)는 딥러닝 모델의 가중치(Weights)와 활성화값(Activations)을 높은 정밀도(High precision, 예: 32비트 또는 16비트 부동소수점)에서 낮은 정밀도(Low precision, 예: 8비트 또는 4비트 정수)의 수치 표현식으로 변환하는 모델 압축 및 경량화 기술입니다.

거대 언어 모델(LLM)은 수백억 개의 파라미터를 가지고 있어 단일 그래픽 카드(GPU)의 메모리(VRAM) 한계를 크게 초과합니다. 예를 들어 FP16 정밀도를 사용하는 70B(700억 파라미터) 모델을 로딩하려면 순수 모델 가중치에만 최소 140GB 이상의 VRAM이 필요합니다. 양자화는 이러한 모델 크기를 4분의 1 혹은 그 이하로 압축하여 일반 퍼스널 컴퓨터나 저가형 에지 디바이스에서도 LLM을 매끄럽게 구동할 수 있도록 돕는 핵심 열쇠입니다.

2양자화의 수학적 기초

양자화의 기본 원리는 실수 범위의 입력값 r[rmin,rmax]r \in [r_{\text{min}}, r_{\text{max}}]를 이산적인 정수 범위 q[qmin,qmax]q \in [q_{\text{min}}, q_{\text{max}}]로 선형 맵핑(Linear Mapping)하는 것입니다.

이 매핑은 스케일 인자(Scale Factor, SS)와 제로 포인트(Zero-point, ZZ)라는 두 가지 매개변수를 활용합니다.

2.1스케일(Scale, SS)과 제로 포인트(Zero-Point, ZZ) 유도

2.2양자화 및 역양자화 수식

3양자화의 분류

3.1매핑 방식에 따른 분류: 대칭 vs 비대칭

3.2수행 단계에 따른 분류: PTQ vs QAT

4현대 LLM 전용 양자화 알고리즘

거대 언어 모델은 기존의 일반적인 8비트 균등 양자화를 적용할 경우 정밀도가 급격히 붕괴하는 현상이 일어납니다. 특히 특정 채널의 활성화값(Activation)이 비정상적으로 튀는 아웃라이어(Outliers) 현상 때문입니다. 이를 해결하기 위해 혁신적인 LLM 전용 PTQ 알고리즘들이 고안되었습니다.

4.1GPTQ

4.2AWQ (Activation-aware Weight Quantization)

4.3GGUF / GGML (llama.cpp 생태계)

5LLM 양자화 알고리즘 비교

알고리즘대상 (Weight / Activation)권장 비트수 (Weight)주 사용 하드웨어주용도 및 특징
GPTQWeight-Only4-bit / 3-bitNVIDIA GPU단일 GPU 배포 시 VRAM 절약 극대화
AWQWeight-Only4-bitNVIDIA GPUvLLM 등 고성능 클라우드 서빙용, 안정성 높음
SmoothQuantWeight & Activation (W8A8)8-bitGPU / NPU가중치와 활성화값 모두 INT8로 변환해 하드웨어 연산 속도 극대화
GGUFBlock-wise Weight2-bit ~ 8-bitCPU / Apple Silicon맥북, 미니 PC 등 로컬 및 에지 디바이스 구동 환경 최적화

양자화를 거쳐 압축된 모델은 가벼운 저장 용량과 VRAM 점유율 덕분에 로컬 가속 프레임워크(llama.cpp) 또는 에지 기반 오케스트레이터(Ollama) 등을 타고 일반 사용자들의 손끝에서 강력한 성능을 발휘할 수 있게 됩니다.