모델 최적화 - 딥러닝 언어 모델

사후 훈련까지 마친 모델은 그 자체로 완결된 지능을 갖추지만, 막상 로컬 환경에 올리려는 순간 하드웨어의 벽에 부딪힙니다. FP16 정밀도의 70B 모델은 가중치만으로 140GB가 넘는 VRAM을 요구하여, 단일 GPU는 물론 웬만한 워크스테이션으로도 적재 자체가 불가능합니다.

이 장에서 말하는 "최적화"는 모델을 더 똑똑하게 만드는 일이 아니라, 이미 학습된 모델을 주어진 하드웨어에서 실제로 구동 가능하게 압축하는 배포 관점의 작업입니다. 바로 다음 장의 온프레미스 서빙으로 넘어가기 위한 전제 조건인 셈입니다.

그 핵심 기법이 양자화(Quantization) 입니다. 가중치와 활성화값을 16비트 부동소수점에서 8비트·4비트 정수로 낮춰 모델 크기를 4분의 1 이하로 줄이면서도 성능 저하를 최소화하는 기술로, GGUF·AWQ·GPTQ 같은 포맷을 통해 llama.cpp·Ollama·vLLM 등 실제 서빙 엔진과 직접 맞물립니다. 이어지는 양자화 장에서 그 수학적 원리부터 실전 적용까지 집중적으로 다룹니다.