사후 훈련 (Post-training)

1사후 훈련이란?¶

사전 훈련을 마친 베이스 모델(Base Model)은 방대한 텍스트 코퍼스를 바탕으로 세상에 존재하는 모든 언어적 패턴과 일반 지식을 내재화하고 있습니다. 그러나 이 모델은 단순히 입력 텍스트 다음에 올 '가장 확률이 높은 단어’를 출력하는 다음 토큰 예측기(Next-Token Predictor)일 뿐입니다.

따라서 베이스 모델에게 질문을 던지면 질문에 답하는 대신, 질문 자체를 반복해서 적어 내려가거나 다른 질문들을 추가로 만들어내는 등의 행동(문장 완성 행동)을 취하게 됩니다.

사후 훈련(Post-training)은 베이스 모델에 대화형 인터페이스를 심고, 사용자의 구체적인 지시(Instruction)에 알맞은 유용한 정보를 안전하고 공손하게 응답하도록 모델의 성향과 거동을 조정하는 정렬(Alignment) 과정입니다. 사후 훈련을 거침으로써 비로소 우리가 잘 아는 지시 이행형 모델(Instruct Model) 혹은 대화형 모델(Chat Model)이 완성됩니다.

2사후 훈련의 3대 정렬 파이프라인¶

사후 훈련은 크게 지도 학습 미세조정(SFT)과 인간 선호도 정렬(Alignment - RLHF / DPO) 단계로 이루어집니다.

2.11단계. SFT¶

**SFT(Supervised Fine-Tuning, 지도 학습 미세조정)**는 사후 훈련의 첫 번째 단추로, 사람(혹은 고성능 교사 모델)이 정성껏 작성한 [지시사항, 문맥, 이상적인 응답] 쌍의 고품질 데이터셋을 사용하여 모델의 파라미터를 교사 학습 형태로 업데이트합니다.

핵심 학습 내용: 대화형 역할 분담, 대화형 템플릿(Chat Template, 예: ChatML), 주어진 질문에 충실히 답하기, 요약 및 번역 규격 맞추기

학습 형식 예시:

<|im_start|>system
당신은 친절한 인공지능 비서입니다.<|im_end|>
<|im_start|>user
아인슈타인의 상대성 이론을 한 줄로 요약해줘.<|im_end|>
<|im_start|>assistant
상대성 이론은 시간과 공간이 절대적이지 않고 물질의 질량과 운동에 따라 유기적으로 변화한다는 물리 법칙입니다.<|im_end|>

2.1.1사전 훈련과 지시 이행의 간극¶

베이스 모델은 문맥상 자연스러운 다음 단어를 잘 예측하지만, 사용자의 '지시’를 받으면 임무를 수행하는 대신 문맥을 이어 쓰는 경향이 있습니다.

언어적으로는 자연스럽지만 번역 임무는 전혀 수행하지 못합니다. SFT는 "지시란 무엇이고, 그에 맞는 답을 조립하는 행동이 무엇인지"를 모델에 각인시켜 이 간극을 메웁니다.

2.1.2전이 학습이 아닌 행동 정렬¶

생성형 디코더 LLM의 SFT는 전통적 전이 학습과 다릅니다. BERT류는 태스크마다 출력 헤드를 교체했지만, GPT·Llama류는 ‘다음 토큰 예측’ 헤드를 그대로 둔 채, 이미 지식을 내재한 베이스 모델이 "인간이 지시하는 대화 양식"에 맞춰 행동하도록 **거동을 정렬(Alignment)**합니다. 덕분에 밑바닥 재학습 없이 소규모 자원·템플릿 데이터만으로 대화형 비서를 구축할 수 있습니다.

2.22단계. RLHF¶

**RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)**는 SFT를 거친 모델이 여전히 보이는 환각·유해·편향을 줄이고, 응답의 유용성·무해성·정합성을 인간 선호도에 맞춰 끌어올리는 정렬 단계입니다. OpenAI의 InstructGPTOuyang et al. (2022) 이후 표준이 된 RLHF-PPO는 세 단계로 이뤄집니다.

선호 데이터셋 구축: 같은 지시 $x$ 에 SFT 모델이 여러 답변을 생성하고, 사람이 우수한 **선호 응답 $y_w$ **와 부적절한 **비선호 응답 $y_l$ **를 쌍으로 표시합니다.
보상 모델 $R_\psi$ 학습: 선호 쌍으로, $y_w$ 에 높은 점수· $y_l$ 에 낮은 점수를 주도록 대조 손실을 최적화합니다.

\mathcal{L}_R(\psi) = - \mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( R_\psi(x, y_w) - R_\psi(x, y_l) \right) \right]

(1)

PPO 강화학습: 액터 모델 $\pi_\theta$ 가 답변을 생성하면 $R_\psi$ 가 점수를 매기고, 그 보상을 최대화하도록 정책을 갱신합니다.

2.2.1PPO 목적 함수와 KL 페널티¶

\mathcal{L}_{\text{RLHF}}(\theta) = \hat{\mathbb{E}}\left[ R_\psi(x, y) \right] - \beta \, \mathbb{D}_{\text{KL}}\!\left( \pi_\theta(y \mid x) \,\parallel\, \pi_{ref}(y \mid x) \right)

(2)

첫 항은 기대 보상을 극대화하고, 둘째 항은 갱신 중인 액터 $\pi_\theta$ 가 기준 SFT 모델 $\pi_{ref}$ 에서 멀어지지 않도록 KL 페널티를 부여합니다. KL 제어가 없으면 모델은 보상 모델의 허점만 공략해 점수를 부풀리는 **리워드 해킹(Reward Hacking)**에 빠지거나, 레퍼런스에서 과도히 이탈해 언어 능력이 붕괴하므로 계수 $\beta$ 로 균형을 잡습니다.

2.2.2하드웨어 한계¶

RLHF-PPO는 훈련 루프에서 4개의 대형 모델을 동시에 VRAM에 올려야 합니다 — 액터( $\pi_\theta$ ), 레퍼런스( $\pi_{ref}$ ), 보상( $R_\psi$ ), 크리틱(가치 함수). 경사도·옵티마이저 상태까지 상주해 SFT 대비 메모리가 3~4배로 폭증하고, 강화학습 특유의 하이퍼파라미터 민감성으로 훈련이 쉽게 불안정해집니다.

2.2.3GRPO — 크리틱 없는 강화학습¶

DeepSeek-R1DeepSeek-AI (2025)이 도입한 **GRPO(Group Relative Policy Optimization)**는 PPO의 최대 메모리 주범인 크리틱 모델을 제거합니다. 단일 질문에 $G$ 개(보통 4~8개) 답변을 한꺼번에 생성(group roll-out)하고, 그룹 내부의 평균·표준편차로 보상을 정규화해 PPO의 Advantage를 대체합니다.

A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}

(3)

크리틱 없이 액터·레퍼런스 2개만 올리면 되어 VRAM 장벽을 크게 낮추고, 같은 질문의 여러 추론을 상대 비교하므로 다음 단계인 사슬 추론(CoT) 강화학습에 특히 잘 맞습니다.

2.33단계. DPO¶

RLHF-PPO는 보상 모델·크리틱 가동으로 인프라가 복잡하고 훈련이 불안정합니다. **DPO(Direct Preference Optimization, 직접 선호 최적화)**는 이 병목을 수학적 변환으로 무력화해, 보상 모델과 PPO 강화학습 단계를 통째로 건너뛰고 선호 데이터에서 곧바로 학습합니다Rafailov et al. (2024).

2.3.1대조 손실 함수¶

DPO는 보상을 정책 $\pi$ 의 확률 표현으로 치환할 수 있음을 보여, 다음 대조 손실로 정렬을 직접 수행합니다.

\mathcal{L}_{\text{DPO}}(\theta) = - \mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w \mid x)}{\pi_{ref}(y_w \mid x)} - \beta \log \frac{\pi_\theta(y_l \mid x)}{\pi_{ref}(y_l \mid x)} \right) \right]

(4)

레퍼런스 $\pi_{ref}$ (고정 SFT 모델) 대비, 선호 응답 $y_w$ 의 상대 확률은 키우고 비선호 $y_l$ 의 상대 확률은 낮추도록 학습합니다. $\beta$ 는 레퍼런스에서 벗어나는 정도를 통제합니다.

2.3.2PPO 대비 공학적 가치¶

비교 항목	RLHF-PPO	DPO
보상 모델	필수	불필요
VRAM 동시 모델 수	최소 4개	2개 (Actor, Reference)
훈련 안정성	매우 낮음 (발산 위험)	매우 높음 (이진 분류 수렴)
인프라 장벽	다중 GPU 분산	단일 GPU·LoRA 지원

DPO는 액터·레퍼런스 2개만 VRAM에 올리면 되고, 강화학습 롤아웃 없이 사실상 이진 크로스 엔트로피 분류 형태라 발산 없이 안정적으로 수렴합니다. 이 안정성·경제성 덕분에 최신 공개 모델(Llama 3.1, Qwen2.5 등)이 SFT 직후 정렬에 DPO(및 개량형)를 널리 채택합니다.

2.3.3DPO를 넘어선 페어리스 정렬¶

DPO도 여전히 선호/비선호 쌍 데이터가 필요합니다. 이를 완화하는 후속 기법이 이어집니다.

KTO(Kahneman-Tversky Optimization)Ethayarajh et al. (2024): 전망 이론에 착안해, 쌍 없이 개별 응답의 좋음/나쁨 단일 레이블만으로 학습 — 데이터 구축 비용을 크게 낮춥니다.
SimPOMeng et al. (2024): 길이 정규화 로그 확률과 보상 마진만 쓰고 레퍼런스 모델까지 제거 — 액터 1개만 VRAM에 올려도 됩니다.

기법	보상 모델	레퍼런스	데이터	VRAM
RLHF-PPO	필수	필수	쌍	4개 모델
DPO	불필요	필수	쌍	2개 모델
KTO	불필요	필수	단일 레이블	2개 모델
SimPO	불필요	불필요	쌍	1개 모델

2.44단계. CoT¶

전통적인 사후 훈련이 인간과 유사하게 응답하도록 유도하는 "지시 모방"에 초점을 맞추었다면, 최근에는 모델에게 자발적인 사고 능력을 길들여 수학, 코딩, 기하학 등 고도의 논리 문제를 해결하도록 만드는 사슬 추론 정렬(Reasoning Alignment)이 사후 훈련의 신성원으로 등극했습니다.

사슬 추론(CoT; Chain-of-Thought)의 개념 자체는 Jason Wei 등이 제안한 프롬프팅 연구Wei et al. (2022)에 뿌리를 두고 있으나, 현대의 사후 훈련은 이를 단순 프롬프트 기법을 넘어 모델 가중치 정렬 수준으로 깊숙이 통합시켰습니다.

2.4.1규칙 기반 보상과 자아 성찰¶

추론 정렬의 핵심 혁신은 사람이 작성한 정답 추론 경로가 없어도 모델이 스스로 생각하는 법을 깨우친다는 점입니다.

사람이 생각 과정을 일일이 채점하는 대신, “수학 정답이 맞는가”, “코드가 컴파일·테스트를 통과하는가” 같은 객관적 규칙만 보상으로 줍니다. 모델이 여러 경로를 탐색하며 강화학습(PPO/GRPO)을 거듭하면 높은 보상을 준 사고 패턴을 내재화하고, 임계점을 넘으면 “잠깐, 이 논리는 모순이네 — 다시 계산하자” 같은 자아 성찰(Self-Correction)·역추적을 시키지 않아도 보입니다.

2.4.2생각 템플릿 (`<think>`)¶

추론 모델은 질문과 응답 사이에 명시적 사고 영역을 둡니다. 최종 답을 내기 전 <think>…</think> 경계 안에서 검산·논리 교정을 충분히 전개한 뒤, 정제된 답만 노출합니다. 같은 VRAM 자원에서도 이 사고 세그먼트가 수학·논리 문제 해결률을 일반 instruct 모델 대비 크게 끌어올립니다.

3사후 훈련의 정렬 전략 비교¶

비교 항목	지도 학습 미세조정 (SFT)	보상 모델 기반 강화학습 (RLHF-PPO)	직접 선호도 최적화 (DPO)	사슬 추론 정렬 (Reasoning RL)
학습 데이터 형태	`[지시 - 올바른 응답]` 쌍	`[지시 - 선량/불량 응답]` 쌍	`[지시 - 선량/불량 응답]` 쌍	오직 [지시 - 규칙 기반 검증 피드백]
훈련 안정성	매우 높음 (일반 지도 학습과 동일)	매우 낮음	높음	보통 (대규모 그룹 평가 시 안정적)
자원 소모량	적음	매우 큼	적음	매우 큼 (수천 번의 샘플링 롤아웃 수행)
주요 한계점	교사의 수준 이상으로 정답 능력이 갇힘	리워드 해킹 발생 위험	레퍼런스 데이터 오염 시 과적합 취약	추론 시간 및 토큰 생성 비용의 대폭 폭증

4지식 증류 (Knowledge Distillation)¶

앞의 정렬 단계들이 한 모델의 거동을 다듬는 작업이었다면, 지식 증류(Knowledge Distillation)는 이미 잘 학습된 거대한 교사 모델(Teacher)의 능력을 더 작은 학생 모델(Student)로 옮겨 담는 작업입니다Hinton et al. (2015). 결과물이 더 작은 모델이라 흔히 "압축 기법"으로 분류되지만, 양자화처럼 이미 만들어진 가중치를 배포 시점에 변환하는 것이 아니라 학생 모델을 새로 학습시켜 만들어 내는 과정입니다. 그래서 이 책은 증류를 배포 관점의 모델 최적화가 아닌, 모델을 길러 내는 사후 훈련의 한 갈래로 여기서 다룹니다.

4.1소프트 레이블과 암흑 지식¶

증류의 출발점은, 교사가 내놓는 확률 분포 전체가 정답 하나만 표시한 원-핫 레이블보다 훨씬 풍부한 정보를 담는다는 통찰입니다. “고양이” 이미지를 두고 교사가 고양이 0.9 / 개 0.08 / 자동차 0.001을 출력했다면, "개와는 닮았고 자동차와는 무관하다"는 클래스 사이의 유사성 구조까지 알려 줍니다 — 이를 **암흑 지식(Dark Knowledge)**이라 부릅니다.

이 부드러운 신호를 살리기 위해 **온도(Temperature, $T$ )**로 분포를 완만하게 폅니다.

p_i(T) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}

(5)

학생은 같은 온도로 편 교사 분포를 KL 발산으로 모방하고, 통상 정답 원-핫에 대한 교차 엔트로피를 함께 씁니다.

\mathcal{L} = \alpha \, T^2 \, \mathbb{D}_{\text{KL}}\!\left(p^{\text{teacher}}(T) \,\parallel\, p^{\text{student}}(T)\right) + (1 - \alpha)\, \mathcal{L}_{\text{CE}}

(6)

4.2두 갈래: 화이트박스와 시퀀스 수준¶

화이트박스(로짓) 증류: 위 수식대로 교사의 출력 분포를 직접 모방합니다. 교사·학생을 동시에 VRAM에 적재해야 하고, 두 모델이 토크나이저(어휘)를 공유해야 분포를 정렬할 수 있습니다.
시퀀스 수준(데이터) 증류: 교사가 생성한 응답이나 <think> 추론 트레이스 자체를 데이터셋으로 삼아 학생을 SFT합니다. 교사의 내부 로짓이 필요 없어 API만 열린 블랙박스 교사로도 가능하며, 학생 학습은 1단계 SFT와 완전히 동일합니다.

현대 LLM의 "증류"는 대부분 후자입니다. 대표적으로 DeepSeek-R1DeepSeek-AI (2025)은 R1이 생성한 80만 건의 추론 데이터로 Qwen·Llama 베이스 모델을 SFT하여 R1-Distill 계열을 만들었습니다 — 작은 모델에 값비싼 강화학습을 다시 돌리지 않고, 교사의 추론 능력을 SFT만으로 이식한 것입니다.

비교 항목	화이트박스(로짓) 증류	시퀀스 수준(데이터) 증류
교사에게 필요한 것	출력 로짓/분포	생성된 텍스트만
교사 접근성	백박스(가중치 보유)	블랙박스 API도 가능
토크나이저	교사·학생 공유 필수	무관
VRAM	교사+학생 동시 적재	분리 가능(생성→훈련)
학습 방식	커스텀 KL 손실	일반 SFT 그대로

4.3실습: 교사 응답으로 학생 증류하기¶

시퀀스 수준 증류는 별도의 새 도구가 거의 없어 단일 GPU에서도 곧장 재현됩니다. R1-Distill의 축소판을 다음 흐름으로 구성합니다.

프롬프트 수집: 증류하려는 능력(예: 수학 추론)에 해당하는 질문 집합을 준비합니다.
교사 생성: 강한 교사 모델(예: Qwen3-8B)을 Ollama로 띄워 각 프롬프트에 <think> 추론을 포함한 응답을 생성합니다. 교사는 추론만 하므로 4비트 양자화로 적재해도 충분합니다.
데이터셋화: [지시 - 교사 응답] 쌍을 Chat Template 형식으로 정리합니다.
학생 학습: 작은 학생(예: Qwen3-0.6B)을 미세조정 장의 Unsloth LoRA 파이프라인에 그대로 태워 SFT합니다.

교사 생성과 학생 학습이 분리되어 두 모델을 동시에 올릴 필요가 없으므로, 24GB급 단일 GPU(RTX 3090 등)에서도 무리가 없습니다. 핵심 관찰은 로짓 한 줄 없이 교사의 텍스트만으로도 추론·문체 같은 핵심 능력이 학생에게 옮겨 간다는 점입니다.

GSM8K 수학 추론을 교사 Qwen3-8B에서 학생 Qwen3-0.6B로 증류하는 전체 실행 코드는 지식 증류 실습 노트북에 있습니다.

이 정렬 작업들을 대규모 모델에 적용할 때의 효율화 기법(PEFT·LoRA)과 실습은 미세조정 장에서 다룹니다.

References¶

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P. F., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. https://arxiv.org/abs/2501.12948
Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2024). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. https://arxiv.org/abs/2305.18290
Ethayarajh, K., Webson, A., Ethayarajh, R., Zhang, W., Finn, C., & Manning, C. D. (2024). KTO: Model Alignment as Prospect Theoretic Optimization. https://arxiv.org/abs/2402.01309
Meng, Y., Xia, M., Pang, R. Y., Manning, C. D., & Chen, D. (2024). SimPO: Simple Preference Optimization with a Reference-Free Reward. https://arxiv.org/abs/2405.14734
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Li, F.-F., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. https://arxiv.org/abs/2201.11903
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. https://arxiv.org/abs/1503.02531

1사후 훈련이란?¶

2사후 훈련의 3대 정렬 파이프라인¶

2.11단계. SFT¶

2.1.1사전 훈련과 지시 이행의 간극¶

2.1.2전이 학습이 아닌 행동 정렬¶

2.22단계. RLHF¶

2.2.1PPO 목적 함수와 KL 페널티¶

2.2.2하드웨어 한계¶

2.2.3GRPO — 크리틱 없는 강화학습¶

2.33단계. DPO¶

2.3.1대조 손실 함수¶

2.3.2PPO 대비 공학적 가치¶

2.3.3DPO를 넘어선 페어리스 정렬¶

2.44단계. CoT¶

2.4.1규칙 기반 보상과 자아 성찰¶

2.4.2생각 템플릿 (<think>)¶

3사후 훈련의 정렬 전략 비교¶

4지식 증류 (Knowledge Distillation)¶

4.1소프트 레이블과 암흑 지식¶

4.2두 갈래: 화이트박스와 시퀀스 수준¶

4.3실습: 교사 응답으로 학생 증류하기¶

2.4.2생각 템플릿 (`<think>`)¶