사전 훈련 (Pre-training) - 딥러닝 언어 모델

현대 딥러닝 패러다임의 가장 큰 전환점은 모든 문제를 밑바닥부터 새로 학습시키던 방식에서 벗어나, "이미 거대한 데이터로부터 일반적인 규칙과 지식을 습득한 모델(Pre-trained Model)을 기반으로 문제를 해결하자"는 인프라적 혁신에서 시작되었습니다.

사전 훈련은 특정 분야(예: 언어학)에만 국한되는 개념이 아니라, 이미지, 음성, 바이오 데이터 등 인공지능 모든 영역을 아우르는 보편적인 토대입니다. 본 장에서는 딥러닝 생태계의 공통적 초석이 되는 사전 훈련(Pre-training)의 본질적 개념을 정의하고, 사전 훈련된 모델을 하류 작업(Downstream Task)에 응용하는 다양한 다운스트림 패러다임의 명확한 차이점을 분석합니다.

1사전 훈련(Pre-training)의 보편적 정의와 가치¶

1.1사전 훈련이란 무엇인가?¶

사전 훈련(Pre-training)은 특정 다운스트림 태스크를 해결하기 전에, 대규모 데이터셋(대개 라벨이 없는 대용량 원시 데이터)으로부터 데이터 내부에 숨겨진 일반적인 패턴, 구조, 특징 및 범용적 표상(Representation)을 모델 스스로 학습하게 만드는 자기지도학습(Self-Supervised Learning) 과정입니다.

이렇게 사전 훈련을 마친 가중치(Weights)를 가진 모델을 베이스 모델(Base Model) 또는 기반 모델(Foundation Model)이라고 부릅니다. 이 베이스 모델은 대상 도메인의 보편적인 물리 법칙이나 의미론적 규칙을 고도로 압축하여 학습하고 있습니다.

1.2인공지능 전 영역을 관통하는 공통 패러다임¶

사전 훈련 모델은 자연어 처리(NLP)뿐만 아니라 현대 인공지능의 모든 도메인에서 기본적인 출발점으로 기능합니다.

컴퓨터 비전 (Computer Vision): ImageNet과 같은 수천만 장의 일반 이미지 데이터셋으로 CNN(ResNet 등)이나 ViT(Vision Transformer)를 사전 학습시킵니다. 이 과정에서 모델은 픽셀 레벨의 미세한 윤곽선(Edge), 면(Texture), 그리고 사물의 기하학적 형태와 구조적 특징 추출 능력을 학습합니다.
오디오 및 음성 (Audio & Speech): 수십만 시간의 다양한 다국어 음성 코퍼스로 Whisper 등의 모델을 사전 학습시킵니다. 모델은 오디오 신호의 주파수 특성(Spectrogram)과 음성 토큰 간의 음소-텍스트 정렬 규칙, 소리의 시계열 패턴을 내재화합니다.
생명정보학 및 화학 (Biology & Chemistry): 수억 개의 단백질 아미노산 서열(ESM 모델) 및 3차원 분자 구조 데이터를 사전 학습(AlphaFold 등)시킵니다. 모델은 단백질 서열 내 아미노산 간의 상호작용 물리 법칙 및 3D 입체 구조 접힘(Folding) 패턴의 일반 규칙을 스스로 파악합니다.
자연어 처리 (Natural Language Processing): 인터넷 상의 대규모 텍스트 코퍼스를 학습하여 단어와 문맥의 의미론적 관계, 문법 구조, 그리고 세상의 일반 상식(World Knowledge)을 텍스트 분포 형태로 학습합니다.

2사전 훈련 모델의 다운스트림 응용 패러다임¶

사전 훈련을 거치며 탄생한 범용적인 가중치는, 해결하고자 하는 하류 다운스트림(Downstream) 작업의 특성과 아키텍처에 따라 완전히 다른 방식으로 응용되고 제어됩니다. 특히, 전통적인 전이 학습(Transfer Learning) 기법과 현대 대형 생성형 언어 모델(Decoder-only LLM)의 응용 방식은 구조적·철학적 목적에서 뚜렷하게 구별됩니다.

2.1전통적인 전이 학습 (Transfer Learning)¶

개념: 사전 훈련된 모델이 습득한 표상(Representation) 능력을 다른 새로운 목표 태스크(Target Task)로 전이(Transfer)시켜 활용하는 기법입니다.
주요 대상: 컴퓨터 비전(CNN, ViT), 인코더 전용 자연어 처리(BERT 계열 등 분류 태스크).
동작 메커니즘:
- 사전 훈련에 사용되었던 최상위 분류기나 목적 함수용 출력 계층(Pre-training Head)을 완전히 제거합니다.
- 내가 풀고자 하는 특정 목표 태스크 전용 태스크 헤드(Task-specific Head)(예: 새로운 이진 분류용 Linear Layer)를 모델 상단에 결합합니다.
- 수집한 라벨링 데이터를 활용해 결합된 전체 모델(또는 일부 계층을 동결한 채)의 가중치를 미세하게 재조정(Fine-tuning)합니다.
특징: 기존 사전 훈련 태스크와 다운스트림 태스크의 구조가 물리적으로 달라지며, 특정 도메인 태스크 전용 모델로 완전히 고착화됩니다.

2.2대형 생성형 언어 모델(LLM)의 독자적 응용 방식¶

현대 디코더 전용(Decoder-only) 대형 생성 언어 모델(GPT, Meta Llama 시리즈 등)은 전통적인 전이 학습 방식처럼 태스크 헤드를 갈아 끼우고 전용 분류 모델로 바꾸는 형식을 취하지 않습니다. LLM은 모델이 가진 **‘다음 토큰 예측(Next-Token Prediction)’**이라는 기본 Head와 일반 생성 지능을 원형 그대로 유지하면서, 다음과 같은 독창적인 응용 방식으로 작동합니다.

2.2.1① 지시어 및 선호도 정렬 (Instruction & Preference Alignment)¶

개념: 모델이 가진 범용 언어 생성 능력과 사전 지식을 그대로 둔 상태에서, 사용자의 다양한 '명령어(Instruction)'를 올바르게 이행하고 대화 템플릿 규격에 맞게 상호작용하도록 유도하는 사후 학습 과정입니다.
동작 메커니즘: 태스크 헤드를 교체하지 않고 동일한 자동회귀(Autoregressive) 생성 목적 함수를 유지하면서, [지시어 - 질문 - 응답]으로 구성된 대화형 데이터셋으로 지도 학습 미세조정(SFT)을 수행하고, 이어서 인간 피드백 기반 강화학습(RLHF, DPO)을 진행합니다.
특징: 특정 단일 태스크로 모델을 한정(Transfer)하는 것이 아니라, 범용적인 지능 체력은 유지하되 인간의 지시와 사회적 선호에 부합하도록 행동 모델과 답변 태도를 정렬(Align)하는 패러다임입니다.

2.2.2② 인컨텍스트 학습 (In-Context Learning / Prompting)¶

개념: 모델의 가중치(Weights)를 단 1Byte도 변경하지 않고, 추론 시점(Inference)의 입력 프롬프트 구성을 통해 즉석에서 새로운 작업을 수행하도록 유도하는 기법입니다.
동작 메커니즘: 프롬프트 안에 몇 가지 예시(Few-shot)나 규칙(Zero-shot)을 텍스트 맥락(Context)으로 주입하면, 모델은 사전 학습에서 획득한 고차원의 일반화 능력을 바탕으로 문맥을 파악해 정답을 즉시 생성해냅니다.
특징: 역전파(Backpropagation)와 가중치 업데이트가 전혀 없는 극단적인 추론 시점의 일반 지능 제어 방식입니다.

2.2.3③ 추가 사전 학습 (Continual Pre-training / Continued Pre-training)¶

개념: 기존 사전 훈련된 모델의 지식 범위를 새로운 도메인(예: 법률, 의료, 특정 국가 언어)으로 넓히기 위해 사전 학습 목적 함수 그대로 대규모 말뭉치를 연속 학습시키는 기법입니다.
동작 메커니즘: 동일한 인과적 언어 모델링(CLM) 목적 함수를 유지한 채, 추가 도메인 텍스트 데이터를 대량으로 주입하여 사전 학습을 계속 진행합니다.
특징: 모델의 범용 표상 능력과 지식 밀도를 유지하면서 도메인 적응력을 고루 확보하는 중간 단계의 패러다임입니다.

2.3다운스트림 패러다임 비교 요약¶

비교 항목	전통적인 전이 학습 (Transfer Learning)	LLM 지시어 정렬 (SFT / Alignment)	LLM 인컨텍스트 학습 (In-Context Learning)
주요 적용 대상	컴퓨터 비전(CNN, ViT), BERT 등	GPT, Meta Llama 시리즈 등 생성 모델	GPT, Meta Llama 시리즈 등 생성 모델
출력 계층(Head) 변화	사전 훈련 Head 제거 $\rightarrow$ Task Head 추가	기존 Next-Token Head 그대로 유지	기존 Next-Token Head 그대로 유지
가중치 업데이트 여부	예 (전체 혹은 일부 가중치 미세조정)	예 (SFT, LoRA 등으로 가중치 조정)	아니오 (완전 동결, 가중치 업데이트 없음)
필요한 라벨 데이터	대상 태스크 전용 레이블 데이터셋	`[지시어-응답]` 형태의 고품질 데이터셋	프롬프트 내 Few-shot 예시 텍스트
작동 및 응용 철학	사전 지식을 특정 단일 임무로 전이	범용 생성 능력을 유지하며 비서 양식 정렬	사전 지식을 활용한 즉각적인 문맥 내 일반화

3언어 모델 사전 훈련의 동작 메커니즘: MLM vs CLM¶

언어 모델링(Language Modeling) 영역에서 사전 훈련은 텍스트의 앞뒤 혹은 이전 시퀀스를 파악하는 통계적 최적화 과정입니다. 트랜스포머 아키텍처에 기반한 사전 훈련은 크게 두 가지 목적 함수로 나뉩니다.

3.1마스크 언어 모델링 (Masked Language Modeling, MLM)¶

대표 아키텍처: 인코더 전용 (Encoder-only, 예: BERT)
개념: 입력 문장 중 무작위로 마스킹된 일부 토큰(일반적으로 15%)을 주변의 양방향(Bi-directional) 문맥을 모두 활용하여 원래 단어로 예측 복원합니다.
주요 타겟: 의미 추출, 문맥 파악, 개체명 인식(NER) 및 고품질 전이학습용 임베딩 획득.

3.2인과적 언어 모델링 (Causal Language Modeling, CLM)¶

대표 아키텍처: 디코더 전용 (Decoder-only, 예: GPT, Llama 시리즈)
개념: 텍스트 시퀀스 내에서 현재 토큰 이전의 단방향(Left-to-Right) 문맥만을 활용하여, 다음에 올 가장 적절한 토큰(Next Token)을 자동회귀(Autoregressive) 방식으로 예측합니다.
주요 타겟: 문장 생성, 대화 정렬 및 범용 인컨텍스트 해결 지능 획득.

4데이터 규모와 규모의 법칙 (Scaling Laws)¶

사전 훈련 성능은 모델 파라미터 수( $N$ ), 학습 데이터셋 크기( $D$ , 토큰 수), 총 연산량( $C$ , FLOPs) 을 늘릴 때 멱함수 법칙(Power Law)을 따라 매끄럽게 향상됩니다. 이 규칙성을 규모의 법칙(Scaling Laws)이라고 하며, 거대 모델에 막대한 자원을 투입하는 근거가 됩니다. 거듭제곱의 모양을 실제 모델로 확인하고, 무엇을 얼마나 키워야 하는지(Kaplan·Chinchilla)는 규모의 법칙 장에서 자세히 다룹니다.

5사전 훈련 데이터셋 구성 및 인프라¶

사전 훈련의 목적인 '범용 일반화 지능’을 구현하기 위해서는 데이터와 컴퓨팅 파워 모두 전례 없는 규모의 엔지니어링이 요구됩니다.

웹 코퍼스(Web Corpus) 정제: 인터넷의 수십억 페이지 아카이브(Common Crawl 등)로부터 HTML 태그 제거, 중복 제거(Deduplication), 저품질/유해 정보 제거(Heuristic Filtering) 과정을 거쳐 고품질 텍스트만을 엄선합니다.
대규모 분산 학습 분할: 단일 GPU 메모리 한계를 극복하기 위해 아래와 같은 3차원 병렬화 기법이 결합 가동됩니다.
- 데이터 병렬화 (DP): 데이터를 다수의 GPU에 나누어 학습.
- 텐서 병렬화 (TP): 단일 선형 연산 행렬을 쪼개어 다수 GPU가 동시에 부분 병렬 연산 수행.
- 파이프라인 병렬화 (PP): 모델의 여러 레이어 블록을 분할하여 병렬 전파 가동.

6CpT (Continued Pre-training, 사전 추가 학습) 엔지니어링¶

사전 훈련이 완료된 완성형 베이스 모델(Base Model)은 방대한 일반 지식을 가지고 있지만, 법률, 의학, 금융 등 고도의 전문성이 요구되는 수직적 도메인(Vertical Domain)이나 특정 국가의 고유한 언어(예: 정교한 한국어 상식 및 어조)에 대해서는 사전 학습 데이터의 불균형으로 인해 깊이 있는 추론에 한계를 보입니다.

CpT(Continued Pre-training, 사전 추가 학습)는 이미 구축된 베이스 모델의 방대한 범용 지능 유산을 그대로 계승하면서, 특정 표적 도메인의 대규모 원시 코퍼스(Raw Corpus)를 추가로 주입하여 인과적 언어 모델링(CLM) 목적 함수에 따라 사전 학습 과정을 한 단계 더 연장(Continue)시키는 기법입니다.

6.1CpT 파이프라인과 토크나이저 확장¶

도메인 지식을 심을 때 단순히 텍스트만 더 훈련시키는 것은 성능을 100% 발휘하지 못합니다. 해당 도메인에 자주 등장하는 고유한 특수 토큰이나 어휘(Vocabulary)가 기존 토크나이저 사전에 존재하지 않는 OOV(Out-Of-Vocabulary) 파편으로 쪼개져 들어가기 때문입니다.

토크나이저 사전 확장: 도메인 특화 코퍼스에서 고유 단어들을 SentencePiece 등으로 추가 추출하여 기존 토크나이저 사전에 이식합니다.
임베딩 레이어 리사이징: 신규 토큰이 추가됨에 따라, 모델의 가중치 임베딩 레이어와 최종 출력 헤드 레이어의 차원을 확장해 주어야 합니다. Hugging Face transformers 라이브러리 환경에서는 다음과 같이 한 줄로 이 연동을 안전하게 수행합니다:
```
# 토크나이저에 새로운 어휘 추가 후 모델 임베딩 크기 확장
model.resize_token_embeddings(len(tokenizer))
```
CLM 추가 학습: 가중치 리사이징 완료 후, 도메인 코퍼스를 활용해 다음 토큰 예측(CLM) 학습률(Learning Rate)을 사전 학습 시보다는 낮춘 수준( $10^{-5} \sim 10^{-6}$ )으로 설정하여 베이스 가중치를 점진적으로 추가 사전 훈련시킵니다.

CpT를 성공적으로 마친 모델은 특정 도메인의 전문 어휘 조합과 고차원 문맥 관계를 매우 능숙하게 예측해 낼 수 있게 되며, 이후 단계인 지도 학습 미세조정(SFT) 시 훨씬 더 적은 양의 데이터셋만으로도 독보적인 특화 성능을 발현하는 동력이 됩니다.

사전 훈련을 거치며 일반 세계 지식과 텍스트 법칙을 고도로 압축해 낸 베이스 모델은 비로소 인류의 가장 강력한 기초 지능 도구가 됩니다. 다음 장에서는 대표적인 인코더형 사전 학습 아키텍처인 BERT와 단방향 생성형 GPT의 구체적인 가중치 구조를 해부하며 실습을 시작하겠습니다.