Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

사전 훈련 (Pre-training)

현대 딥러닝 패러다임의 가장 큰 전환점은 모든 문제를 밑바닥부터 새로 학습시키던 방식에서 벗어나, "이미 거대한 데이터로부터 일반적인 규칙과 지식을 습득한 모델(Pre-trained Model)을 기반으로 문제를 해결하자"는 인프라적 혁신에서 시작되었습니다.

사전 훈련은 특정 분야(예: 언어학)에만 국한되는 개념이 아니라, 이미지, 음성, 바이오 데이터 등 인공지능 모든 영역을 아우르는 보편적인 토대입니다. 본 장에서는 딥러닝 생태계의 공통적 초석이 되는 사전 훈련(Pre-training)의 본질적 개념을 정의하고, 사전 훈련된 모델을 하류 작업(Downstream Task)에 응용하는 다양한 다운스트림 패러다임의 명확한 차이점을 분석합니다.

1사전 훈련(Pre-training)의 보편적 정의와 가치

1.1사전 훈련이란 무엇인가?

사전 훈련(Pre-training)은 특정 다운스트림 태스크를 해결하기 전에, 대규모 데이터셋(대개 라벨이 없는 대용량 원시 데이터)으로부터 데이터 내부에 숨겨진 일반적인 패턴, 구조, 특징 및 범용적 표상(Representation)을 모델 스스로 학습하게 만드는 자기지도학습(Self-Supervised Learning) 과정입니다.

이렇게 사전 훈련을 마친 가중치(Weights)를 가진 모델을 베이스 모델(Base Model) 또는 기반 모델(Foundation Model)이라고 부릅니다. 이 베이스 모델은 대상 도메인의 보편적인 물리 법칙이나 의미론적 규칙을 고도로 압축하여 학습하고 있습니다.

1.2인공지능 전 영역을 관통하는 공통 패러다임

사전 훈련 모델은 자연어 처리(NLP)뿐만 아니라 현대 인공지능의 모든 도메인에서 기본적인 출발점으로 기능합니다.

2사전 훈련 모델의 다운스트림 응용 패러다임

사전 훈련을 거치며 탄생한 범용적인 가중치는, 해결하고자 하는 하류 다운스트림(Downstream) 작업의 특성과 아키텍처에 따라 완전히 다른 방식으로 응용되고 제어됩니다. 특히, 전통적인 전이 학습(Transfer Learning) 기법과 현대 대형 생성형 언어 모델(Decoder-only LLM)의 응용 방식은 구조적·철학적 목적에서 뚜렷하게 구별됩니다.

사전 훈련 모델을 활용하는 네 가지 경로

사전 훈련 모델을 활용하는 네 가지 경로

2.1전통적인 전이 학습 (Transfer Learning)

2.2대형 생성형 언어 모델(LLM)의 독자적 응용 방식

현대 디코더 전용(Decoder-only) 대형 생성 언어 모델(GPT, Meta Llama 시리즈 등)은 전통적인 전이 학습 방식처럼 태스크 헤드를 갈아 끼우고 전용 분류 모델로 바꾸는 형식을 취하지 않습니다. LLM은 모델이 가진 **‘다음 토큰 예측(Next-Token Prediction)’**이라는 기본 Head와 일반 생성 지능을 원형 그대로 유지하면서, 다음과 같은 독창적인 응용 방식으로 작동합니다.

2.2.1① 지시어 및 선호도 정렬 (Instruction & Preference Alignment)

2.2.2② 인컨텍스트 학습 (In-Context Learning / Prompting)

2.2.3③ 추가 사전 학습 (Continual Pre-training / Continued Pre-training)

2.3다운스트림 패러다임 비교 요약

비교 항목전통적인 전이 학습 (Transfer Learning)LLM 지시어 정렬 (SFT / Alignment)LLM 인컨텍스트 학습 (In-Context Learning)
주요 적용 대상컴퓨터 비전(CNN, ViT), BERT 등GPT, Meta Llama 시리즈 등 생성 모델GPT, Meta Llama 시리즈 등 생성 모델
출력 계층(Head) 변화사전 훈련 Head 제거 \rightarrow Task Head 추가기존 Next-Token Head 그대로 유지기존 Next-Token Head 그대로 유지
가중치 업데이트 여부예 (전체 혹은 일부 가중치 미세조정)예 (SFT, LoRA 등으로 가중치 조정)아니오 (완전 동결, 가중치 업데이트 없음)
필요한 라벨 데이터대상 태스크 전용 레이블 데이터셋[지시어-응답] 형태의 고품질 데이터셋프롬프트 내 Few-shot 예시 텍스트
작동 및 응용 철학사전 지식을 특정 단일 임무로 전이범용 생성 능력을 유지하며 비서 양식 정렬사전 지식을 활용한 즉각적인 문맥 내 일반화

3언어 모델 사전 훈련의 동작 메커니즘: MLM vs CLM

언어 모델링(Language Modeling) 영역에서 사전 훈련은 텍스트의 앞뒤 혹은 이전 시퀀스를 파악하는 통계적 최적화 과정입니다. 트랜스포머 아키텍처에 기반한 사전 훈련은 크게 두 가지 목적 함수로 나뉩니다.

3.1마스크 언어 모델링 (Masked Language Modeling, MLM)

3.2인과적 언어 모델링 (Causal Language Modeling, CLM)

4데이터 규모와 규모의 법칙 (Scaling Laws)

사전 훈련 성능은 모델 파라미터 수(NN), 학습 데이터셋 크기(DD, 토큰 수), 총 연산량(CC, FLOPs) 을 늘릴 때 멱함수 법칙(Power Law)을 따라 매끄럽게 향상됩니다. 이 규칙성을 규모의 법칙(Scaling Laws)이라고 하며, 거대 모델에 막대한 자원을 투입하는 근거가 됩니다. 거듭제곱의 모양을 실제 모델로 확인하고, 무엇을 얼마나 키워야 하는지(Kaplan·Chinchilla)는 규모의 법칙 장에서 자세히 다룹니다.

5사전 훈련 데이터셋 구성 및 인프라

사전 훈련의 목적인 '범용 일반화 지능’을 구현하기 위해서는 데이터와 컴퓨팅 파워 모두 전례 없는 규모의 엔지니어링이 요구됩니다.

6CpT (Continued Pre-training, 사전 추가 학습) 엔지니어링

사전 훈련이 완료된 완성형 베이스 모델(Base Model)은 방대한 일반 지식을 가지고 있지만, 법률, 의학, 금융 등 고도의 전문성이 요구되는 수직적 도메인(Vertical Domain)이나 특정 국가의 고유한 언어(예: 정교한 한국어 상식 및 어조)에 대해서는 사전 학습 데이터의 불균형으로 인해 깊이 있는 추론에 한계를 보입니다.

CpT(Continued Pre-training, 사전 추가 학습)는 이미 구축된 베이스 모델의 방대한 범용 지능 유산을 그대로 계승하면서, 특정 표적 도메인의 대규모 원시 코퍼스(Raw Corpus)를 추가로 주입하여 인과적 언어 모델링(CLM) 목적 함수에 따라 사전 학습 과정을 한 단계 더 연장(Continue)시키는 기법입니다.

6.1CpT 파이프라인과 토크나이저 확장

도메인 지식을 심을 때 단순히 텍스트만 더 훈련시키는 것은 성능을 100% 발휘하지 못합니다. 해당 도메인에 자주 등장하는 고유한 특수 토큰이나 어휘(Vocabulary)가 기존 토크나이저 사전에 존재하지 않는 OOV(Out-Of-Vocabulary) 파편으로 쪼개져 들어가기 때문입니다.

도메인 적응을 위한 추가 사전 학습(CPT) 파이프라인

도메인 적응을 위한 추가 사전 학습(CPT) 파이프라인

  1. 토크나이저 사전 확장: 도메인 특화 코퍼스에서 고유 단어들을 SentencePiece 등으로 추가 추출하여 기존 토크나이저 사전에 이식합니다.

  2. 임베딩 레이어 리사이징: 신규 토큰이 추가됨에 따라, 모델의 가중치 임베딩 레이어와 최종 출력 헤드 레이어의 차원을 확장해 주어야 합니다. Hugging Face transformers 라이브러리 환경에서는 다음과 같이 한 줄로 이 연동을 안전하게 수행합니다:

    # 토크나이저에 새로운 어휘 추가 후 모델 임베딩 크기 확장
    model.resize_token_embeddings(len(tokenizer))
  3. CLM 추가 학습: 가중치 리사이징 완료 후, 도메인 코퍼스를 활용해 다음 토큰 예측(CLM) 학습률(Learning Rate)을 사전 학습 시보다는 낮춘 수준(10510610^{-5} \sim 10^{-6})으로 설정하여 베이스 가중치를 점진적으로 추가 사전 훈련시킵니다.

CpT를 성공적으로 마친 모델은 특정 도메인의 전문 어휘 조합과 고차원 문맥 관계를 매우 능숙하게 예측해 낼 수 있게 되며, 이후 단계인 지도 학습 미세조정(SFT) 시 훨씬 더 적은 양의 데이터셋만으로도 독보적인 특화 성능을 발현하는 동력이 됩니다.

사전 훈련을 거치며 일반 세계 지식과 텍스트 법칙을 고도로 압축해 낸 베이스 모델은 비로소 인류의 가장 강력한 기초 지능 도구가 됩니다. 다음 장에서는 대표적인 인코더형 사전 학습 아키텍처인 BERT와 단방향 생성형 GPT의 구체적인 가중치 구조를 해부하며 실습을 시작하겠습니다.