Post-training은 기본(pretrained) LLM을 특정 목적이나 도메인에 맞게 추가로 조정(fine-tune 또는 align)하는 과정을 말합니다.
즉, 이미 대규모 데이터로 사전학습된 모델에 후처리 학습을 가하는 단계입니다.
Fine-tuning (파인튜닝)
Instruction tuning (지시문 학습)
RLHF (Reinforcement Learning with Human Feedback)
┌─────────────────────────────┐
│ 🌐 Pretrained LLM │
│ (GPT, LLaMA, Falcon 등) │
└────────────┬────────────────┘
│
▼
┌──────────────────────┐
│ LLM Post-training │
│----------------------│
│ 🛠️ Fine-tuning │← 도메인 특화 학습
│ 💬 Instruction Tuning │← 명령어 형식 이해
│ 👍 RLHF │← 사용자 피드백 반영
└──────────────────────┘
│
▼
┌─────────────────────────────┐
│ 🎯 목적에 맞게 조정된 LLM │
│ (도메인 특화/지시문 대응 등) │
└────────────┬────────────────┘
│
┌─────▼──────┐
│ Inference │ ← 추론 (서빙)
└────────────┘
│
⚡ 빠르고 효율적인 실행
▼
┌─────────────────┐
│ DeepSpeed │
│-----------------│
│ 🚀 학습 가속화 │
│ 🧠 메모리 절약 │
│ 🔀 모델 분산화 │
└─────────────────┘
구분 | 설명 |
---|---|
LLM Post-training | 이미 학습된 모델을 다시 훈련시켜 성능 개선 |
DeepSpeed | 훈련이나 추론 시 속도와 메모리 최적화 제공 |