1. RLHF (Reinforcement Learning from Human Feedback)
인간의 피드백을 활용하여 AI 모델을 개선하는 강화 학습 기법으로 GPT-4 같은 최신 대형 언어 모델(LLM)도 RLHF를 통해 더 자연스럽고, 신뢰할 수 있으며, 윤리적인 답변을 생성하도록 훈련되었다. 기본적인 지도 학습(Supervised Learning)만으로 해결할 수 없는 문제를 보완하는 중요한 학습 방법!
1-1. RLHF 학습 과정
(1) 지도 학습 (Supervised Fine-Tuning, SFT)
- 기본적으로 지도 학습(Supervised Learning)을 적용하여 초기 모델을 훈련
- 질문-답변 데이터를 기반으로 LLM을 훈련하여 기본적인 성능을 확보
- 예: GPT-3 → GPT-3.5로 업그레이드하는 과정
(2) 인간 피드백 데이터 수집 (Reward Model, RM 학습)
- 모델이 생성한 여러 개의 응답을 인간 평가자가 직접 비교하고 순위를 매김
- 평가된 데이터를 기반으로 보상 모델(Reward Model, RM)을 학습
- 이후 AI가 새로운 응답을 생성할 때 보상 모델을 참고하여 더 좋은 답변을 선택하도록 유도
(3) 강화 학습 (Reinforcement Learning with PPO)
- 보상 모델을 바탕으로 LLM을 강화 학습(RL) 방식으로 업데이트
- PPO(Proximal Policy Optimization) 알고리즘을 사용하여 모델을 안정적으로 학습
- 새로운 응답을 생성할 때 보상 모델에서 높은 점수를 받는 응답을 선택하도록 조정
1-2. RLHF의 장점
- 자연스러운 대화 가능: AI가 인간처럼 유연하게 대화하도록 학습됨
- 비윤리적/편향된 답변 방지: 인간 피드백을 통해 잘못된 정보를 줄일 수 있음
- 더 나은 논리적 사고 가능: 보상 모델을 활용하여 정확한 답변을 유도
- 사용자의 선호도 반영 가능: 사용자 맞춤형 응답을 생성하도록 조정 가능
1-3. RLHF의 한계점
- 인간 평가자의 편향(Bias): 평가자의 주관적인 판단이 학습 데이터에 영향을 줄 수 있음
- 데이터 수집 비용: 인간 피드백을 수집하는 과정이 비용이 많이 들고 시간이 걸림
- 훈련 과정이 복잡함: RLHF는 지도 학습보다 학습 과정이 복잡하고 연산량이 많음
- 보상 모델의 한계: 보상 모델이 항상 올바른 답변을 평가하는 것은 아님
2. DPO (Direct Preference Optimization)
RLHF의 한계를 해결하기 위해 등장한 방법으로, 보상 모델 없이 선호 데이터를 직접 최적화하는 기법이다. RLHF보다 더 간단하고 효율적으로 모델을 미세 조정할 수 있다.
2-1. DPO 학습 과정
(1) 데이터 수집 (Human Preference Data)
- 사용자가 선호하는 답변(A)과 선호하지 않는 답변(B)을 포함한 데이터셋을 구축
- 인간 평가자가 응답 A를 더 좋은 답변으로 선택 → 이 데이터를 학습에 활용
(2) 선호도 기반 손실 함수 적용 (Preference Optimization)
- 기존 RLHF는 보상 모델을 사용하여 선호도를 예측하지만, DPO는 직접 손실 함수를 사용하여 선호도를 최적화함
- 모델이 더 나은 응답을 할 수 있게 업데이트 되도록, 좋은 응답(A)이 선택될 확률을 높이고, 나쁜 응답(B)의 확률을 낮추도록 학습
(3) 직접적인 모델 업데이트
- DPO는 PPO 없이 모델을 업데이트할 수 있기 때문에 학습 과정이 훨씬 간단하고 빠름
- PPO를 제거했기 때문에, 튜닝 과정에서 불안정성이 줄어들고 더 효과적인 학습이 가능
2-2. DPO의 장점
- 보상 모델 없이 학습 가능: RLHF는 보상 모델을 따로 학습해야 하지만, DPO는 필요 없음
- 강화 학습 없이도 RLHF 성능에 근접: PPO 없이도 인간 선호도를 효과적으로 반영 가능
- 학습이 더 빠르고 안정적: RLHF는 PPO 학습 과정에서 불안정성이 있지만, DPO는 더 단순한 구조로 안정적
- 메모리와 계산량 절약 가능: 보상 모델이 없기 때문에 GPU 메모리 사용량이 적음
- LLM 파인튜닝에 최적화됨: GPT, LLaMA, Mistral 등 다양한 모델에서 효과적
2-3. DPO의 한계점
- 완전히 새로운 태스크 학습은 어려움: RLHF처럼 강화 학습 기반으로 모델을 탐색적으로 개선하는 것이 어려움
- 보상 모델이 없어서 RLHF만큼 정교한 학습이 어려울 수 있음: 보상 모델 없이 학습하므로, RLHF만큼의 성능 향상은 보장되지 않음
- 데이터 품질이 매우 중요함: 인간 선호도 데이터가 충분하지 않으면 모델 성능이 저하될 수 있음
3. RLHF vs DPO
두 방법 모두 인간 피드백을 활용하여 AI 모델을 개선하지만, 학습 방식이 다름
| 비교 항목 | RLHF (Reinforcement Learning from Human Feedback) | DPO (Direct Preference Optimization) |
|---|
| 학습 방식 | 보상 모델을 학습한 후, PPO를 사용하여 모델을 강화 학습 | 직접 손실 함수를 적용하여 선호도를 최적화 |
| 보상 모델 필요 여부 | ✅ 필요 (Reward Model) | ❌ 불필요 |
| PPO 사용 여부 | ✅ 사용 | ❌ 사용 안 함 |
| 학습 안정성 | PPO로 인해 불안정할 수 있음 | 더 안정적인 학습 가능 |
| 학습 속도 | 상대적으로 느림 | 빠름 |
| 계산 비용 | GPU 메모리 많이 필요 | 보상 모델이 없어서 더 적은 리소스로 가능 |
| 복잡한 태스크 학습 가능 여부 | ✅ 가능 (보상 모델을 조정하면 새로운 태스크 학습 가능) | ❌ 불가능 (기존 모델에서 선호도만 조정) |
| 적용 사례 | GPT-4, Claude, Gemini 같은 최신 LLM 개선 | 경량 모델 튜닝, 빠른 모델 최적화 |