기법 | 목적 | 동작 방식 | 장점 | 단점 |
---|---|---|---|---|
RLHF (Reinforcement Learning from Human Feedback) | - 모델이 인간의 선호에 맞는 응답을 생성하도록 유도 | 1. 사람의 선호 데이터를 기반으로 보상 모델(reward model)을 먼저 학습 2. 보상 모델의 피드백을 받아 PPO 등 강화학습 기법을 이용해 정책을 업데이트 3. 추가로 critic(가치 평가 네트워크)를 활용해 안정적인 업데이트를 도모 | - 인간 피드백을 세밀하게 반영 가능 - 다양한 보상 신호를 이용하여 정밀하게 정책을 조정 | - 보상 모델 및 critic 등 추가 네트워크가 필요해 학습 구조가 복잡 - 강화학습 특성상 학습이 불안정하고 계산 비용이 높음 |
DPO (Direct Preference Optimization) | - 보상 모델 없이 직접적으로 인간 선호에 맞게 모델을 조정 | 1. 동일 프롬프트에 대해 두 개의 응답(더 선호/덜 선호)을 생성 2. 분류 손실(binary cross-entropy loss)을 통해, 더 선호되는 응답의 로그 확률을 높이고 덜 선호되는 응답의 확률을 낮추어 모델 업데이트 | - 복잡한 보상 모델, 강화학습 단계가 없어 구조가 단순 - 학습이 더 안정적이고 계산 비용이 낮음 | - 극한 상황이나 다양한 환경에서의 일반화 성능에 대한 추가 검증 필요 - 직접 최적화 방식이 모든 태스크에 항상 최적일지는 추가 연구 필요 |
GRPO (Group Relative Policy Optimization) | - 별도의 critic 없이, 여러 행동의 상대적 성능을 평가해 정책을 안정적으로 업데이트 | 1. 한 상태에서 여러 행동(응답 후보)을 동시에 샘플링 2. 각 행동의 보상 값에서 그룹의 평균과 표준편차를 계산하여 상대적 z-score로 변환 3. 그룹 내 상대적 우수성을 기준으로 정책을 업데이트 | - critic 없이 여러 행동을 한 번에 비교하므로 구조가 간단 - 노이즈 감소 및 샘플 효율성 향상 - 정책 업데이트의 안정성이 개선됨 | - 한 상태에서 충분한 샘플(여러 행동)이 필요 - 그룹 구성 및 비교 방식에 따라 성능 변동 가능 |