RLHF & DPO & GRPO

FSA·2025년 2월 23일
0

Large Language model

목록 보기
14/14

0. 표로 비교

기법목적동작 방식장점단점
RLHF (Reinforcement Learning from Human Feedback)- 모델이 인간의 선호에 맞는 응답을 생성하도록 유도1. 사람의 선호 데이터를 기반으로 보상 모델(reward model)을 먼저 학습
2. 보상 모델의 피드백을 받아 PPO 등 강화학습 기법을 이용해 정책을 업데이트
3. 추가로 critic(가치 평가 네트워크)를 활용해 안정적인 업데이트를 도모
- 인간 피드백을 세밀하게 반영 가능
- 다양한 보상 신호를 이용하여 정밀하게 정책을 조정
- 보상 모델 및 critic 등 추가 네트워크가 필요해 학습 구조가 복잡
- 강화학습 특성상 학습이 불안정하고 계산 비용이 높음
DPO (Direct Preference Optimization)- 보상 모델 없이 직접적으로 인간 선호에 맞게 모델을 조정1. 동일 프롬프트에 대해 두 개의 응답(더 선호/덜 선호)을 생성
2. 분류 손실(binary cross-entropy loss)을 통해, 더 선호되는 응답의 로그 확률을 높이고 덜 선호되는 응답의 확률을 낮추어 모델 업데이트
- 복잡한 보상 모델, 강화학습 단계가 없어 구조가 단순
- 학습이 더 안정적이고 계산 비용이 낮음
- 극한 상황이나 다양한 환경에서의 일반화 성능에 대한 추가 검증 필요
- 직접 최적화 방식이 모든 태스크에 항상 최적일지는 추가 연구 필요
GRPO (Group Relative Policy Optimization)- 별도의 critic 없이, 여러 행동의 상대적 성능을 평가해 정책을 안정적으로 업데이트1. 한 상태에서 여러 행동(응답 후보)을 동시에 샘플링
2. 각 행동의 보상 값에서 그룹의 평균과 표준편차를 계산하여 상대적 z-score로 변환
3. 그룹 내 상대적 우수성을 기준으로 정책을 업데이트
- critic 없이 여러 행동을 한 번에 비교하므로 구조가 간단
- 노이즈 감소 및 샘플 효율성 향상
- 정책 업데이트의 안정성이 개선됨
- 한 상태에서 충분한 샘플(여러 행동)이 필요
- 그룹 구성 및 비교 방식에 따라 성능 변동 가능
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글

관련 채용 정보