LLM: RLHF & DPO

Ohback·2025년 3월 20일

SK 네트웍스 Family AI camp

목록 보기

51/73

1. RLHF (Reinforcement Learning from Human Feedback)

인간의 피드백을 활용하여 AI 모델을 개선하는 강화 학습 기법으로 GPT-4 같은 최신 대형 언어 모델(LLM)도 RLHF를 통해 더 자연스럽고, 신뢰할 수 있으며, 윤리적인 답변을 생성하도록 훈련되었다. 기본적인 지도 학습(Supervised Learning)만으로 해결할 수 없는 문제를 보완하는 중요한 학습 방법!

1-1. RLHF 학습 과정

(1) 지도 학습 (Supervised Fine-Tuning, SFT)

기본적으로 지도 학습(Supervised Learning)을 적용하여 초기 모델을 훈련
질문-답변 데이터를 기반으로 LLM을 훈련하여 기본적인 성능을 확보
예: GPT-3 → GPT-3.5로 업그레이드하는 과정

(2) 인간 피드백 데이터 수집 (Reward Model, RM 학습)

모델이 생성한 여러 개의 응답을 인간 평가자가 직접 비교하고 순위를 매김
평가된 데이터를 기반으로 보상 모델(Reward Model, RM)을 학습
이후 AI가 새로운 응답을 생성할 때 보상 모델을 참고하여 더 좋은 답변을 선택하도록 유도

(3) 강화 학습 (Reinforcement Learning with PPO)

보상 모델을 바탕으로 LLM을 강화 학습(RL) 방식으로 업데이트
PPO(Proximal Policy Optimization) 알고리즘을 사용하여 모델을 안정적으로 학습
새로운 응답을 생성할 때 보상 모델에서 높은 점수를 받는 응답을 선택하도록 조정

1-2. RLHF의 장점

자연스러운 대화 가능: AI가 인간처럼 유연하게 대화하도록 학습됨
비윤리적/편향된 답변 방지: 인간 피드백을 통해 잘못된 정보를 줄일 수 있음
더 나은 논리적 사고 가능: 보상 모델을 활용하여 정확한 답변을 유도
사용자의 선호도 반영 가능: 사용자 맞춤형 응답을 생성하도록 조정 가능

1-3. RLHF의 한계점

인간 평가자의 편향(Bias): 평가자의 주관적인 판단이 학습 데이터에 영향을 줄 수 있음
데이터 수집 비용: 인간 피드백을 수집하는 과정이 비용이 많이 들고 시간이 걸림
훈련 과정이 복잡함: RLHF는 지도 학습보다 학습 과정이 복잡하고 연산량이 많음
보상 모델의 한계: 보상 모델이 항상 올바른 답변을 평가하는 것은 아님

2. DPO (Direct Preference Optimization)

RLHF의 한계를 해결하기 위해 등장한 방법으로, 보상 모델 없이 선호 데이터를 직접 최적화하는 기법이다. RLHF보다 더 간단하고 효율적으로 모델을 미세 조정할 수 있다.

2-1. DPO 학습 과정

(1) 데이터 수집 (Human Preference Data)

사용자가 선호하는 답변(A)과 선호하지 않는 답변(B)을 포함한 데이터셋을 구축
인간 평가자가 응답 A를 더 좋은 답변으로 선택 → 이 데이터를 학습에 활용

(2) 선호도 기반 손실 함수 적용 (Preference Optimization)

기존 RLHF는 보상 모델을 사용하여 선호도를 예측하지만, DPO는 직접 손실 함수를 사용하여 선호도를 최적화함
모델이 더 나은 응답을 할 수 있게 업데이트 되도록, 좋은 응답(A)이 선택될 확률을 높이고, 나쁜 응답(B)의 확률을 낮추도록 학습

(3) 직접적인 모델 업데이트

DPO는 PPO 없이 모델을 업데이트할 수 있기 때문에 학습 과정이 훨씬 간단하고 빠름
PPO를 제거했기 때문에, 튜닝 과정에서 불안정성이 줄어들고 더 효과적인 학습이 가능

2-2. DPO의 장점

보상 모델 없이 학습 가능: RLHF는 보상 모델을 따로 학습해야 하지만, DPO는 필요 없음
강화 학습 없이도 RLHF 성능에 근접: PPO 없이도 인간 선호도를 효과적으로 반영 가능
학습이 더 빠르고 안정적: RLHF는 PPO 학습 과정에서 불안정성이 있지만, DPO는 더 단순한 구조로 안정적
메모리와 계산량 절약 가능: 보상 모델이 없기 때문에 GPU 메모리 사용량이 적음
LLM 파인튜닝에 최적화됨: GPT, LLaMA, Mistral 등 다양한 모델에서 효과적

2-3. DPO의 한계점

완전히 새로운 태스크 학습은 어려움: RLHF처럼 강화 학습 기반으로 모델을 탐색적으로 개선하는 것이 어려움
보상 모델이 없어서 RLHF만큼 정교한 학습이 어려울 수 있음: 보상 모델 없이 학습하므로, RLHF만큼의 성능 향상은 보장되지 않음
데이터 품질이 매우 중요함: 인간 선호도 데이터가 충분하지 않으면 모델 성능이 저하될 수 있음

3. RLHF vs DPO

두 방법 모두 인간 피드백을 활용하여 AI 모델을 개선하지만, 학습 방식이 다름

비교 항목	RLHF (Reinforcement Learning from Human Feedback)	DPO (Direct Preference Optimization)
학습 방식	보상 모델을 학습한 후, PPO를 사용하여 모델을 강화 학습	직접 손실 함수를 적용하여 선호도를 최적화
보상 모델 필요 여부	✅ 필요 (Reward Model)	❌ 불필요
PPO 사용 여부	✅ 사용	❌ 사용 안 함
학습 안정성	PPO로 인해 불안정할 수 있음	더 안정적인 학습 가능
학습 속도	상대적으로 느림	빠름
계산 비용	GPU 메모리 많이 필요	보상 모델이 없어서 더 적은 리소스로 가능
복잡한 태스크 학습 가능 여부	✅ 가능 (보상 모델을 조정하면 새로운 태스크 학습 가능)	❌ 불가능 (기존 모델에서 선호도만 조정)
적용 사례	GPT-4, Claude, Gemini 같은 최신 LLM 개선	경량 모델 튜닝, 빠른 모델 최적화