사람처럼 대답하는 AI의 비밀: RLHF란 무엇인가?

Bean·2025년 7월 7일
0

인공지능

목록 보기
79/123

개요

ChatGPT나 GPT-4는 단순히 문장을 생성하는 것을 넘어서, 사람의 의도를 파악하고 그에 맞게 대답합니다.
그렇다면 질문은 하나입니다:

“기계가 어떻게 사람의 ‘의도’를 이해하게 되었을까?”

그 핵심 기술이 바로 RLHF(Reinforcement Learning from Human Feedback)입니다.
이 글에서는 RLHF의 개념, 훈련 과정, 그리고 왜 중요한지까지 GPT 중심 시각에서 쉽고 자세하게 풀어봅니다.


RLHF란?

Reinforcement Learning from Human Feedback
사람의 피드백을 바탕으로 모델을 강화학습시키는 기법

즉, 사람의 선호(preference)를 반영하여 모델이
❌ “말은 맞지만 별로인 답”이 아니라
✅ “사람이 좋아하는 답변”을 내놓도록 학습시키는 방법입니다.


RLHF는 어떻게 이루어질까?

RLHF는 보통 세 단계로 구성됩니다:


1단계: Supervised Fine-tuning (SFT)

“좋은 예시로 기초를 다지는 과정”

  • 사람 작성 지시문(prompt) + 모범 답변(response) 쌍 수천~수만 개 수집
  • GPT 모델을 이 데이터로 파인튜닝
Prompt: "Summarize the article."  
Response: "The article explains that..."

목적: "지시가 들어오면 이렇게 대답해야 한다"는 기본적인 반응 습득


2단계: Reward 모델 학습

“무엇이 더 좋은 답인지 평가할 줄 아는 모델 만들기”

  • 하나의 프롬프트에 대해 여러 GPT 답변 생성
  • 사람이 이 답변들을 좋은 순서로 정렬함 (예: 1등, 2등, 3등)
Prompt: "What is the capital of France?"

1️⃣ "The capital of France is Paris."  
2️⃣ "France is a country in Europe."  
3️⃣ "I think it's Paris, but I'm not sure."
  • 이 데이터를 기반으로 Reward 모델을 훈련
    → 답변을 보고 점수를 예측하는 평가자 역할

3단계: PPO 강화학습 (Proximal Policy Optimization)

“사람이 좋아하는 방향으로 모델을 조정하는 단계”

  • 기존 GPT 모델이 여러 응답 생성

  • Reward 모델이 각 응답에 점수를 부여

  • 높은 점수 받는 방향으로 GPT를 다시 학습시킴

    목적: “이런 식으로 대답해야 높은 평가 받는다”는 감각을 모델에 주입


왜 RLHF가 중요한가요?

GPT-3까지는 문장은 잘 만들었지만,

  • 지시를 정확히 따르지 못하고
  • 현실과 다른 내용(hallucination)을 말하고
  • 무례하거나 위험한 표현을 내뱉기도 했습니다.

RLHF는 이러한 문제를 해결하기 위한 필수 기술로 등장했으며,
ChatGPT, GPT-4의 신뢰도와 유용성을 크게 향상시킨 주역입니다.


전체 흐름 요약

단계설명목적
1. SFT지시문과 모범답변으로 파인튜닝기본적인 지시 수행 능력 학습
2. Reward 모델사람 피드백을 바탕으로 보상 모델 훈련무엇이 더 좋은 답변인지 평가 가능하게 함
3. PPO보상 점수에 따라 GPT를 다시 학습인간 선호에 맞는 응답을 생성하도록 강화함

RLHF를 쉽게 비유하면?

단계비유
SFT선생님이 정답 예시를 보여주며 "이렇게 말해보자" 가르침
RM학생들 대답을 보고 선생님이 "이게 제일 좋다" 순위 매김
PPO선생님의 평가 기준에 따라 학생이 다시 공부하며 말투와 내용 수정

RLHF는 GPT에 어떤 영향을 줬을까?

모델RLHF 사용 여부특징
GPT-2지시 이해 불가, 텍스트만 잘 생성
GPT-3예시 기반 작업 추론 가능, 지시는 명확히 이해 못함
ChatGPT(GPT-3.5)지시문 이해, 대화 중심 응답 가능
GPT-4✅ 강화됨고급 reasoning, 지시 없이도 자연스럽게 대응 가능

마무리 요약

  • RLHF는 사람의 피드백을 바탕으로 GPT를 지시 기반 AI로 진화시킨 핵심 기술입니다.
  • 이 과정 덕분에 GPT는 단지 말을 잘하는 수준을 넘어서, 사람이 원하는 방식으로 말하는 능력을 갖추게 되었습니다.
  • ChatGPT, GPT-4 같은 모델의 "사람다움"은 대부분 이 기술에서 비롯된 성과입니다.
profile
AI developer

0개의 댓글