RLHF란?

City_Duck·2023년 5월 25일

LLM NLP RLHF

NLP

목록 보기

5/7

RLHF : Reinforcement Learning from Human Feedback

ㅁㄴㅇㄹ

RLHF Concept

ChatGPT는 이전 포스트에서 소개한 Instruction tuning 기법을 적용한 LM 모델에 Supervised Instruction tuning과 RLHF를 적용하여 만들어진 모델입니다.

해당 챕터에서는 수식적인 부분 보다는 개념위주로 진행하려고 합니다.

먼저 해당 기술이 나오게 된 계기는 조금 더 인간의 취향에 맞는 답변을 얻기 위해서입니다.
예를 들어 요약 Task를 위한 LM을 만든다고 가정을 하겠습니다.
임의의 sample을 inference한 결과에 대한 human reward(사람의 평가)을 얻을 수 있을 때
결과에 대한 expected reward를 최대화 하고자 RL을 사용합니다.

즉, 이름 그대로 HF(Human Feedback = 사람의 평가)를 최대화 하기 위해 RL(강화 학습)을 사용합니다.

RL의 수식적인 내용은 스탠포드 강의 55page에 설명되어 있습니다.

하지만 이를 수행하기에는 두 가지 문제점이 존재합니다.

human-in-the-loop is expensive
human judgments are noisy and miscalibrated

먼저 1번부터 살펴보겠습니다.

human reward를 기반으로 학습을 진행하기에 결국 output에 대한 평가를 지속적으로 받아야합니다.
하지만 사람이 매번 참가하는 "human-in-the-loop"의 경우 학습의 비용이 너무 커지게됩니다.
그렇기에 Human Preference(=reward)를 예측하는 LM을 학습하여 사람 대신 평가를 진행합니다.

다음으로 2번 문제입니다.

ChatGPT 기준으로 40여명의 리뷰어가 점수를 매겼다고 합니다.
이러한 경우 리뷰어에 따라 기준이 애매모호 합니다.
그렇기에 모델을 학습할 때에는 점수가 아닌 등수를 매기는 형식으로 진행하였다고 합니다.

이러한 방식을 통해 성능을 크게 개선했지만 RLHF에도 단점은 존재합니다.

Human preferences를 신뢰하기에는 명확하지 않습니다.
1.1 명확하지 않은 보상체계(preference) 때문에 잘못된 방향으로 학습하는 문제(Reward hacking)가 발생할 수 있고 이는 RL에서 흔히 나타나는 문제점입니다.
1.2 챗봇은 진실과 관계없이 그럴 듯한 대답을 생성하기에 hallucinations와 같은 문제점을 야기할 수 있습니다.
Human preferences를 학습하여 예측하는 모델또한 신뢰하기 힘듭니다.
다음과 같이 차이가 나는 것을 볼 수 있습니다.

정리하자면, Reward hacking과 명확하지 않은 기준으로 인해 잘못된 방향으로 학습될 수 있다는 단점이 존재합니다.

RLHF는 instruction tuning보다 "alignment" 측면에서 뛰어나며 빠르게 연구되는 분야이기에 이러한 단점을 이겨낼 포텐셜이 존재합니다.

또한 RLHF의 단점인 비싼 데이터 비용의 경우도 "RL from AI feedback [Bai et al., 2022]", Finetuning LMs on their own outputs [Huang et al., 2022; Zelikman etal.,2022]와 같이 활발하게 연구 중입니다.

이는 이후 포스트인 LLM fine-tuning에서 다룰 예정입니다.

하지만 LM의 근본적인 문제인 Size, hallucination을 아직까지는 개선할 수는 없는 한계점 또한 존재합니다.