As language models become more powerful, training and evaluation are increasingly
bottlenecked by the data and metrics used for a particular task. For example,
summarization models are often trained to predict human reference summaries and
evaluated using ROUGE, but both of these metrics are rough proxies for what we
really care about—summary quality. In this work, we show that it is possible to
significantly improve summary quality by training a model to optimize for human
preferences. We collect a large, high-quality dataset of human comparisons between
summaries, train a model to predict the human-preferred summary, and use
that model as a reward function to fine-tune a summarization policy using reinforcement
learning. We apply our method to a version of the TL;DR dataset of Reddit
posts [63] and find that our models significantly outperform both human reference
summaries and much larger models fine-tuned with supervised learning alone. Our
models also transfer to CNN/DM news articles [22], producing summaries nearly
as good as the human reference without any news-specific fine-tuning.2 We conduct
extensive analyses to understand our human feedback dataset and fine-tuned
models.3 We establish that our reward model generalizes to new datasets, and that
optimizing our reward model results in better summaries than optimizing ROUGE
according to humans. We hope the evidence from our paper motivates machine
learning researchers to pay closer attention to how their training loss affects the
model behavior they actually want.
ChatGPT 모델이 학습에 활용한 InstructGPT와 RLHF 방법론을 보면서 인간의 feedback이 모델에 직접 투입되었을 때 output과 학습에 어느정도의 영향을 미치는지 궁금했다.
언어모델 학습 시의 목적함수를 가능한한 우리가 원하는 행동을 포착할 수 있게 더 발전된 방법을 고안하는 것이다. 논문에선 인간의 선호가 가미된 데이터를 Reward model을 통해 학습시켜 인간에게 친숙하게 요악한다. 또 강화학습을 통해 이런 보상 score를 최대화하여 완성시켰다.
이를 통해 요약 task에서 인간이 요약한 것처럼 고품질의 모델 output을 얻는다.
요약 task에서 기존의 방법들은 인간이 만든 텍스트들로부터 가능도를 최대로하는 목적함수를 고려하였으나 이는 오류의 중요성(사실을 만들어내거나 동의어 집합에서 정확한 단어를 찾아내는 오류)를 제대로 파악해내지 못했다. 즉, 인간이 생성모델에게 생성하길 기대하는 것과 모델이 실제로 생성하는 것 사이의 괴리를 해결하고자 했다. 따라서 품질을 최적화시키는 것이 이 문제들을 극복할 중요한 키가 된다.
기존에도 human feedback을 요약 task에 학습시킨 연구가 있었고 보상 함수를 학습하는 강화학습에 기반을 두고 있었다. 하지만 온라인 상의 매너에 관해서만 학습하고 모델 자체가 데이터에서 특성을 추출해내는 것이 그쳤다고 한다. 또한 라벨러들과 연구자 사이에 요약 결과에 있어서 불일치를 보이기도 했다고 한다.
human feedback을 거대 언어모델에 fine tuning 시키는 방법을 강화학습과 보상모델을 적절히 활용하여 해결했다. 인간이 만든 텍스트를 만들어내야한다는 사실에도 불구하고 기존에는 인간의 관점이 아닌 기계의 확률적 관점으로 텍스트를 생성해나간다는 한계점이 있었다. 이를 직관적인 해결법을 제시하여 성능을 비약적으로 향상시킨 점에서 앞으로 언어모델을 학습시킬 새로운 패러다임을 제시했다고 볼 수 있다.
또한 라벨러와 연구자 사이의 요약 결과의 선호도도 거의 동일하였고 더 큰 모델을 사용했으며 알고리즘적 변화도 주었다.
theta는 지도학습으로 출발한다.
- PPO algorithm
- RLHF
- GPT3
- ROUGE score