On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting
NeurIPS 2022


- 두 가지 다른 강화학습 패러다임의 비교분석 (Reward Maximization, Distribution Matching)



- 두 패러다임(RM, DM)을 연결지을 수 있는 Findings



- 강화학습의 baseline 기법을 DM에 적용

