On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting
NeurIPS 2022
- 두 가지 다른 강화학습 패러다임의 비교분석 (Reward Maximization, Distribution Matching)
- 두 패러다임(RM, DM)을 연결지을 수 있는 Findings
- 강화학습의 baseline 기법을 DM에 적용