
| 항목 | 링크 |
|---|---|
| 논문 | https://arxiv.org/pdf/2402.05546 |
Machine learning 분야에서 최근 몇년간 model과 dataset size 의 규모를 키우는 것이 큰 성능 향상을 가져옴

Imitation learning 분야인 Behavior cloning (주어진 데이터셋을 기반으로 학습)도 위 사례와 유사하게, 규모의 확장을 통해 Multi-task 학습 성능이 엄청 증가했다고 함

[출처 : Reinforcement learning is supervised learningo n optimized data (https://bair.berkeley.edu/blog/2020/10/13/supervised-rl/)]
하지만 Behavior Cloning은 높은 품질의 데이터를 필요로 하고, robotics 에서는 높은 품질의 데이터를 얻는 것이 굉장히 어렵다고 함
따라서 본 논문에서는 sub-optimal data나 학습 과정 중에 만들어내는 데이터 (사람의 개입 없이)를 이용해 학습할 수 있는 Offline RL 알고리즘을 제안하고 있음

[출처 : Should I Use Offline RL or ImitationLearning? (https://bair.berkeley.edu/blog/2022/04/25/rl-or-bc/)]

본 논문의 Objective function은 아래와 같음

위 function은 세 가지 terms으로 구성되어 있음



