https://arxiv.org/pdf/2004.04136.pdf
강화학습에 대해 잘 모르는 관계로 충분히 공부한 후에 다시 보완하도록 하겠습니다.
CURL은 state based에 근접한 최초의 image-based 알고리즘입니다.
기존에 많은 시도들이 있었지만 고차원 observations에서 강화학습은 sample-inefficient 합니다.(pixel base 보다 state base가 효과적이라는 것이 여러 논문에서 증명) pixel에서 state 정보를 뽑아낼 수 있다는 생각에서 출발합니다.
시뮬레이션 환경에서는 state 정보를 빠르게 가져올 수 있지만 현실에서는 그렇지 않을 수 있습니다.
이를 해결하기 위한 기존 연구는 크게 두 분류로 나눌 수 있는데 첫째는, Auxiliary tasks on the agent’s sensory observations. 둘째는, World models that predict
the future 입니다. CURL은 이중 첫째에 속합니다.
먼저 다음의 가정이 전제됩니다. 'agent가 semantic representation'을 학습한다면 control 알고리즘은 더 data-efficient할 것이다'.
self supervised learning과 contrastive learning이 활용됩니다. 기존의 vision에서 성공을 거둔 방식들과는 차이가 존재하는데 1. 거대한 unlabeled data가 없다. 2. unsupervised와 RL이 동시에 이루어져야 한다.
Contrastive learning을 사용할 때 aumented된 여러 데이터끼리 일치를 maximize하는 방식으로 이뤄집니다. 최소의 overhead로 간단한 pipeline을 만드는데 주력했습니다.
CURL은 RL에 contrative learning을 적용한 방식이다. 다음의 방식들을 추가로 적용한다.
SAC for DMControl, Rainbow DQN이 사용됩니다.
instance discimination을 활용하는데 몇 개의 frame을 한 번에 사용합니다. 따라서 momentum encoding을 적용합니다.(CLIP2Video의 아이디어와 비슷한 것 같네요)
나중에 보충해서 다시 쓸게요