논문을 읽으면서 이해가 안 되는 것들이나 한국어로 설명을 다시 보고 싶은 것들은 검색을 하면서 찾곤 하는데 이 논문에 나온 몇몇 개념들이 구글 검색으로 충분히 결과가 나오지 않아서 논문을 읽고 이해하는데 시간이 많이 걸렸다...
RL=Reinforcement Learning
Intrinsically Motivated RL이란 알고리즘이 특정 행위를 통해 보상을 얻으며 학습하는 과정에 있어서 exploration을 어떻게 더 잘할 수 있을지에 대한 방법을 적용한 RL이다. 이 방법이 나오기 전까지는 random exploration을 사용한 RL 알고리즘이 많았는데 이때 이미 가본 state를 다시 방문하는 것보다는 최대한 방문해보지 않은 state를 방문하는 것이 더 좋을 수도 있다는 가정 하에 만들어진 것이다. 다른 말로는 Curiosity-based RL이라고도 한다. (이 자체에 대한 논문도 22년도에 나왔다...)
https://arxiv.org/abs/2203.02298
자세하게 설명을 적으려면 위 논문을 리뷰해야할 것 같으니 생략하고 넘어가기로 한다.
언어를 사용하는 것은 다양한 수행 결과를 표현하는 것에 유용한 방법일 수 있다. RL에서 agent가 언어적 목표를 달성하도록 훈련하면
1) 비전문가인 사용자도 목표를 쉽게 표현할 수 있고
2) 표준의 state-based goals보다 더 추상적일 수 있으며
3) agents가 언어의 부분적 구성성과 재귀성에 의해 더 잘 일반화될 수 있다
는 장점이 있다.
따라서 언어 목표는 RL이 수행할 목표의 지침으로써 사용될 수 있다.
여기서 언어를 RL의 목표 지침으로 사용하게 되면 대규모 corpus를 학습한 LLM을 RL의 학습을 위해 사용할 수 있는 가능성이 열리게 된다. Language Model로 인코딩된 목표 설명은 지시를 따르는 RL의 agent의 일반화를 여러 지시에 거쳐 향상 시킨다. 혹은 LLM이 원하는 행동을 유도함으로써 대리 보상 기능으로 사용될 수도 있다.
그러나 본 논문에서 사용하는 Exploring with LLMs(=ELLM)은 사전 학습된 LLM을 이용해 task에 구애 받지 않는 방식으로 목표를 향한 exploration의 영역을 제한한다. (이 부분은 무슨 말인지 이해를 못 했다..)
We consider partially observed Markov decision processes defined by a tuple (S, A, O, Ω, T , γ, R), in which observations o ∈ Ω derive from environment states s ∈ S and actions a ∈ A via O(o | s, a). T (s′| s, a) describes the dynamics of the environment while R and γ are the environment’s reward function and discount factor.
타이핑 치려다가 귀찮아서 본문 긁어왔다.
위 설명대로 제시된 튜플을 고려하면서 문제 상황에 대한 설명을 읽어보자..
IM agent는 R과 함께 혹은 R 대신에 Intrinsic Reward인 R_int를 최적화한다.