Guiding Pretraining in Reinforcement Learning with Large Language Models

무무치킨자몽·2023년 10월 9일

논문 리뷰

목록 보기

8/15

논문을 읽으면서 이해가 안 되는 것들이나 한국어로 설명을 다시 보고 싶은 것들은 검색을 하면서 찾곤 하는데 이 논문에 나온 몇몇 개념들이 구글 검색으로 충분히 결과가 나오지 않아서 논문을 읽고 이해하는데 시간이 많이 걸렸다...

Intro

이론적 배경

Intrinsically Motivated RL

RL=Reinforcement Learning
Intrinsically Motivated RL이란 알고리즘이 특정 행위를 통해 보상을 얻으며 학습하는 과정에 있어서 exploration을 어떻게 더 잘할 수 있을지에 대한 방법을 적용한 RL이다. 이 방법이 나오기 전까지는 random exploration을 사용한 RL 알고리즘이 많았는데 이때 이미 가본 state를 다시 방문하는 것보다는 최대한 방문해보지 않은 state를 방문하는 것이 더 좋을 수도 있다는 가정 하에 만들어진 것이다. 다른 말로는 Curiosity-based RL이라고도 한다. (이 자체에 대한 논문도 22년도에 나왔다...)
https://arxiv.org/abs/2203.02298
자세하게 설명을 적으려면 위 논문을 리뷰해야할 것 같으니 생략하고 넘어가기로 한다.

Liguistic Goals and Pretrained Language Models

언어를 사용하는 것은 다양한 수행 결과를 표현하는 것에 유용한 방법일 수 있다. RL에서 agent가 언어적 목표를 달성하도록 훈련하면
1) 비전문가인 사용자도 목표를 쉽게 표현할 수 있고
2) 표준의 state-based goals보다 더 추상적일 수 있으며
3) agents가 언어의 부분적 구성성과 재귀성에 의해 더 잘 일반화될 수 있다
는 장점이 있다.
따라서 언어 목표는 RL이 수행할 목표의 지침으로써 사용될 수 있다.
여기서 언어를 RL의 목표 지침으로 사용하게 되면 대규모 corpus를 학습한 LLM을 RL의 학습을 위해 사용할 수 있는 가능성이 열리게 된다. Language Model로 인코딩된 목표 설명은 지시를 따르는 RL의 agent의 일반화를 여러 지시에 거쳐 향상 시킨다. 혹은 LLM이 원하는 행동을 유도함으로써 대리 보상 기능으로 사용될 수도 있다.
그러나 본 논문에서 사용하는 Exploring with LLMs(=ELLM)은 사전 학습된 LLM을 이용해 task에 구애 받지 않는 방식으로 목표를 향한 exploration의 영역을 제한한다. (이 부분은 무슨 말인지 이해를 못 했다..)

Structuring Exploration with LLM Priors

문제 설명

We consider partially observed Markov decision processes defined by a tuple (S, A, O, Ω, T , γ, R), in which observations o ∈ Ω derive from environment states s ∈ S and actions a ∈ A via O(o | s, a). T (s′| s, a) describes the dynamics of the environment while R and γ are the environment’s reward function and discount factor.
~~타이핑 치려다가 귀찮아서 본문 긁어왔다.~~
위 설명대로 제시된 튜플을 고려하면서 문제 상황에 대한 설명을 읽어보자..
IM agent는 R과 함께 혹은 R 대신에 Intrinsic Reward인 R_int를 최적화한다.

무무치킨자몽

눈 앞에 치킨 무와 파닭 치킨과 자몽 주스가 있을 때 지었던 닉네임

Guiding Pretraining in Reinforcement Learning with Large Language Models

논문 리뷰

Intro

이론적 배경

Intrinsically Motivated RL

Liguistic Goals and Pretrained Language Models

Contents

Structuring Exploration with LLM Priors

문제 설명

Comparative Study of CNN and RNN for Natural Language Processing

인공지능을 이용해 2D image를 3D object로 만들기 (수정 중)

0개의 댓글

관련 채용 정보