Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

이두현·2024년 3월 17일
0

특징)

  1. 실험환경이 우리와 비슷한 text-env
  2. RL을 원래 생각했던대로 LLM fine-tune 하는 방식으로 사용 (online)
  3. LLM을 policy 자체로 사용
  4. goal description + obs + scalar reward 가 주어져 있음
  5. action space 너무 큰 것에 대한 reference paper 좀 참고 할 수 있을 것 같음

→ 두번째로 생각한 아이디어와 완전히 비슷한 세팅을 가정

→ 이 방식처럼 하려면 수 만개가 넘는 상품(action) 에 대해 각각의 prob을 계산해야 한다는 한계가 존재

abstract

LLM knowledge와 env alignment 가 충분히 이뤄지지 않았다

→ functional grounding 을 통해 이 문제를 해결 (agent가 LLM을 사용하고 env 와 interation 하면서 이를 꾸준히 업데이트 한다.)

→ online RL을 leverage 하는 것

Intro

LLM 이 env 문제 해결과 align 되지 않은 이유 예측

  1. LLM이 next-word prediction으로 훈련되는 방식이 env에서 task 해결과 동일한 incentive를 갖지 않는다.
  2. 환경에 intervene 해서 causal structure를 파악하는 능력이 부족하다
  3. env 와 상호 작용한 기록을 통해 학습하는데 어려움

paper aim )

agent policy로 사용되는 LLM이 interactive한 env에서 어떻게 grounding + updating knowledge해서 적응할 수 있을까

→ 이에 대한 대안으로 원래 LLM에서 fine-tuning 했듯이 비슷한 방식을 사용

Method

LLM을 agent policy로 사용해서 (obs, reward) 조합을 통해 RL 로 훈련

→ online 으로 agent가 goal을 달성하는 방향으로 훈련됨

환경에 대한 세팅

reward는 스칼라, action, obs, goal 은 language vocab space에 존재한다고 되어있음

근데 기존 baby ai 환경은 (좌, 우, 상, 하, 들기, 내려놓기 ) 6개 action space로 구성

(완전 vocab space는 아닌 것 같음)

LLM을 policy로 사용하기

LLM을 통한 action 을 나타내는 방법에 여러가지가 있음

1) conventional RL 처럼 action head 붙이는 것 (우리 연구에서는 안될 듯)

2) LLM을 이용해 생성된 action을 구성하는 token에 대한 각각의 확률을 모두 곱함

단점) 각 action에 대해 확률을 계산하기 위해 LLM의 forward pass 가 필요하다

장점)

1) text 가 만들어졌을 때 action 집합에 우겨넣을 필요가 없고 바로사용 가능

2) we use only pretrained operations from the LLM and leverage language modeling heads’ prior (이해 안됨)

3) 어떤 action space에서도 적용할 수 있으며 textual env 에서 변형없이 사용가능하다

→ 그러므로 논문에서 이 방법 채택

Do as i can, not as i say: Grounding language in robotic affordances

위 논문에서 다음과 같이 action 확률 mapping 함

이 논문에서는 비슷하게 log 폼으로 설정\

이를 모든 action에 대해 각각 계산하고 softmax를 취해 마지막 action 확률을 구한다.

이해 안가는 점 : a_i 는 LLM으로부터 생성된 token의 sequence이므로 각각의 LP_LLM을 계산하는 것은 이해가 되지만 A 집합에 속한 모든 a_j 라는 개념은 어떻게 받아들일지 모르겠음

→ 아마 코드를 봐야 할 듯

ppo fine-tuning 과정에서 V 는 decoder 부분에 mlp value head 붙여서 훈련시켰다.

Experiments

780M 짜리 Flan-T5 모델 사용

세가지 baseline

1) LLM 의 pre-trained embedding layer만 사용하고 action head 를 얻는다.

→ NPAE-Flan-T5

2) DRRN 이라는 LLM 을 사용하지 않는 classic RL baseline 사용

profile
0100101

0개의 댓글