특징)
→ 두번째로 생각한 아이디어와 완전히 비슷한 세팅을 가정
→ 이 방식처럼 하려면 수 만개가 넘는 상품(action) 에 대해 각각의 prob을 계산해야 한다는 한계가 존재
abstract
LLM knowledge와 env alignment 가 충분히 이뤄지지 않았다
→ functional grounding 을 통해 이 문제를 해결 (agent가 LLM을 사용하고 env 와 interation 하면서 이를 꾸준히 업데이트 한다.)
→ online RL을 leverage 하는 것
Intro
LLM 이 env 문제 해결과 align 되지 않은 이유 예측
paper aim )
agent policy로 사용되는 LLM이 interactive한 env에서 어떻게 grounding + updating knowledge해서 적응할 수 있을까
→ 이에 대한 대안으로 원래 LLM에서 fine-tuning 했듯이 비슷한 방식을 사용
Method
LLM을 agent policy로 사용해서 (obs, reward) 조합을 통해 RL 로 훈련
→ online 으로 agent가 goal을 달성하는 방향으로 훈련됨
환경에 대한 세팅
reward는 스칼라, action, obs, goal 은 language vocab space에 존재한다고 되어있음
근데 기존 baby ai 환경은 (좌, 우, 상, 하, 들기, 내려놓기 ) 6개 action space로 구성
(완전 vocab space는 아닌 것 같음)
LLM을 policy로 사용하기
LLM을 통한 action 을 나타내는 방법에 여러가지가 있음
1) conventional RL 처럼 action head 붙이는 것 (우리 연구에서는 안될 듯)
2) LLM을 이용해 생성된 action을 구성하는 token에 대한 각각의 확률을 모두 곱함
단점) 각 action에 대해 확률을 계산하기 위해 LLM의 forward pass 가 필요하다
장점)
1) text 가 만들어졌을 때 action 집합에 우겨넣을 필요가 없고 바로사용 가능
2) we use only pretrained operations from the LLM and leverage language modeling heads’ prior (이해 안됨)
3) 어떤 action space에서도 적용할 수 있으며 textual env 에서 변형없이 사용가능하다
→ 그러므로 논문에서 이 방법 채택
Do as i can, not as i say: Grounding language in robotic affordances
위 논문에서 다음과 같이 action 확률 mapping 함
이 논문에서는 비슷하게 log 폼으로 설정\
이를 모든 action에 대해 각각 계산하고 softmax를 취해 마지막 action 확률을 구한다.
이해 안가는 점 : a_i 는 LLM으로부터 생성된 token의 sequence이므로 각각의 LP_LLM을 계산하는 것은 이해가 되지만 A 집합에 속한 모든 a_j 라는 개념은 어떻게 받아들일지 모르겠음
→ 아마 코드를 봐야 할 듯
ppo fine-tuning 과정에서 V 는 decoder 부분에 mlp value head 붙여서 훈련시켰다.
Experiments
780M 짜리 Flan-T5 모델 사용
세가지 baseline
1) LLM 의 pre-trained embedding layer만 사용하고 action head 를 얻는다.
→ NPAE-Flan-T5
2) DRRN 이라는 LLM 을 사용하지 않는 classic RL baseline 사용