[paper-review] Inner Monologue : Embodied Reasoning through Planning with Language Models

miws·2024년 7월 12일

LLM

목록 보기

5/11

"추가적인 훈련 없이 frozen LM이랑 pre-trained 로봇 스킬 이상의 Inner Monologue를 선보일 것"

Task and Motion Planning
- LLM, 의미론적 지식, low-level 스킬을 활용해 실행 가능성을 파악
Task Planning with Language Models
- 최근 연구들처럼 Zero-shot 방식으로 high -> low로 세분화하는 것은 비슷
- 각 단계를 생성할 때 환경 정보를 피드백 받는 것을 LLM에 통합
Fusing Vision, Language, and Control in Robotics
- CLIPort, Socratic Model 등 기존 연구들이 있다.
방법론
- 지금까지는 피드백 없이 단방향 흐름으로 진행되었지만
  Inner Monologue는 closed-loop 피드백으로 연구가 진행 => 복잡한 task도 가능
- 피드백 하는 요소 : 성공 여부, 능동적, 수동적 장면 설명

Object, Scene 등 몇가지 요소로 차이를 두며 실험 진행
- Object + Scene 정보와 Inner Monologue가 같이 사용된 것이 제일 좋다.
- Object : 객체 인식 형태
- Scene : 장면 설명
실패 시, 재구성 및 복구에 대한 성능도 괜찮다.
Ours vs SayCan (방해 환경)
- 성공률이 2배 이상 차이가 난다. (Ours >> SayCan)
  
  환경에 대한 피드백하는 것이 전체적인 성능에 큰 영향을 주는 것을 알 수 있다.

이전에 읽은 논문에서 반영되지 않았던 환경 정보에 대한 피드백이 적용되었고
이로 인해 좋은 성능을 보이면서 방법이 효과적이었다는 점을 증명하는 논문이다.
피드백도 다양한 형식으로 진행하며 replanning을 시도하는 점이 인상적이었다..