[paper-review] Inner Monologue : Embodied Reasoning through Planning with Language Models

miws·2024년 7월 12일

LLM

목록 보기
5/11

인상 깊었던 아이디어가 담긴 논문


1. 개요

  • Inner Monologue

    • 내적 독백이라는 말인데 이를 통해 환경(상황) 피드백을 진행한다.
    • 이전 논문들에서 환경에 대한 정보를 활용한 것은 없었다. (내가 읽은 논문에서)
    • 성공 여부, 장면 설명 등을 정보로 활용

      즉, 사람들이 문제를 해결할 때 내적으로 단계적 해결법을 생각하는 것에서 아이디어를 착안

  • 로봇 스킬은 pre-trained 셋을 활용

"추가적인 훈련 없이 frozen LM이랑 pre-trained 로봇 스킬 이상의 Inner Monologue를 선보일 것"


2. 방법

  • Task and Motion Planning
    • LLM, 의미론적 지식, low-level 스킬을 활용해 실행 가능성을 파악

  • Task Planning with Language Models
    • 최근 연구들처럼 Zero-shot 방식으로 high -> low로 세분화하는 것은 비슷
    • 각 단계를 생성할 때 환경 정보를 피드백 받는 것을 LLM에 통합

  • Fusing Vision, Language, and Control in Robotics
    • CLIPort, Socratic Model 등 기존 연구들이 있다.

  • 방법론
    • 지금까지는 피드백 없이 단방향 흐름으로 진행되었지만
      Inner Monologue는 closed-loop 피드백으로 연구가 진행 => 복잡한 task도 가능
    • 피드백 하는 요소 : 성공 여부, 능동적, 수동적 장면 설명

3. 실험

  • Object, Scene 등 몇가지 요소로 차이를 두며 실험 진행
    • Object + Scene 정보와 Inner Monologue가 같이 사용된 것이 제일 좋다.
    • Object : 객체 인식 형태
    • Scene : 장면 설명

  • 실패 시, 재구성 및 복구에 대한 성능도 괜찮다.

  • Ours vs SayCan (방해 환경)
    • 성공률이 2배 이상 차이가 난다. (Ours >> SayCan)

      환경에 대한 피드백하는 것이 전체적인 성능에 큰 영향을 주는 것을 알 수 있다.


4. 결론 및 한계

  • 새로운 기능
    • 처음보는 지시문에 대한 이해가 좋다.
    • 해결사 역할을 한다.
    • 다국어 가능
    • 장면에 대한 이해도가 좋다.
    • 피드백 순서, 오타에 대해 강건한 모습을 보인다.

  • 한계 (수정해야함)
    • 가정, 실패 경우에 대한 한계점 존재
    • 결과, 향후 Task에 대한 한계점 존재

이전에 읽은 논문에서 반영되지 않았던 환경 정보에 대한 피드백이 적용되었고
이로 인해 좋은 성능을 보이면서 방법이 효과적이었다는 점을 증명하는 논문이다.
피드백도 다양한 형식으로 진행하며 replanning을 시도하는 점이 인상적이었다..

0개의 댓글