SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

sherry·2025년 8월 16일
0

JSON으로 표현된 3D Scene graph를 LLM input으로 주기.
1) LLM이 모든 객체 보지 않고 필요한 subgraph만 보기
2) 실행 불가능 행동을 지속적으로 검토해서 replanning

coffee를 만들 때는 화장실에 있는 치약에 대한 정보는 알 필요가 없음. 따라서 Semantic Search stage에서는 작은, task-specific subgraph를 뽑는게 목적임. 전체 그래프로부터 필요한 걸 알기 위해서는 semantic hierarchy와 LLM의 reasoning 능력을 활용함.
첫번째로 top level node만 사용( 예를 들어, 층에 대한 정보만 사용)해서 instruction에 필요한 subgraph만 식별함. 그다음 Kitchen과 같은 필요한 node들을 식별해서 관련된 node들만 확장하고, 필요 없는 부분은 숨기고, 이런식으로 필요한 subgraph 생성

Iterative Replanning

필요한 Subgraph만 받았을 때, LLM은 planning 시작. 이때 path planning은 하위 모듈에게 맡기고 LLM은 간단한 output만 내뱉도록함
시뮬레이터가 plan을 계속 시뮬레이션 돌려보고 실패하면 이를 텍스트 피드백으로 LLM에게 줌 계속 수정...

profile
Es muss sein!

0개의 댓글