주변 장면에 대한 인지 부족으로 인해 제대로 된 추론을 못하는 단점
-> 해당 논문에서는 NLMap을 활용하여 이를 해결
NLMap
※ 이때 의미론적 이해가 중요 => CLIP 모델이 이미지 이해와 객체 검출이 가능 (제로샷 성능 좋음)
LLM이 언어 이해, 의미론적 이해, 추론, 지시 수행에 좋은 성능을 보이지만 현실에서 잘 안되는 경우가 있다.
하지만 SayCan은 value function으로 잘 해내지만 , 이것도 제공되는 옵션, 객체 위치에 대한 지식에 의존한다.
해결
1. 임의의 객체를 찾을 수 있는 Open-Vocabulary 장면 표현을 유지하는 방법
2. 장면 이해를 LLM planner에 어떻게 결합할지 생각