[paper-review] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

miws·2024년 7월 12일

LLM

목록 보기

2/11

Zero-shot으로 Action plan 생성 및 추출

1. 방법

Pre-Trained Causal LLM으로 Zero-shot 플래닝
플래닝한 결과로 Pre-Trained Masked LLM에 넣고 적절한 동작 생성
해당 동작을 Prompt에 추가하고 단계별로 Autoregressive 생성

읽으면서 특이하다고 생각한 점이 있다.
Action에 대한 Plan을 생성하기 위해서 플래닝을 하는 LLM이랑 플래닝 결과로 동작 생성하는 LLM을 다르게 사용한 점.

※ Planning LM, Translation LM

Planning LM : 절차 생성하는 LM인데 GPT-3, Codex와 같은 모델이 사용
Translation LM : 수행할 절차들을 맵핑하는 LM, BERT 기반 모델 사용

GPT-3는 괜찮은 성능이 나오는 것을 어느 정도 이해는 했지만
Q) Codex는 코드 생성에 특화된 LLM인데 왜 성능이 좋은지?

A) 논문에 나와있는 절차 생성된 형식을 보면 논리력을 갖춘 형태이다.
그래서 코드 생성에 특화되었다면 논리력을 어느 수준 갖췄기 때문에 좋은 성능이 나왔다고 생각할 수 있다..

2. Metrics

Executability : 실행 가능성
Correctness : 정확도
LCS : 최장 공통 부분 수열(?)
- ABCDEF 랑 GBCDFE 의 LCS는 ?
  => BCDF

3. 결과 및 한계

결과
- 다음 절차에 대한 생성을 잘 수행한다.
- 단일 LLM으로 처리한 것보다 대체적으로 Executability, LCS 부분에서는 우수했다.
한계
- Correctness 면에서 성능이 약간 저하되는 것을 보인다.
- 연구 자체가 High-level 쪽에 집중되어서 Mid-level action에 대한 조사나 연구가 부족하다.
- 주변 환경 정보에 대한 무지로 인해 한계가 있다.
- 평가 방식에 대한 부분도 한계가 존재한다.(Open-world에 대한 평가가 부족)
하나의 모델로만 Planner를 구축하는 것이 아닌 단계별로 구축한 것이 특징이었고
환경 정보, 평가 방식 면에서 보완 가능성이 많아 보인다.

miws

이전 포스트

[paper-review] Language Models are Few-Shot Learners

다음 포스트

[paper-review] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

LLM

Zero-shot으로 Action plan 생성 및 추출

1. 방법

※ Planning LM, Translation LM

2. Metrics

3. 결과 및 한계

결과

한계

[paper-review] Language Models are Few-Shot Learners

[paper-review] Do As I Can, Not As I Say : Grounding Language in Robotic Affordances

0개의 댓글