LLM planner가 생성한 HLP(하이레벨 플레닝, 에: sequence of sub-goals ([감자 찾으러 갔다가, 감자 잡고, 전자레인지로 가]) 수행 시간이 너무 오래걸리면,
로봇은 LLM에게 지금까지 관찰했던 사진들
+ HLP 중 지금까지 수행 완료한 것들
정보를 추가로 주면서, 다시 HLP 해달라고 요청!
LLM은 common sense knowledge가 좋기 때문에, 새로운 환경에 대한 적응력이 좋다.!
복잡한 task에 대한 자연어 지시를 받았을 때, 이에 대한 high level planning을 생성하기 위해 LLM을 쓴다.
로봇이 처음 가보는 다양한 환경에서도, 금방 적응을 잘 한다는 것이다! (다양한 테스크 수행 능력을 금방 적응하여 키운다!)
환경에 대한 사전 정보를 모아야 하는 노력을 최소화 할 수 있다!
자연어 지시 - High Level Planning
조합자연어 지시 - High Level Planning
조합 데이터를 매우 쪼금 학습에 이용해도, 새로운 task에 대한 수행 능력이 좋았다.자연어 지시 - High Level Planning
로 각 task 수행을 학습하는 방법은, 학습 비용이 너무 비쌉니다.자연어 지시
: 건물 내 쓰레기통을 전부 비워줘!
High Level Planning
: 건물 내 쓰레기통을 발견할 때까지 순찰합니다.
+ 찾았으면 가서 집습니다.
-> 집은 채로 중앙 쓰레기통 장소를 찾습니다.
-> 중앙 쓰레기통 장소에 쓰레기를 비웁니다.
-> 쓰레기통을 원래 자리로 되돌려 놓으러 갑니다.
-> 무한 반복
캔을 쓰레기통에 버려!
지시어 -> LLM -> high level planning
을 거친다는 것이 문제였음.LLM-planner가 HLPs
를 주면 -> 이 각 HLP subgoal을 sequence of 사전정의된 actions로 변환
자연어 지시-HLP
pair 몇개를 통해 적응시킴. in-context example retrieval
logit biases
navigation-only VLN datasets
그러나 더 복잡한 VLN 문제 상황도 있습니다.
(혹은 embodied instruction following in datasets)natural language subtasks를 생성하는 법
)했습니다.생성된 각 subtask를 primitive actions와 매칭시킵니다.
원시 내비게이션 지시사항
("왼쪽으로 돌아 깡통이 있는 쪽으로 가세요.") + 3개의 맥락 예제(context examples)를 제공
-> 주요 지형지물(landmarks) 목록을 생성
하도록 함환경에서 수행가능한 actions를 미리 알 수 있다는 가정
하에, 문제를 풂.AI 모델이 환경 내에서 수행할 수 있는 행동의 목록을 예측하도록 훈련
시키려고 시도모든 객체나 장애물을 정확히 인식하지 못할 수 있습니다.
즉 객체의 수가 많아짐에 따라 AI가 고려해야 할 행동의 수도 기하급수적으로 증가
합니다. 이는 처리해야 할 데이터의 양이 많아져 시스템에 부담을 줄 수 있습니다.사전 훈련된 비전 detection 모델을 사용
하여, 대규모 언어 모델(LLM)을 현재 환경에 "그라운딩(grounding)" (시각 정보를 통해 re-planing 성능을 높인다.)Embodied instruction following
은 vision and language navigation(VLN)
과 유사Language Instruction I
가 주어졌을 때, agent는 환경 E에서 task를 완수하기 위해, sequence of primitive actions
를 수행Embodied instruction following
vision and language navigation(VLN)
instruction I
-> high level plan L_h = [g_0, g_1, ..., g_T]
g_i
= (high-level action, object)
high-level action
Navigation
action을 추가하였다.Putting a sliced tomato on the black table
-> L_h = [ (Navigation, fridge), (Open, fridge), (Pickup, tomato), ...]
g_i
= (high-level action, object)
-> Primitive actions L_l = [a_0, a_1, ..., a_Ti]
특정 프롬프트(질문 혹은 요청)를 디자인
하여, 아래의 방법으로, 대규모 언어 모델을 다양한 하위 작업에 적응시킬 수 있는 방법예시 몇 개를 보여주는 것
특정 작업에 맞는 질문이나 명령을 구성하여 모델의 출력을 조정하는 것
모델의 파라미터는 전혀 업데이트되지 않습니다.
비록 훈련 데이터는 적게 사용하지만, 프롬프트 디자인과 모델 선택을 위해 큰 validation 데이터 세트를 사용
최근 연구들은 이러한 큰 검증 세트가 언어 모델의 효능을 과대평가하는 주요 원인이라는 것을 보여
주었습니다. 교차 검증을 실시
하여 프롬프트 디자인과 모델 선택을 수행합니다. 모델의 일반화 능력을 더 정확하게 평가할 수 있게 해 줍니다.
leave-one-out cross-validation (LOOCV)
방법을 사용합니다.agent가 action을 실시하는데 실패
기준 시간 이상 흘렀을 때
pretrained BERT-base-uncased model (Huggingface Transformers Library[40])
public GPT-3 API text-davinci-003 [4]
HLSM[3]
/ FILM[28]트레이닝 예시가 많아질수록 HLP 정확도는 일반적으로 향상되지만, 250개의 트레이닝 예시를 넘어서면 수익이 감소하기 시작합니다.
메인 실험에서 트레이닝 예시를 더 많이 사용하면 (예: 250개) 상당한 향상을 기대할 수 있습니다.
인컨텍스트 예시로 9개가 일반적으로 좋은 수라는 것을 발견
했습니다. 트레이닝 예시가 적을 때는 인컨텍스트 예시가 더 유용
합니다. 왜냐하면 검색할 유용한 예시가 적기 때문이죠.