https://arxiv.org/pdf/2303.03378v1.pdf
embodied language models를 이용해 real world의 continuous sensor data를 word와 통합시킨다.
multimodal sentences(visual, continuous state estimation, and textual input encodings)
robotic manipultaton planning, visual QA, and captioning
여전히 QK-VQA에서 SOTA 유지
기존의 LLM을 이용한 연구는 textual input만을 활용함
기존 모델의 zero-shot으로는 robot 관련 task를 풀기에 부족하다고 판단
image와 state도 language token과 같은 embedding space에 넣어 transformer based model에서 학습 시킴
encoder를 먼저 학습
multi task training이 각각에 대한 train할 때 보다 성능이 좋음
embodied data mixing해서 LLM에 학습하는 것의 효과 증명
현행 visual language model을 embodied reasoning 잘 하게 만들 수 있다
neural scene representations and entity-labeling multimodal tokens 소개
LM 크기 확장으로 멀티모달이 가능하다는 것을 보임
continuous, embodied observations(image, state estimates, sensors)를 language embeddign space 에 넣는 것
Decoder only LLM이다
What happened between <img 1> and <img 2>? 과 같은 input(<\img i>는 이미지 임베딩)이 들어오면 answer 도출
따라서 언어 형태이므로 이를 로봇이 이해하도록 low level로 바꿔줄 필요가 있다.
State estimation vectors
Variation with Model freezing
로봇 조작 작업에 대해 실험 진행(여러 단계의 계획 생성)
멀티모달 정보를 사전 학습된 LLM의 임베딩 공간에 inject.
PaLM-E는 시뮬레이션과 실제 세계에서 다양한 로봇을 제어하는 데 효과적일 뿐만 아니라 일반적인 VQA 및 캡션 작업에도 능숙
정말 많은 도움이 되었네요~ 좋아요 누르고 갑니다!