[Paper Review] PaLM-E: An Embodied Multimodal Language Model

gredora·2023년 3월 15일
1

Paper Review

목록 보기
8/20

https://arxiv.org/pdf/2303.03378v1.pdf

Abstract

embodied language models를 이용해 real world의 continuous sensor data를 word와 통합시킨다.

input:

multimodal sentences(visual, continuous state estimation, and textual input encodings)

가능한 것:

robotic manipultaton planning, visual QA, and captioning
여전히 QK-VQA에서 SOTA 유지

Introduction

기존의 LLM을 이용한 연구는 textual input만을 활용함
기존 모델의 zero-shot으로는 robot 관련 task를 풀기에 부족하다고 판단
image와 state도 language token과 같은 embedding space에 넣어 transformer based model에서 학습 시킴
encoder를 먼저 학습
multi task training이 각각에 대한 train할 때 보다 성능이 좋음

contribution

embodied data mixing해서 LLM에 학습하는 것의 효과 증명
현행 visual language model을 embodied reasoning 잘 하게 만들 수 있다
neural scene representations and entity-labeling multimodal tokens 소개
LM 크기 확장으로 멀티모달이 가능하다는 것을 보임

PaLM-E: An Embodied MultimodalLanguage Model

main idea:

continuous, embodied observations(image, state estimates, sensors)를 language embeddign space 에 넣는 것

Decoder only LLM이다
What happened between <img 1> and <img 2>? 과 같은 input(<\img i>는 이미지 임베딩)이 들어오면 answer 도출
따라서 언어 형태이므로 이를 로봇이 이해하도록 low level로 바꿔줄 필요가 있다.

Decoder-only LLMs

  • generative models
    수식은 추가 이해 필요

Prefix-decoder-only LLMs

  • prefix or pormpt가 context base 제공

Embodying the output: PaLM-E in a robot control loop

  • text로만 해결 가능한 task라면 바로 solution 제공

Input & Scene Representations for Different Sensor Modalities

State estimation vectors

  • state of the objects 묘사(pose, size, color etc)
    Vision Transformer
    Object-centric representations
  • 언어와 다르게 visual은 의미가 있는 개체끼리 structured 되어있지 않다
  • 시각적 입력을 구별가능한 객체로 분리
    Object Scene Representation Transformer (OSRT)
  • 3D 표현을 unsupervised로 학습
    Entity referrals
  • 특수 토큰으로 객체 참조하게 함

Training Recipes

Variation with Model freezing

  • encoder, projector, LLM으로 구성
  • freezing LLM에 다른 모달 embedding 사용 가능하도록 연구
  • OSRT를 projector로 LLM에서 사용 가능하도록 해줌
    Co-training across tasks
  • 다양한 데이터에서 학습

Experiments

로봇 조작 작업에 대해 실험 진행(여러 단계의 계획 생성)

  • 성능이 좋다는 것이 골자이다.
    요약
  • co-training on the full mixture 진행
  • 로봇 데이터 부족을 해결하기 위해 transfer를 활용
  • 모델이 클수록 원래 언어 모델의 성능 유지

Conclusion

멀티모달 정보를 사전 학습된 LLM의 임베딩 공간에 inject.
PaLM-E는 시뮬레이션과 실제 세계에서 다양한 로봇을 제어하는 데 효과적일 뿐만 아니라 일반적인 VQA 및 캡션 작업에도 능숙

profile
그래도라

1개의 댓글

comment-user-thumbnail
2023년 3월 18일

정말 많은 도움이 되었네요~ 좋아요 누르고 갑니다!

답글 달기