PaLM-E: An Embodied Multimodal Language Model

FSA·2023년 3월 22일
0

Large Language model

목록 보기
3/11
  • 업로드중..

Abstact

  • 대규모 언어 모델은 복잡한 작업을 수행할 수 있다고 입증되었습니다.

  • 하지만 로봇 과제와 같은 실세계에서 일반적인 추론을 가능하게 하려면, 의미를 구체화하는 것이 도전과제가 됩니다.

  • 우리는 실세계 연속 센서 모달리티를 언어 모델에 직접 통합함으로써 단어와 인식 사이의 연결을 설정하는 구현된 언어 모델을 제안합니다.

  • 구현된 언어 모델의 입력은 시각, 연속 상태 추정, 텍스트 입력 인코딩을 교차하는 다중 모달 문장입니다.

  • 우리는 이 인코딩을 사전 훈련된 대규모 언어 모델과 함께 종단 간으로 훈련시키고, 순차적 로봇 조작 계획, 시각 질문 응답, 캡셔닝을 포함한 여러 구현 작업에 적용합니다.

  • 평가 결과, PaLM-E라는 단일 대형 구현된 다중 모달 모델은 다양한 관찰 모달리티에서 다양한 구현 작업에 대한 구현된 추론 작업을 처리할 수 있음을 보여주며, 긍정적인 전이를 보여줍니다.

  • 즉, 인터넷 규모의 언어, 비전, 시각 언어 분야에서 다양한 공동 훈련을 통해 모델이 혜택을 얻을 수 있습니다.

  • 가장 큰 모델인 PaLM-E-562B는 562B의 매개변수를 가지고 있으며, 로봇 작업에서 훈련되는 것 외에도 OK-VQA에서 최첨단 성능을 보이는 시각 언어 전문가로서 작동하며, 규모가 증가함에 따라 일반적인 언어 능력을 유지합니다.

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글