대규모 언어 모델은 복잡한 작업을 수행할 수 있다고 입증되었습니다.
하지만 로봇 과제와 같은 실세계에서 일반적인 추론을 가능하게 하려면, 의미를 구체화하는 것이 도전과제가 됩니다.
우리는 실세계 연속 센서 모달리티를 언어 모델에 직접 통합함으로써 단어와 인식 사이의 연결을 설정하는 구현된 언어 모델을 제안합니다.
구현된 언어 모델의 입력은 시각, 연속 상태 추정, 텍스트 입력 인코딩을 교차하는 다중 모달 문장입니다.
우리는 이 인코딩을 사전 훈련된 대규모 언어 모델과 함께 종단 간으로 훈련시키고, 순차적 로봇 조작 계획, 시각 질문 응답, 캡셔닝을 포함한 여러 구현 작업에 적용합니다.
평가 결과, PaLM-E라는 단일 대형 구현된 다중 모달 모델은 다양한 관찰 모달리티에서 다양한 구현 작업에 대한 구현된 추론 작업을 처리할 수 있음을 보여주며, 긍정적인 전이를 보여줍니다.
즉, 인터넷 규모의 언어, 비전, 시각 언어 분야에서 다양한 공동 훈련을 통해 모델이 혜택을 얻을 수 있습니다.
가장 큰 모델인 PaLM-E-562B는 562B의 매개변수를 가지고 있으며, 로봇 작업에서 훈련되는 것 외에도 OK-VQA에서 최첨단 성능을 보이는 시각 언어 전문가로서 작동하며, 규모가 증가함에 따라 일반적인 언어 능력을 유지합니다.