멀티모달 기반 프롬프팅을 통해 제로샷으로 구성
하여, 로봇 인식 및 계획
이미지를 분석하여 텍스트 모델에 전달
하고, 이를 바탕으로 적절한 캡션을 생성
인터넷 이미지에 대한 캡션을 생성하는 방법
비디오의 주요 순간들에 대한 캡션을 생성하는 과정
을 보여줍니다. 언어 조건부 로봇 정책
을 활용하여, 로봇이 자유형 인간 명령으로부터 계획을 파싱하고 생성하는 방법을 보여줍니다.언어 조건부 로봇 정책을 통해 로봇이 인간의 자유형 명령을 이해
하고, 이를 기반으로 복잡한 작업을 수행하는 과정을 시연
여러 대규모 사전 훈련된 모델 간의 구조화된 대화(즉, 프롬프팅)
를 통해 이미지 캡션 생성
, 비디오-텍스트 검색
, 자아 중심 인식
, 멀티모달 대화
, 로봇 인식 및 계획을 위한 시스템
은 SMs 프레임워크의 예시일 뿐이며,