멀티모달(multimodal)이란,
텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 일반화하고, 원활하게 이해하며, 여러 정보를 동시에 조합하여 활용할 수 있다는 뜻입니다.
Gemini 1.0 버전에는 크게 세 종류가 있음.
Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었으므로 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있음.
내년 초에는 구글 챗봇인 Bard에 Gemini Ultra를 적용시킬 예정이며, 현재는 Gemini Pro만 적용된 상태.
아직은 텍스트 생성만 가능하고, 이미지 및 음성과 같은 멀티모달 기능은 구현되지 않은 상태.