Google Gemini(제미나이) 소개

이재호·2023년 12월 10일
0

1. Gemini


  • Google DeepMind에서 개발.
  • 멀티모달 방식으로 구축된 범용 AI 모델.

멀티모달(multimodal)이란,
텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 일반화하고, 원활하게 이해하며, 여러 정보를 동시에 조합하여 활용할 수 있다는 뜻입니다.

  • Gemini 1.0 버전에는 크게 세 종류가 있음.

    • Gemini Ultra : 매우 복잡한 작업을 위한 가장 크고 가장 뛰어난 모델.
    • Gemini Pro : 광범위한 작업에 걸쳐 확장할 수 있는 최고의 모델.
    • Gemini Nano : 온디바이스 작업을 위한 가장 효율적인 모델.
  • Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었으므로 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있음.

  • 내년 초에는 구글 챗봇인 Bard에 Gemini Ultra를 적용시킬 예정이며, 현재는 Gemini Pro만 적용된 상태.


2. 벤치마크


  • ChatGPT와 비교하였을 때 여러 방면에서 좋은 성능을 보여줌.

3. 활용

1. 이미지 추론




2. 게임 제작


  • 지도 이미지를 보여주고 게임 하나를 추천해달라고 얘기를 한 상황.

3. 물체 간의 연관성 찾기


4. 이미지 생성


5. 논리 및 공간 추론



4. Bard


  • 구글에서 개발한 대화형 AI.
  • 2023-12-07부터 Gemini Pro가 적용됨.
  • 추후에 계속해서 멀티모달 기능을 구현할 예정.
  • ChatGPT와 달리 무료로 이미지 삽입 및 음성 인식 기능이 구현됨.

실제 예시


아직은 텍스트 생성만 가능하고, 이미지 및 음성과 같은 멀티모달 기능은 구현되지 않은 상태.


출처

profile
천천히, 그리고 꾸준히.

0개의 댓글