Google Gemini(제미나이) 소개

이재호·2023년 12월 10일

0

1. Gemini

Google DeepMind에서 개발.
멀티모달 방식으로 구축된 범용 AI 모델.

멀티모달(multimodal)이란,
텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 일반화하고, 원활하게 이해하며, 여러 정보를 동시에 조합하여 활용할 수 있다는 뜻입니다.

Gemini 1.0 버전에는 크게 세 종류가 있음.
- Gemini Ultra : 매우 복잡한 작업을 위한 가장 크고 가장 뛰어난 모델.
- Gemini Pro : 광범위한 작업에 걸쳐 확장할 수 있는 최고의 모델.
- Gemini Nano : 온디바이스 작업을 위한 가장 효율적인 모델.
Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었으므로 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있음.
내년 초에는 구글 챗봇인 Bard에 Gemini Ultra를 적용시킬 예정이며, 현재는 Gemini Pro만 적용된 상태.

2. 벤치마크

ChatGPT와 비교하였을 때 여러 방면에서 좋은 성능을 보여줌.

3. 활용

1. 이미지 추론

2. 게임 제작

지도 이미지를 보여주고 게임 하나를 추천해달라고 얘기를 한 상황.

3. 물체 간의 연관성 찾기

4. 이미지 생성

5. 논리 및 공간 추론

4. Bard

구글에서 개발한 대화형 AI.
2023-12-07부터 Gemini Pro가 적용됨.
추후에 계속해서 멀티모달 기능을 구현할 예정.
ChatGPT와 달리 무료로 이미지 삽입 및 음성 인식 기능이 구현됨.

실제 예시

아직은 텍스트 생성만 가능하고, 이미지 및 음성과 같은 멀티모달 기능은 구현되지 않은 상태.

출처

공식 사이트 : https://deepmind.google/technologies/gemini/#introduction

소개 블로그 : https://blog.google/technology/ai/google-gemini-ai/?utm_source=gdm&utm_medium=referral#performance

유튜브 : https://www.youtube.com/watch?v=UIZAiXYceBI

천천히, 그리고 꾸준히.

이전 포스트

[데이터 엔지니어링 데브코스 2기] TIL-9주차-파트06 [프로젝트]데이터 웨어하우스를 이용한 대시보드 구성(5)

다음 포스트

[데이터 엔지니어링 데브코스 2기] TIL-10주차-파트02 데이터 파이프라인, Airflow(1)

0개의 댓글