Gemini 2.0: 구글의 최신 공개 모델 특징 정리 및 실사용 후기

jihyelee·2024년 12월 26일

up-to-date-ai

목록 보기

11/16

최근 Perplexity를 사용하면서 OpenAI와 Anthropic의 언어모델을 주로 활용했는데, 구글의 Gemini 2.0 성능이 꽤나 좋다는 리뷰를 보았다.
어떤 기능과 발전이 있었는지 정리해보고, 간단하게 사용해본 경험을 정리해보고자 한다.

멀티모달 지원
- 자연어, 이미지, 영상 input 및 output 처리 가능
- 텍스트와 섞인 이미지, TTS 다국어 음성 등 생성 가능
추론 능력 향상 (에이전트)
- 복잡한 주제, 몇 단계에 걸친 질문 등 해결 가능
- e.g. 수학 문제, 멀티모달 질문, 코딩 등

에이전트란, 세상을 이해하고 몇 단계에 걸친 추론을 거쳐 사용자 통제 하에 사용자 대신 행동을 선택하는 기능을 의미
- 최근 많은 AI의 목표 중 하나

Project Astra

멀티모달리티(이미지, 영상, 언어 등)를 활용해 실제 세상을 이해하는 에이전트
- e.g. 영상으로 특정 조형물을 찍으면서 해당 조형물의 정보를 물어볼 수 있음
발전된 기능들
- 다양한 억양 및 자주 사용하지 않는 단어 지원, 다국어 지원
- Google Search, Lens, Maps 연동 사용 가능
- 최대 10분동안의 지난 대화 기억 가능
- latency 향상

Project Mariner

Others

개인을 위한 AI 연구 어시스턴트
사용 방식
- 1. 사용자 질문 입력
- 1. AI가 몇 단계에 걸친 조사 계획을 생성
- 1. 사용자가 조사 계획을 허락 혹은 수정
- 1. 조사 계획을 바탕으로 AI가 웹에서 관련 정보를 찾고 분석
- 1. 핵심적인 발견에 대해 종합 분석 리포트를 생성 (관련 링크 포함)
더욱 진보된 추론 방식을 보여줌
긴 문맥도 처리할 수 있음 (long context)
- 긴 문맥을 처리할 수 있다는 건, 모델이 처리 가능한 input과 output의 길이가 길어져 모델에게 더 많은 정보를 제공하고, 더 정확한 답변을 얻을 수 있음을 시사함

비교한 모델들
- GPT-4o (OpenAI + Perplexity)
- Claude-3.5-Sonnet (Anthropic + Perplexity)
- Gemini 2.0 Flash Experimental
Perplexity가 포함되어 있다는 점에서 완전하게 공평한 비교가 아니며, 사용 예시가 제한적, 또한 비교군이 Gemini 2.0보다 훨씬 큰 모델 (향후 크기가 비슷한 여타 모델들과 비교 필요)
타 모델 대비 성능이 다소 아쉬웠으나, 수학적 추론이 뛰어난 점은 인상적임

프로그래머스의 2023 현대 모비스 알고리즘 > 집합과 쿼리 문제 (링크) - 난이도 5
- GPT-4o: 2문제 중 1개 정답
- Claude-3.5-Sonnet: 2문제 모두 틀림
- Gemini 2.0: Index Out of Range 오류 발생
프로그래머스의 PCCP 기출문제 > 4번 수식 복원하기 문제(링크) - 난이도 3
- GPT-4o: 5문제 중 5개 틀림
- Claude-3.5-Sonnet: 5문제 중 5개 틀림
- Gemini 2.0: "저는 언어 모델일 뿐이라서 그것을 도와드릴 수가 없습니다." 라고 답변

2016 수능 국어 문제 (링크)
- GPT-4o: 틀림 (2번 선택)
- Claude-3.5-Sonnet: 정답 (3번 선택)
- Gemini 2.0: 틀림 (2번 선택)
SAT 수학 문제 6번, 15번 (링크)
- GPT-4o: 틀림 (4/5), 정답 (D)
- Claude-3.5-Sonnet: 틀림 (0.75), 정답 (D)
- Gemini 2.0: 정답 (3/5), 정답 (D)

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

2025년 1월 3일

헐... GPT-4o가 저런 간단한 수학문제도 못풀어요...? 충격

답글 달기