Gemini 2.0: 구글의 최신 공개 모델 특징 정리 및 실사용 후기

jihyelee·2024년 12월 26일
0

up-to-date-ai

목록 보기
11/13
post-thumbnail

들어가며

  • 최근 Perplexity를 사용하면서 OpenAI와 Anthropic의 언어모델을 주로 활용했는데, 구글의 Gemini 2.0 성능이 꽤나 좋다는 리뷰를 보았다.
  • 어떤 기능과 발전이 있었는지 정리해보고, 간단하게 사용해본 경험을 정리해보고자 한다.

Gemini 2.0 기능 정리

  • 시간이 없다면, 해당 동영상에 짧고 굵게 요약되어 있음

핵심 요약

  • 멀티모달 지원
    • 자연어, 이미지, 영상 input 및 output 처리 가능
    • 텍스트와 섞인 이미지, TTS 다국어 음성 등 생성 가능
  • 추론 능력 향상 (에이전트)
    • 복잡한 주제, 몇 단계에 걸친 질문 등 해결 가능
    • e.g. 수학 문제, 멀티모달 질문, 코딩 등

Agent

  • 에이전트란, 세상을 이해하고 몇 단계에 걸친 추론을 거쳐 사용자 통제 하에 사용자 대신 행동을 선택하는 기능을 의미
    • 최근 많은 AI의 목표 중 하나

Project Astra

  • 멀티모달리티(이미지, 영상, 언어 등)를 활용해 실제 세상을 이해하는 에이전트
    • e.g. 영상으로 특정 조형물을 찍으면서 해당 조형물의 정보를 물어볼 수 있음
  • 발전된 기능들
    • 다양한 억양 및 자주 사용하지 않는 단어 지원, 다국어 지원
    • Google Search, Lens, Maps 연동 사용 가능
    • 최대 10분동안의 지난 대화 기억 가능
    • latency 향상

Project Mariner

  • 복잡한 태스크를 달성하도록 도와주는 에이전트
  • 브라우저 화면에 존재하는 정보를 바탕으로 추론을 진행해 태스크를 완수할 수 있도록 함 (Chrome Extension)
  • e.g. 아티스트의 조사를 요청하고, 관련된 제품을 쇼핑하도록 함

Others

  • 이밖에도 게임, 코드 등 다양한 도메인에서의 활용을 목표로 함

Gemini Advanced (1.5 Pro) 최신 기능 정리

Deep Research

  • 개인을 위한 AI 연구 어시스턴트
  • 사용 방식
      1. 사용자 질문 입력
      1. AI가 몇 단계에 걸친 조사 계획을 생성
      1. 사용자가 조사 계획을 허락 혹은 수정
      1. 조사 계획을 바탕으로 AI가 웹에서 관련 정보를 찾고 분석
      1. 핵심적인 발견에 대해 종합 분석 리포트를 생성 (관련 링크 포함)
  • 더욱 진보된 추론 방식을 보여줌
  • 긴 문맥도 처리할 수 있음 (long context)
    • 긴 문맥을 처리할 수 있다는 건, 모델이 처리 가능한 input과 output의 길이가 길어져 모델에게 더 많은 정보를 제공하고, 더 정확한 답변을 얻을 수 있음을 시사함

Gemini 2.0 실사용 후기

  • 비교한 모델들
    • GPT-4o (OpenAI + Perplexity)
    • Claude-3.5-Sonnet (Anthropic + Perplexity)
    • Gemini 2.0 Flash Experimental
  • Perplexity가 포함되어 있다는 점에서 완전하게 공평한 비교가 아니며, 사용 예시가 제한적, 또한 비교군이 Gemini 2.0보다 훨씬 큰 모델 (향후 크기가 비슷한 여타 모델들과 비교 필요)
  • 타 모델 대비 성능이 다소 아쉬웠으나, 수학적 추론이 뛰어난 점은 인상적임

코딩

  • 프로그래머스의 2023 현대 모비스 알고리즘 > 집합과 쿼리 문제 (링크) - 난이도 5
    • GPT-4o: 2문제 중 1개 정답
    • Claude-3.5-Sonnet: 2문제 모두 틀림
    • Gemini 2.0: Index Out of Range 오류 발생
  • 프로그래머스의 PCCP 기출문제 > 4번 수식 복원하기 문제(링크) - 난이도 3
    • GPT-4o: 5문제 중 5개 틀림
    • Claude-3.5-Sonnet: 5문제 중 5개 틀림
    • Gemini 2.0: "저는 언어 모델일 뿐이라서 그것을 도와드릴 수가 없습니다." 라고 답변

추론

  • 2016 수능 국어 문제 (링크)
    • GPT-4o: 틀림 (2번 선택)
    • Claude-3.5-Sonnet: 정답 (3번 선택)
    • Gemini 2.0: 틀림 (2번 선택)
  • SAT 수학 문제 6번, 15번 (링크)
    • GPT-4o: 틀림 (4/5), 정답 (D)
    • Claude-3.5-Sonnet: 틀림 (0.75), 정답 (D)
    • Gemini 2.0: 정답 (3/5), 정답 (D)

참고 링크

  • Gemini 2.0 소개 구글 블로그 (링크)
  • Gemini Deep Research 소개 구글 블로그 (링크)
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

1개의 댓글

comment-user-thumbnail
2025년 1월 3일

헐... GPT-4o가 저런 간단한 수학문제도 못풀어요...? 충격

답글 달기