[Model Review] Gemma3

nebchi·2025년 5월 20일

LLM

Gemma3

google에서 3월 12일 최첨단 LLM 모델 gemma3를 발표 했습니다.
모델의 파리미터는 1B, 4B, 12B, 27B으로 가지는데, 이번에는 멀티모달리티 도입하여 시각적인 이해를 할 수 있는게 이전 Gemma2와 비교해서 큰 차이점 입니다.

모델 아키텍처

이전 Gemma2 모델과 차별적인 점은 총 4가지이며, 대표적으로 Tokenizer, Context Length, Attention 연산, Tool-call이 있습니다.
주요 특징:
1. Tokenizer
  - 기존에는 256k의 토큰을 가지고 있어 다른 sLLM에 비해 뛰어난 다국어 이해 능력을 보였으며, 이번 Gemma3에서는 262k 토큰을 학습하여 다국어 지원을 더욱 강화했습니다.
2. Context Length
  - 기존 Gemma2는 8k context length로 제한되어 있어,RAG와 같은 검색 기반 시스템에서 Top-k 검색 길이에 한계가 있었습니다. 반면, Gemma3는 128k 컨텍스트 길이를 채택하여 장문 입력 처리 성능이 크게 향상되었습니다.
3. Attention 연산
  - 기존 Gemma2는 글로벌과 로컬 어텐션을 1:1 비율로 수행해 모든 단어 또는 일부 단어에 대해 주기적으로 어텐션을 적용했습니다. Gemma3는 1k 길이 기준 5회 로컬 + 1회 글로벌 어텐션 구조로 성능과 효율성을 모두 개선하였습니다.
4. Tool-call 지원
  - Gemma3는 다른 최신 sLLM들과 마찬가지로 Tool-call 기능을 기본 지원합니다. 이를 통해 외부 API 또는 계산 도구 호출이 가능하며, 에이전트 RAG 구조나 복합 Task 수행에 더욱 유리합니다.
결론적으로, Gemma3는 다국어 처리, 장문 입력 대응, 고효율 어텐션 구조, 그리고 외부 도구 호출 능력까지 갖춘 강력한 차세대 sLLM입니다.

BenchMark

Gemma 3의 새로운 사후 학습 레시피(Post-training Recipe)는 수학, 채팅, 명령어 추종, 다국어 능력에서 상당한 개선을 가져왔습니다. 이러한 특정 영역에서의 개선은 주요 애플리케이션 분야에서 모델의 성능을 향상시키기 위한 사후 학습 단계에서의 집중적인 노력을 시사합니다.
위 벤치마크를 통해 Gemma3는 Reasoning 모델이 아니지만, 추론형 모델에 비해서도 성능이 매우 훌륭한 편이고, 다른 100B이상 모델과 비교해도 높은 성능을 발휘하는데, 이것은 Google의 Knowledge Distillation이 효과적으로 수행되었음을 확인할 수 있습니다.

Gemma3 사용해보기

사용한 패키지 버전

torch == 2.5.0

transformers == 4.50.1

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])

Gemma3는 강력한 다국어 기능뿐 아니라, 멀티모달리티(시각적 이해)까지 지원합니다. 이를 통해 향후에는 소형 4B 모델을 기반으로 문서 이해 능력을 학습시켜 VLM 기반 RAG 시스템에서 Document Parser를 최적화하는 방식도 유효할 것입니다.
⚠️ 단, 1B 모델은 다국어 지원이 되지 않으므로 한국어 기반 작업을 수행하려면 4B 이상의 모델을 사용하는 것을 권장합니다.

nebchi

NLP Developer

이전 포스트

[간단 논문 리뷰] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

다음 포스트

[Model Review] Gemma3

Gemma3

모델 아키텍처

BenchMark

Gemma3 사용해보기

[간단 논문 리뷰] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

AI 에이전트와 Agentic AI의 차이

0개의 댓글