
이전 Gemma2 모델과 차별적인 점은 총 4가지이며, 대표적으로 Tokenizer, Context Length, Attention 연산, Tool-call이 있습니다.
주요 특징:
Tokenizer

Context Length
Attention 연산

Tool-call 지원
결론적으로, Gemma3는 다국어 처리, 장문 입력 대응, 고효율 어텐션 구조, 그리고 외부 도구 호출 능력까지 갖춘 강력한 차세대 sLLM입니다.

사용한 패키지 버전
- torch == 2.5.0
- transformers == 4.50.1
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-4b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
Gemma3는 강력한 다국어 기능뿐 아니라, 멀티모달리티(시각적 이해)까지 지원합니다. 이를 통해 향후에는 소형 4B 모델을 기반으로 문서 이해 능력을 학습시켜 VLM 기반 RAG 시스템에서 Document Parser를 최적화하는 방식도 유효할 것입니다.
⚠️ 단, 1B 모델은 다국어 지원이 되지 않으므로 한국어 기반 작업을 수행하려면 4B 이상의 모델을 사용하는 것을 권장합니다.