🔗 관련 문서: Gemini API Rate Limits
모델 | 주요 특징 | 대표 벤치마크 | 속도 | 추론 가격 | 맥락 길이 |
---|---|---|---|---|---|
Gemini Flash | 초고속, 저렴, 100만 토큰 맥락 | MMLU 78.9%, MMMU 56.1% | ✅ 매우 빠름 | 💰 매우 저렴 | 🧠 1M 토큰 (소설 여러권) |
GPT-4o Mini | 최신 멀티모달, 균형 잡힌 성능 | MMLU 82.0%, HumanEval 87.2% | ✅ 빠름 | 💰 저렴 | 🧠 128K+ (소설 한권) |
Claude 3.5 Sonnet | 고급 reasoning 및 코드 특화 | MMLU 79~81%, HumanEval 92.0% | ⚠️ 보통 | 💰 상대적으로 비쌈 | 🧠 200K (소설 한권) |
여기서 "추론 가격"은 사용자가 지불하는 금액이 아니라, 모델 제공사(Google, OpenAI, Anthropic 등) 입장에서의 추론당 비용(Cost-per-Inference)을 의미합니다.
모델 | 🧠 MMLU (지식/추론) | 👨💻 HumanEval (코드) | 📸 MMMU (멀티모달) |
---|---|---|---|
Gemini Flash | 78.9% | 71.5% | 56.1% |
Claude 3.5 Sonnet | 79~81% | 92.0% | 54~58% |
GPT-4o Mini | 82.0% | 87.2% | 59.4% |
추천 용도: 대용량 문서 처리, 대화형 UI, 빠른 응답이 중요한 서비스
장점:
주의점:
추천 용도: 멀티모달 입력(텍스트+이미지), 실시간 서비스, 고성능이 필요한 웹앱
장점:
주의점:
추천 용도: 정교한 코드 생성, 복잡한 추론, 고신뢰 텍스트 작업
장점:
주의점:
목적 | 추천 모델 |
---|---|
대규모 맥락/속도/저비용 | 🔥 Gemini Flash |
멀티모달, 실용성과 속도 균형 | 🚀 GPT-4o Mini |
고급 reasoning/코드 정확도 | 🧠 Claude 3.5 Sonnet |
“가장 좋은 모델”은 없습니다. 업무 목적에 따라 최적의 LLM은 달라집니다.
Flash는 실시간과 대규모 데이터를,
Claude는 복잡하고 정밀한 업무를,
GPT-4o Mini는 멀티모달과 실용성을 겨냥합니다.