한 줄 요약: 최근 공개된 코딩 전용 벤치마크 결과와 가격·속도·맥락창(컨텍스트 윈도)·IDE 연동성을 종합하면 순수 ‘코딩 성능’만 놓고 볼 때는 Claude 3.7 Sonnet ≈ Grok 2 ≳ Gemini 2.5 Pro ≫ GPT-4o mini 순으로 우세합니다. 다만 비용·응답속도·프로젝트 규모 등에 따라 최적 선택이 달라지므로, 아래 세부 비교를 보고 Cursor AI 안에서 상황별로 섞어 쓰는 전략을 권장합니다.
| 모델 | HumanEval pass\@1 | SWE-bench Verified | LiveCodeBench | 비고 |
|---|---|---|---|---|
| Claude 3.7 Sonnet | 84 – 85 % | 62.3 % (70.3 %* scaffold) (datacamp.com, blog.cnbang.net) | 75 %⁺ | “Claude Code” CLI 지원 (anthropic.com) |
| Grok 2 | 88.4 % (mini 85.7 %) (x.ai) | — | — | 실험용 “sus-column-r”로 LMSYS 1위권 (x.ai) |
| Gemini 2.5 Pro | ~70 % (LiveCodeBench 70.4 %) (fastcompany.com) | 63.8 % (blog.google) | 68.6 % (Aider Polyglot) (maginative.com) | 100만 토큰 컨텍스트 (deepmind.google) |
| GPT-4o mini | 87.2 % (openai.com) | 33 % (with agent scaffold) (openai.com) | — | 속도·가격 최저 (community.openai.com) |
*Anthropic가 공개한 커스텀 Scaffold 사용 시.
⁺LiveCodeBench 커뮤니티 평가치.
| 모델 | 입력/출력 단가(USD, 1M 토큰) | 맥락창 | 속도·특징 |
|---|---|---|---|
| Claude 3.7 Sonnet | $3 / $15 (anthropic.com) | 200 K | ‘Extended Thinking’로 느리지만 장고(長考) 가능 |
| Grok 2 | $2 / $10 (x.ai) | 128 K (β) (x.ai) | 실시간 X(트위터) 검색 API 연동 |
| Gemini 2.5 Pro | “쿼리 10k/일 무료, 이후 $35/1k” (Vertex AI) (cloud.google.com) | 1 M | 멀티모달·1M 토큰, 검색 Grounding 비용 주의 |
| GPT-4o mini | $0.15 / $0.60 (community.openai.com) | 128 K | 3.5 Turbo보다 60 % 저가, 배치 API 50 % 할인 (community.openai.com) |
cursor.labs("claude-sonnet-3.7")처럼 장고 모드를 켜면 “extended-thinking”으로 장시간 추론을 허용합니다.| 상황 | 추천 1순위 | 보조 옵션 |
|---|---|---|
| ✅ 복잡한 버그 수정 | Claude 3.7 Sonnet | Grok 2 |
| 💸 최저 비용·고속 제너레이션 | GPT-4o mini | Gemini 2.5 Flash (경량) |
| 📚 초대형 코드베이스·문서 포함 | Gemini 2.5 Pro | Claude 3.7 (200 K) |
| 📰 최신 라이브러리·트렌드 반영 | Grok 2 | GPT-4o mini (Bing search plug-in) |
Tip: Cursor AI는 프로젝트별로 모델을 지정할 수 있으니, “대규모 리팩터링 → Claude”, “짧은 완성 → GPT-4o mini” 처럼 멀티 모델 워크플로를 구성하면 비용 대비 성능을 극대화할 수 있습니다.