안녕하세요, 전민오입니다.
2월 5일, Anthropic이 Claude Opus 4.6을 발표했어요. 타임라인이 난리가 났죠.
"1M 토큰이요?" "Agent Teams가 뭐예요?" "GPT-5.2 이겼다고요?"
정보가 쏟아지는데, 정작 개발자 입장에서 뭐가 중요한지 정리된 글은 찾기 어려웠어요. 그래서 공식 발표와 벤치마크 데이터를 직접 파헤쳐봤습니다.
더 오래, 더 넓게, 더 깊이 생각하는 모델.
Opus 4.6의 핵심은 세 가지예요.
하나씩 뜯어볼게요.
이게 가장 체감이 큰 변화예요.
| 토큰 수 | 대략적인 크기 |
|---|---|
| 200K (기존) | 코드 파일 약 50~100개 |
| 1M (신규) | 코드 파일 약 250~500개 |
대규모 코드베이스를 통째로 넣을 수 있다는 뜻이에요. 마이그레이션이나 리팩토링 같은 작업에서 진짜 차이가 납니다.
단, 아직 베타예요. API usage tier 4 이상 조직에서만 활성화할 수 있어요. 그리고 Opus 4.6만의 특권은 아닌데, Sonnet 4.5와 Sonnet 4도 1M 컨텍스트를 지원해요(역시 베타).
"토큰 수만 늘리면 뭐해, 뒤에 있는 정보는 까먹는데" — 맞는 걱정이에요. 기존 모델들은 컨텍스트가 길어질수록 성능이 떨어지는 문제가 있었죠.
Opus 4.6은 여기서 확실한 차이를 보여줬어요. MRCR v2 벤치마크(1M 토큰 안에서 숨겨진 정보를 찾는 테스트)에서:
| 모델 | 점수 |
|---|---|
| Opus 4.6 | 76% |
| Sonnet 4.5 | 18.5% |
4배 넘는 차이예요. 1M 토큰을 넣었을 때, 진짜로 전체를 이해하고 있다는 뜻이에요.
여기서 주의할 점이 있어요.
| 프롬프트 크기 | 입력 | 출력 |
|---|---|---|
| 200K 이하 | $5/M 토큰 | $25/M 토큰 |
| 200K 초과 | $10/M 토큰 | $37.50/M 토큰 |
200K를 넘으면 프리미엄 가격이 적용돼요. 1M 토큰을 풀로 쓰면 비용이 꽤 나올 수 있으니, 필요한 만큼만 넣는 전략이 중요해요.
이게 가장 흥미로운 기능이에요.
기존에는 하나의 에이전트가 순차적으로 작업을 처리했어요. Agent Teams는 여러 에이전트가 동시에 작업을 나눠서 하는 기능이에요.
기존 방식:
에이전트 → 작업1 → 작업2 → 작업3 → 완료
Agent Teams:
리드 에이전트 → 작업 분배
├── 에이전트A → 작업1 → 완료
├── 에이전트B → 작업2 → 완료
└── 에이전트C → 작업3 → 완료
리드 에이전트 → 결과 취합 → 완료
Claude Code에서 환경변수 하나면 돼요:
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
각 에이전트가 별도로 과금돼요. 3개 에이전트를 띄우면 토큰 비용도 약 3배. 간단한 작업에는 오히려 비효율적일 수 있어요.
말로만 "좋아졌다"고 하면 안 되겠죠. 숫자를 봅시다.
이 벤치마크는 추상적 추론 능력을 측정해요. 패턴을 찾고, 규칙을 추론하는 능력이죠.
| 모델 | 점수 |
|---|---|
| Opus 4.6 | 68.8% |
| GPT-5.2 | 54.2% |
| Gemini 3 Pro | 45.1% |
| Opus 4.5 | 37.6% |
전작(Opus 4.5)에서 거의 2배 가까이 뛰었어요. 이건 단순 개선이 아니라 질적 변화예요.
에이전틱 코딩 능력을 평가하는 벤치마크에서 역대 최고 점수를 기록했어요.
| 모델 | 점수 |
|---|---|
| Opus 4.6 | 65.4% |
| Opus 4.5 | 59.8% |
금융, 법률, 컨설팅 등 실제 업무 환경에서의 성능을 측정하는 벤치마크예요.
| 모델 | Elo 점수 |
|---|---|
| Opus 4.6 | 1,606 |
| GPT-5.2 | 1,462 |
| Opus 4.5 | 1,416 |
GPT-5.2보다 144 Elo 포인트 높아요. 이건 약 70%의 확률로 더 좋은 결과를 낸다는 뜻이에요.
AI가 실제 컴퓨터를 조작하는 능력을 측정해요.
| 모델 | 점수 |
|---|---|
| Opus 4.6 | 72.7% |
| Opus 4.5 | 66.3% |
| 모델 | 점수 |
|---|---|
| Opus 4.6 | 90.2% |
40%의 문제에서 만점을 받았고, 84%의 문제에서 0.8점 이상을 기록했어요.
물리학, 수학, 철학 등 여러 분야를 넘나드는 초고난도 문제 세트예요. Opus 4.6이 전 프론티어 모델 중 최고 점수를 기록했어요.
인터넷에서 찾기 어려운 정보를 에이전틱하게 탐색하는 능력을 측정하는 벤치마크인데, 여기서도 SOTA(State-of-the-Art)를 달성했어요.
입력만 늘어난 게 아니에요. 한 번에 출력할 수 있는 토큰도 128K로 늘어났어요. 긴 코드나 문서를 한 번에 생성할 수 있죠.
Anthropic이 Adaptive Thinking이라고 부르는 기능이에요. Opus 4.6은 언제 깊이 생각해야 하고, 언제 빠르게 답해야 하는지 스스로 판단할 수 있어요. 단순한 질문에 과도하게 시간을 쓰지 않고, 복잡한 문제에는 충분히 고민하죠.
API에서는 Effort Levels(low / medium / high / max)로 이걸 직접 조절할 수도 있어요. 비용이 걱정되면 low로, 정확도가 중요하면 max로 설정하면 돼요.
리서치 프리뷰 단계지만, Claude가 슬라이드를 직접 만들 수 있어요. 레이아웃, 폰트까지 읽어서 기업 템플릿에 맞춰 생성해줘요.
| 플랫폼 | 모델 ID |
|---|---|
| Claude API | claude-opus-4-6 |
| claude.ai | 사용 가능 |
| AWS Bedrock | 사용 가능 |
| Google Vertex AI | 사용 가능 |
| Azure Foundry | 사용 가능 |
| GitHub Copilot | 사용 가능 |
200K 토큰일 때는 "이 파일과 관련된 파일 몇 개만 봐줘"라고 해야 했어요. 1M 토큰이면 중간 규모 프로젝트의 코드 전체를 한 번에 이해할 수 있어요.
Anthropic 공식 발표에서 "시니어 엔지니어처럼 대규모 다중 파일 코드베이스 마이그레이션을 처리한다"고 했어요. 버전 업그레이드, 프레임워크 전환 같은 작업에서 진짜 도움이 될 수 있겠죠.
Terminal-Bench 2.0에서 역대 최고점을 기록한 건, 복잡한 버그를 진단하는 능력이 올랐다는 뜻이에요. 특히 여러 파일에 걸쳐 있는 버그를 추적하는 데 강해졌어요.
1M 토큰을 풀로 쓰면 비용이 꽤 나와요. 200K 초과 시 프리미엄 가격이 적용되니까, 무작정 긴 컨텍스트를 넣는 건 비효율적이에요.
환경변수로 활성화하는 것에서 알 수 있듯이, 아직 실험적인 기능이에요. 프로덕션에 바로 적용하기보다는 내부 도구나 개발 환경에서 먼저 써보는 걸 추천해요.
간단한 코드 생성이나 단순 질문은 Sonnet 4.5로 충분해요. Opus 4.6은 복잡한 추론, 대규모 코드베이스, 장시간 에이전틱 작업에서 빛을 발해요.
Claude Opus 4.6은 단순한 업그레이드가 아니에요.
1M 토큰 컨텍스트로 전체 코드베이스를 한 번에 이해할 수 있고, Agent Teams로 복잡한 작업을 병렬 처리할 수 있고, 향상된 추론 능력으로 진짜 어려운 문제를 풀 수 있어요.
ARC-AGI-2에서 전작 대비 거의 2배(37.6% → 68.8%)라는 숫자가 이걸 증명하죠.
물론 가격이나 Agent Teams의 성숙도 같은 현실적인 고려사항은 있어요. 하지만 방향성은 명확해요. AI가 "코드 좀 완성해주는 도구"에서 "함께 일하는 동료"로 진화하고 있다는 거죠.
한번 직접 써보세요. 특히 대규모 프로젝트를 다루고 있다면, 체감이 확실히 다를 거예요.
참고 자료
sonnet 5 가 기대 되네요