Claude 블로그 되짚어보기 #85 — Opus 4.6 + Finance, 시니어 분석가 2-3주 작업의 압축 (2026)

panicdev·2026년 4월 29일

원문 정보

  • 제목: Advancing finance with Claude Opus 4.6
  • 링크: claude.com/blog/opus-4-6-finance
  • 발행: 2026년 2월 5일 (Opus 4.6 출시일)
  • 카테고리: Claude Apps

글의 요지

Claude Opus 4.6의 finance 도메인 능력. 내부 "Real-World Finance" 벤치마크에서 Sonnet 4.5 대비 23%p 향상. Cowork + Claude in Excel + Claude in PowerPoint 업데이트. "2-3주 시니어 분석가 작업" → 분~시간.

Real-World Finance Benchmark

Anthropic 내부 평가:

  • ~50 use cases 측정
  • 투자뱅킹, PE, 공공 투자, 기업 재무
  • 스프레드시트, 슬라이드, 워드 문서 생성·검토
  • Opus 4.6 vs Sonnet 4.5 = +23%p

3가지 차원 — Search, Analyze, Create

1) Research

  • BrowseComp: 어려운 정보 찾기 (state-of-the-art)
  • DeepSearchQA: 큰 비구조 데이터 추출
  • 결과: "단순 요약 X, 구체·집중 답"

2) Analysis

  • Finance Agent (Vals AI): SEC 공시 분석 → 60.7% (Opus 4.5 대비 5.47% 향상)
  • TaxEval (Vals AI): 76.0% (state-of-the-art)
  • GDPval-AA: GPT-5.2보다 144 ELO 점수 우위 (~70% pairwise win)

3) Creation

  • 스프레드시트, 프레젠테이션 first-pass 품질 향상
  • "여러 번 수정" X, 첫 시도에 ready

사례 — Commercial Due Diligence

본문 인용:

"These are examples of Claude's first-pass performance on a commercial due diligence task (evaluating a potential acquisition)—the kind of work that would typically take a senior analyst two to three weeks to complete."

(잠재 인수 평가 = 시니어 분석가 2-3주 → Opus 4.6 first-pass)

고객 사례

Hebbia (Aabhas Sharma, CTO):

"With Claude Opus 4.6, creating financial PowerPoints that used to take hours now takes minutes. Tangible improvements in attention to detail, spatial layout, and content structuring."

Shortcut AI (Nico Christie, Co-Founder & CTO):

"The performance jump with Claude Opus 4.6 feels almost unbelievable. Real-world tasks that were challenging for Opus [4.5] suddenly became easy. This feels like a watershed moment for spreadsheet agents on Shortcut."

제품 업데이트

제품업데이트
Coworkfirst-pass 폴리시드 결과 (financial models, presentations)
Claude in Excellong-running task 안정성 (복잡 모델)
Claude in PowerPoint새 출시 (Max, Team, Enterprise)

1M Context Window

본문 강조:

  • Opus-class 모델 첫 1M context (beta)
  • 거대 financial document 한 번에
  • "context rot" 감소

Box Eval — 10% 향상

Box 자체 평가:

  • baseline 58% → 68% (10%p 향상)
  • 법률, 재무, 기술 콘텐츠 multi-source 분석
  • 기술 도메인 거의 perfect

2026년에 다시 읽으며 — 내가 본 것

1. "FactSet 10% 폭락"의 시장 시그널

본문 외 정보 (Sherwood News, 36kr):

  • 출시일 FactSet 10% 폭락
  • S&P Global, Moody's, Nasdaq 동시 하락
  • 법률 SaaS 주식도 같은 주에 폭락

이게 AI vs 전통 SaaS 시장 동학의 가시화:

  • AI가 "finance research" 능력
  • FactSet 같은 회사 = 직접 위협
  • 투자자가 "누가 disrupt 당하나?" 패닉

비교 — 이전 시기 패턴:

  • 2010s 클라우드: 거대 IT 회사 위협 (IBM)
  • 2020s SaaS: 온프레미스 위협 (Oracle)
  • 2026년 AI: SaaS 회사 위협

"AI = 차세대 disruption" 인식이 시장에 정착.

2. "23%p 향상"의 도메인 ROI

23%p 향상 = 거대 의미:

  • 50 task에서
  • 이전: 50% 정확
  • 새: 73% 정확
  • failure rate 절반 이하

이게 "AI 도구 가능 vs 불가능" 의 결정선이다:

  • 50% 정확 = "확인 비용 너무 큼"
  • 73% 정확 = "검토 가치 있음"
  • 90% 정확 (다음) = "거의 신뢰"

이 향상이 enterprise 도입 결정의 동력이다. 2-3주 작업이 시간으로 압축 가능 = 배포 결정 즉시.

3. "GDPval-AA: GPT-5.2 대비 144 ELO"의 정량 우위

ELO 144점 = pairwise win rate 70%.

이게 시장 차별의 명확한 데이터다:

  • 같은 task 100번
  • Claude가 70번 이김
  • GPT-5.2가 30번 이김

이전 모델 격차:

  • Opus 4.5 vs GPT-5.1: ELO 50-100
  • Opus 4.6 vs GPT-5.2: ELO 144
  • 격차 확대

이 정량 우위가 "OpenAI 추격" 인식을 "Anthropic 리딩" 인식으로 전환.

4. "Cowork 빌드 → Plugin 빌드 → 도메인 모델"의 시리즈

Anthropic의 "finance 시장 정복 시리즈":

  • 2026년 1월 12일: Cowork 출시
  • 1월 30일: Plugin 출시 (#84)
  • 2월 5일 (이 글): Opus 4.6 + finance 강화
    • Real-World Finance 벤치마크

"3박자" 가 의도적이다:
1. 인프라 (Cowork)
2. 확장성 (Plugins)
3. 모델 능력 (Opus 4.6)

각 단계가 다음 단계의 가치 증폭:

  • Cowork만: 일반 도구
    • Plugin: 직무 특화
    • Opus 4.6: 도메인 깊이

5. "Hebbia, Shortcut" 사례 의 startup ecosystem

이 글이 인용한 회사들:

  • Hebbia: Document AI for finance ($130M Series B)
  • Shortcut AI: Spreadsheet agents
  • Box: Enterprise content
  • FactSet, S&P: 위협 받는 incumbent

이게 "AI on Anthropic" startup 생태계의 시그널:

  • 신생: Claude 위에서 빌드 → 자기 영역 정복
  • Incumbent: AI 통합 강제 → 일부 흡수, 일부 죽음

미래 패턴:

  • 모든 vertical에 "AI-first startup"
  • Claude/OpenAI 위에서 빌드
  • 거대 SaaS 시장 redistribute

6. "16 agents → C compiler 100K 줄" 의 stress test

본문 외 사례 (36kr 인용) — Nicholas Carlini의 stress test:

  • 16 Claude agents 병렬
  • 2주, 2,000 Claude Code 세션
  • 20억 input tokens + 1.4억 output tokens
  • 총 비용 < $20,000
  • 결과: 100K 줄 C compiler, x86/ARM/RISC-V 지원, Linux 6.9 컴파일

이 stress test가 "agentic coding 한계 어디?" 의 답이다:

  • 거대 시스템 프로그래밍 = 가능
  • 비용 efficiency 거대
  • 인간 1명 1년 작업 = $200K
  • AI 16 agents 2주 = $20K
  • 10배 절약

7. "Excel + PowerPoint" 의 distribution

이 글의 디테일 — Claude가 Microsoft 도구 안에 직접:

  • Excel add-in
  • PowerPoint add-in
  • 사용자가 Claude 앱 안 가도 됨

이게 Microsoft 시장의 침투:

  • M365 = enterprise productivity OS
  • Microsoft Copilot = 기본 AI
  • Claude가 Copilot 옆에

사용자 입장:

  • "Microsoft 사용 강제 X" → Claude 선택 가능
  • 직장에서 Claude 자연스러움
  • ChatGPT 우회 가능

이게 "distribution = 표준" 의 정석이다.

8. "Microsoft Foundry" 의 가용성

본문 외 정보 — Opus 4.6 출시 시 동시 가용:

  • Anthropic 자체 (claude.ai, API)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry
  • 모든 거대 클라우드

"3 클라우드 동시 가용" 의 의미:

  • enterprise가 "우리 클라우드" 선택 가능
  • vendor lock-in 회피
  • Anthropic이 클라우드 중립

비교 — OpenAI:

  • 주로 Azure 중심
  • AWS, GCP는 부분
  • "Microsoft 종속" 인식

Anthropic:

  • 모든 클라우드 평등
  • enterprise CIO 선호
  • vendor 독립성

마무리

이 글은 "Opus 4.6 finance 능력" 같지만, 실제로는 financial services 시장의 disruption 선언이다.

  • 23%p Real-World Finance: 도메인 ROI 향상
  • FactSet 10% 폭락: 시장 disruption 가시화
  • 144 ELO vs GPT-5.2: 정량 우위 굳힘
  • 2-3주 → 분/시간: 시니어 분석가 작업 압축
  • 3박자 (Cowork + Plugins + Model): 시리즈 전략
  • AI startup 생태계: vertical disruption
  • 16 agents → 100K 줄 컴파일러: scale 검증
  • 3 클라우드 가용: vendor 중립

2026년 2월 5일 시점은 "AI가 finance 도와줌" 인식이 "AI가 finance 직무 일부 대체" 로 전환된 시점이다.

흥미로운 건 이 글이 #54 (Financial Services Industry)모델 차원 후속이라는 점이다:

  • #54: 산업 특화 솔루션 (인프라)
  • #84: Plugins (확장성)
  • #85 (이 글): Opus 4.6 (모델)

각 글이 같은 시장 (finance)에 다른 각도. 이 다층 마케팅이 enterprise 깊이 침투의 정석이다.

핵심 깨달음 — "AI가 finance disrupt" 가 진짜 시작:

  • Bank teller (전통): 사라짐
  • Bank analyst (이전): 안전
  • Bank analyst (지금): 위협

미래 5년 finance industry:

  • 같은 인력으로 5x 결과 (대부분)
  • 또는 1/5 인력으로 같은 결과 (일부)
  • "junior analyst" 직무 위협
  • "senior analyst + AI" 우위

"AI 시대 직무 재편" 이 모든 산업으로 확산. Finance가 첫 번째 도미노. 다음은 legal (#69), medical, consulting, ...

0개의 댓글