원문 정보
글의 요지
Claude 능력 활용 가이드 — 모델 능력은 "grown", "built" X. 따라서 harness가 가정. 모델 진화 시 가정 = stale. 3 패턴: ① Claude가 이미 아는 것 사용, ② 무엇을 멈출 수 있는지 묻기, ③ agent harness 경계 신중히 설정. "BrowseComp 45.3% → 61.6%" — Claude가 자기 도구 결과 필터하면 정확도 ↑.
핵심 원칙 — Claude는 "grown"
본문 인용 (Chris Olah, Anthropic 공동 창업자):
"Generative AI systems like Claude are grown more than they are built. Researchers set the conditions to direct growth, but the exact structure or capabilities that emerge aren't always predictable."
(Claude는 "grown" — 빌드된 X. 연구자가 조건 설정 but 정확한 구조·능력 = 예측 불가)
도전:
- agent harness = Claude가 "못 한다" 가정 인코딩
- 그 가정 = 모델 진화 시 stale
- 자주 재방문 필요
3 패턴
패턴 1: Claude가 이미 아는 것 사용
본문 강조:
- 예전 모델: 도구로 보정
- 새 모델: 그 도구 불필요
- 매번 평가
사례 — Sonnet 4.5의 "context anxiety":
- 컨텍스트 한도 다가오면 task 조기 종료
- harness에 "context reset" 추가
- 그러나 Opus 4.5에서 사라짐
- harness 단순화
패턴 2: 무엇을 멈출 수 있는지 묻기
본문이 강조한 가정:
"A common assumption is that every tool result should flow back through Claude's context window to inform the next action. Processing tool results in tokens can be slow, costly, and unnecessary."
(모든 도구 결과가 컨텍스트로 다시 흘러야 한다는 가정. token 처리 = 느림, 비용, 불필요)
해결 — Code Execution Tool:
- Claude가 도구 호출 + 로직을 코드로 표현
- 코드 실행 결과만 컨텍스트에 진입
- orchestration 결정 = harness X, 모델 O
측정 결과:
"On BrowseComp, a benchmark that tests the ability of agents to browse the web, giving Opus 4.6 the ability to filter its own tool outputs brought accuracy from 45.3% to 61.6%."
(Opus 4.6에 자기 도구 출력 필터 능력 부여 → BrowseComp 45.3% → 61.6%)
이게 #88 (Web Search Dynamic Filtering) 의 깊은 의미.
패턴 3: Agent Harness 경계 신중히
본문 강조:
- harness = Claude가 무엇을 "하지 못 한다" 가정
- 너무 많은 도구 = 컨텍스트 노이즈
- 너무 적은 도구 = 능력 제한
균형:
- Tool = observability (구조화 인자, 로그 가능)
- Tool = security boundary (auto-mode가 bash 검토)
- Tool 진화 = 매 모델 버전 재평가
사례 — Auto Mode (#102 글):
- bash 도구 보안 boundary
- 두 번째 Claude가 명령 검토
- "전용 도구 필요성 ↓"
본문 후속 (engineering blog):
"Harnesses encode assumptions that go stale as models improve. Managed Agents—our hosted service for long-horizon agent work—is built around interfaces that stay stable as harnesses change."
(harness 가정 = stale. Managed Agents: 인터페이스가 stable, harness 변화 가능)
비유:
- OS abstraction (process, file)
- 디스크 1970s → SSD 2026
- read() 같은 인터페이스
- abstraction이 implementation을 살아남음
Managed Agents:
- Brain (Claude)
- Hands (tools/sandboxes)
- 분리 + 재결합 가능
- "many brains, many hands"
2026년에 다시 읽으며 — 내가 본 것
1. "Grown vs Built" 의 패러다임 변화
이 글의 가장 깊은 통찰 — AI는 "grown".
전통 SW:
- 명확 spec
- 정확한 구현
- 결과 = 예측 가능
- "built"
AI 모델:
- 학습 데이터 + 알고리즘 = 조건
- 능력 = emergent
- 예측 불가
- "grown"
비유:
- 시리얼 vs garden
- 시리얼 = 같은 결과 (built)
- garden = 자라는 식물 (grown)
- 매년 다름
이 패러다임 변화의 함의:
- "AI 사용 = 정원 가꾸기"
- 매번 같지 않음
- 변화에 적응
2. "Stale Assumptions" 의 SW engineering 도전
전통 SW:
- 한 번 빌드 = 영원 (대략)
- 의존성 업그레이드 신중
- 변경 위험
AI 시스템:
- 매 모델 = 새 능력
- 옛 가정 = 폐기
- "매 분기 재평가"
이게 AI 시대 SW engineering의 핵심 도전:
- 안정성 + 진화의 균형
- 기존 시스템 = 적응 필요
- 새 직무 (#100 글의 PM 변화)
이 글이 강조한 패턴:
- 모든 도구 결과 → 컨텍스트
- 비용 ↑ + 속도 ↓ + 노이즈 ↑
새:
- Claude가 코드 작성
- 코드가 도구 호출 + 필터
- 결과만 컨텍스트
- 비용 ↓ + 속도 ↑ + 정확도 ↑
이게 "AI engineering의 새 원칙":
- 모든 데이터 = AI 처리 X
- "AI가 코드 작성 → 데이터 처리"
- 코드 = 중간 layer
비교 — #88 글 (Dynamic Filtering):
- 같은 패턴
- production 적용
- 정량 측정 (45.3% → 61.6%)
이 글 = 그 패턴의 일반 원칙.
4. "BrowseComp 16.3pp 향상" 의 정량 증명
데이터:
- Opus 4.6 BrowseComp: 45.3%
- Code execution filter: 61.6%
- +16.3pp = 36% 상대 향상
이게 "코드 = AI 능력 증폭기" 의 정확한 측정:
비교 — 다른 향상 source:
- 더 큰 모델: ~5-10pp
- 더 많은 데이터: ~3-5pp
- 패턴 변경 (코드): 16.3pp
이게 "engineering > 모델" 시그널:
- 모델만 업그레이드 X
- 사용 패턴이 더 중요
- 같은 모델 더 잘 사용
5. "Many Brains, Many Hands" 의 architecture
Managed Agents 디자인:
- Brain (Claude) ↔ Hands (tools)
- 분리
- 재결합
이전:
- 하나의 컨테이너
- Brain + Hand 결합
- 한 곳 실패 = 모든 것 실패
새:
- Brain 여러 개 (다른 task)
- Hand 여러 개 (다른 도구)
- 각자 독립
- 자유 결합
이게 "distributed AI architecture" 의 정석:
- microservice 패턴 적용
- AI 시스템 동일
- 거대 + 안정
6. "OS Virtualization 비유" 의 깊이
본문 비유:
- OS abstraction: process, file
- 1970s 디스크 → 2026 SSD
- read() = 같은 인터페이스
- abstraction이 hardware 살아남음
Managed Agents:
- Brain abstraction
- Hand abstraction
- 어떤 모델이든
- 어떤 sandbox든
이게 "AI 인프라의 표준 정의자":
- Anthropic = AI OS 디자이너
- 다른 회사 = 그 위에 빌드
- 표준 정복
비교 — Linux (1991):
- 표준 OS
- 다른 application 그 위에
- 30년 지속
Managed Agents = AI 시대 같은 위치 시도.
본문 인용:
"Claude Code's auto-mode... provides a security boundary around the bash tool: it has a second Claude read the command string and judge whether it's safe. This pattern can limit the need for dedicated tools."
(Auto Mode = bash 보안 boundary. 전용 도구 필요성 ↓)
이게 "Claude → Claude" 패턴의 정확한 사례:
- 전통: 보안 = 별도 도구
- 새: Claude가 Claude 검토
- 단순화
비교 — IT 보안:
- 별도 firewall
- 별도 IDS
- 다중 layer
새:
- AI = adaptive 보안
- 하나의 시스템
- 다목적
8. "Frequent Re-testing" 의 새 SW practice
본문 결론:
"The frontier of Claude's intelligence is always changing. Assumptions about what Claude can't do need to be re-tested with each step change in its capability."
(Claude 능력 frontier 변화. "Claude 못한다" 가정 = 재테스트 필요)
이게 "AI engineering 일상의 새 practice":
- 매 모델 출시 = 시스템 평가
- 옛 hack 제거
- 새 능력 활용
비교 — 전통 SW:
- 라이브러리 업그레이드 (마이너)
- 기능 비슷
- 평가 적음
AI:
- 모델 업그레이드 (메이저)
- 기능 거대 변화
- 모든 가정 재평가
이 "끊임없는 재평가" 가 AI engineering의 새 일상.
9. "Sonnet 4.5 vs Opus 4.5 Context Anxiety" 의 사례
본문 사례:
- Sonnet 4.5: context 한도 다가오면 조기 종료 ("context anxiety")
- harness에 reset 추가
- Opus 4.5: 행동 사라짐
- harness 단순화 가능
이게 "AI 행동의 personality" 시그널:
- 다른 모델 = 다른 행동
- 같은 가정 X
- 각 모델 행동 평가
비교 — 인간 직원:
- 새 직원 = 신중
- 경험자 = 자신
- 같은 task 다른 행동
AI도 같음. 각 버전이 다른 "성격" .
10. "Harness as Crutch" 의 흥미로운 시각
이 글의 함의:
- harness = 모델 한계 보정
- 모델 ↑ = harness ↓
- 이상적: harness 없음
이게 "AI evolution" 의 명확 측정:
- 처음: 거대 harness (모델 약)
- 중기: 중간 harness
- 미래: 최소 harness (모델 강)
비교 — 어린이 학습:
AI도 같음. "보조 바퀴 점진 제거".
11. "Strong Coding Model = Strong Agent" 의 통찰
본문 강조:
"Since code is a general way for Claude to orchestrate actions, a strong coding model is also a strong general agent."
(코드 = action orchestration의 일반 방식. 강한 coding 모델 = 강한 일반 agent)
이게 "코딩 능력 우선" 의 정당화:
- 모든 작업 = 코드로 표현
- 코드 잘 = 모든 작업 잘
- coding-first 진화
비교 — Anthropic 우선순위:
- Claude Code: 우선 출시
- 1M context: coding 우선 (#98)
- Code as primary skill
이 우선순위가 enterprise 매출 가속의 정확한 동력.
12. "Anthropic Engineering Blog 시리즈" 의 자산
이 글 + 후속 (Managed Agents):
- 이 글 = 일반 패턴
- Managed Agents = 인프라 디자인
- 둘 다 engineering blog
다른 시리즈:
- Building Effective Agents (#33)
- Multi-agent Research (#54)
- Common Workflow Patterns (#94)
- Skill-Creator Improvements (#93)
이게 "AI engineering 표준 교과서" 형성 중. 표준 정의자 위치 누적.
마무리
이 글은 "Claude 활용 가이드" 같지만, 실제로는 AI 시대 SW engineering의 새 원칙 정의다.
- Grown vs Built: 패러다임 변화
- Stale Assumptions: SW 도전
- Code Execution: AI engineering 원칙
- +16.3pp BrowseComp: 정량 증명
- Many Brains, Many Hands: distributed
- OS Virtualization: 표준 정의
- Auto Mode = Tool 대체: 단순화
- Frequent Re-testing: 새 practice
- Context Anxiety: 모델 personality
- Harness as Crutch: evolution
- Coding = General: 우선순위
- Engineering Blog 시리즈: 표준 교과서
2026년 4월 2일 시점은 "AI = static 도구" 시대가 끝난 시점이다. AI = 끊임없이 진화하는 동료의 정착.
흥미로운 건 이 글이 #94 (Workflow Patterns) → #102 (Auto Mode) → #103 (Compliance) → 이 글 의 계열의 다음 단계라는 점이다:
- #94: 패턴 정의
- #102: 자율 + 안전
- #103: audit
- #104 (이 글): 진화 원칙
각 layer가 AI engineering의 표준 교과서의 한 챕터.
비교 — 기존 SW engineering 교과서:
- Code Complete (Steve McConnell)
- Pragmatic Programmer
- Clean Code (Robert Martin)
미래 AI engineering 교과서:
- Anthropic Engineering Blog 모음
- 산업 표준
- "AI를 잘 활용하는 법"
다음 글 (#105): CSV #13 — "How and when to use subagents in Claude Code" — Subagents 패턴. 이 글의 "Many Brains" 의 직접 적용. AI agent의 분업 패턴이 보인다.