Claude 블로그 되짚어보기 #104 — Harnessing Claude, AI는 grown 아닌 built (2026)

panicdev·2026년 5월 3일

AI AgentHarness Anthropic Claude CodeExecution LLM engineering 블로그리뷰

원문 정보

제목: Harnessing Claude's intelligence
링크: claude.com/blog/harnessing-claudes-intelligence
발행: 2026년 4월 2일
카테고리: Claude Platform

글의 요지

Claude 능력 활용 가이드 — 모델 능력은 "grown", "built" X. 따라서 harness가 가정. 모델 진화 시 가정 = stale. 3 패턴: ① Claude가 이미 아는 것 사용, ② 무엇을 멈출 수 있는지 묻기, ③ agent harness 경계 신중히 설정. "BrowseComp 45.3% → 61.6%" — Claude가 자기 도구 결과 필터하면 정확도 ↑.

핵심 원칙 — Claude는 "grown"

본문 인용 (Chris Olah, Anthropic 공동 창업자):

"Generative AI systems like Claude are grown more than they are built. Researchers set the conditions to direct growth, but the exact structure or capabilities that emerge aren't always predictable."

(Claude는 "grown" — 빌드된 X. 연구자가 조건 설정 but 정확한 구조·능력 = 예측 불가)

도전:

agent harness = Claude가 "못 한다" 가정 인코딩
그 가정 = 모델 진화 시 stale
자주 재방문 필요

3 패턴

패턴 1: Claude가 이미 아는 것 사용

본문 강조:

예전 모델: 도구로 보정
새 모델: 그 도구 불필요
매번 평가

사례 — Sonnet 4.5의 "context anxiety":

컨텍스트 한도 다가오면 task 조기 종료
harness에 "context reset" 추가
그러나 Opus 4.5에서 사라짐
harness 단순화

패턴 2: 무엇을 멈출 수 있는지 묻기

본문이 강조한 가정:

"A common assumption is that every tool result should flow back through Claude's context window to inform the next action. Processing tool results in tokens can be slow, costly, and unnecessary."

(모든 도구 결과가 컨텍스트로 다시 흘러야 한다는 가정. token 처리 = 느림, 비용, 불필요)

해결 — Code Execution Tool:

Claude가 도구 호출 + 로직을 코드로 표현
코드 실행 결과만 컨텍스트에 진입
orchestration 결정 = harness X, 모델 O

측정 결과:

"On BrowseComp, a benchmark that tests the ability of agents to browse the web, giving Opus 4.6 the ability to filter its own tool outputs brought accuracy from 45.3% to 61.6%."

(Opus 4.6에 자기 도구 출력 필터 능력 부여 → BrowseComp 45.3% → 61.6%)

이게 #88 (Web Search Dynamic Filtering) 의 깊은 의미.

패턴 3: Agent Harness 경계 신중히

본문 강조:

harness = Claude가 무엇을 "하지 못 한다" 가정
너무 많은 도구 = 컨텍스트 노이즈
너무 적은 도구 = 능력 제한

균형:

Tool = observability (구조화 인자, 로그 가능)
Tool = security boundary (auto-mode가 bash 검토)
Tool 진화 = 매 모델 버전 재평가

사례 — Auto Mode (#102 글):

bash 도구 보안 boundary
두 번째 Claude가 명령 검토
"전용 도구 필요성 ↓"

Managed Agents — Meta-Harness

본문 후속 (engineering blog):

"Harnesses encode assumptions that go stale as models improve. Managed Agents—our hosted service for long-horizon agent work—is built around interfaces that stay stable as harnesses change."

(harness 가정 = stale. Managed Agents: 인터페이스가 stable, harness 변화 가능)

비유:

OS abstraction (process, file)
디스크 1970s → SSD 2026
read() 같은 인터페이스
abstraction이 implementation을 살아남음

Managed Agents:

Brain (Claude)
Hands (tools/sandboxes)
분리 + 재결합 가능
"many brains, many hands"

2026년에 다시 읽으며 — 내가 본 것

1. "Grown vs Built" 의 패러다임 변화

이 글의 가장 깊은 통찰 — AI는 "grown".

전통 SW:

명확 spec
정확한 구현
결과 = 예측 가능
"built"

AI 모델:

학습 데이터 + 알고리즘 = 조건
능력 = emergent
예측 불가
"grown"

비유:

시리얼 vs garden
시리얼 = 같은 결과 (built)
garden = 자라는 식물 (grown)
매년 다름

이 패러다임 변화의 함의:

"AI 사용 = 정원 가꾸기"
매번 같지 않음
변화에 적응

2. "Stale Assumptions" 의 SW engineering 도전

전통 SW:

한 번 빌드 = 영원 (대략)
의존성 업그레이드 신중
변경 위험

AI 시스템:

매 모델 = 새 능력
옛 가정 = 폐기
"매 분기 재평가"

이게 AI 시대 SW engineering의 핵심 도전:

안정성 + 진화의 균형
기존 시스템 = 적응 필요
새 직무 (#100 글의 PM 변화)

3. "Code Execution Tool" 의 깊은 의미

이 글이 강조한 패턴:

모든 도구 결과 → 컨텍스트
비용 ↑ + 속도 ↓ + 노이즈 ↑

새:

Claude가 코드 작성
코드가 도구 호출 + 필터
결과만 컨텍스트
비용 ↓ + 속도 ↑ + 정확도 ↑

이게 "AI engineering의 새 원칙":

모든 데이터 = AI 처리 X
"AI가 코드 작성 → 데이터 처리"
코드 = 중간 layer

비교 — #88 글 (Dynamic Filtering):

같은 패턴
production 적용
정량 측정 (45.3% → 61.6%)

이 글 = 그 패턴의 일반 원칙.

4. "BrowseComp 16.3pp 향상" 의 정량 증명

데이터:

Opus 4.6 BrowseComp: 45.3%
- Code execution filter: 61.6%
+16.3pp = 36% 상대 향상

이게 "코드 = AI 능력 증폭기" 의 정확한 측정:

같은 모델
다른 패턴
거대 차이

비교 — 다른 향상 source:

더 큰 모델: ~5-10pp
더 많은 데이터: ~3-5pp
패턴 변경 (코드): 16.3pp

이게 "engineering > 모델" 시그널:

모델만 업그레이드 X
사용 패턴이 더 중요
같은 모델 더 잘 사용

5. "Many Brains, Many Hands" 의 architecture

Managed Agents 디자인:

Brain (Claude) ↔ Hands (tools)
분리
재결합

하나의 컨테이너
Brain + Hand 결합
한 곳 실패 = 모든 것 실패

새:

Brain 여러 개 (다른 task)
Hand 여러 개 (다른 도구)
각자 독립
자유 결합

이게 "distributed AI architecture" 의 정석:

microservice 패턴 적용
AI 시스템 동일
거대 + 안정

6. "OS Virtualization 비유" 의 깊이

본문 비유:

OS abstraction: process, file
1970s 디스크 → 2026 SSD
read() = 같은 인터페이스
abstraction이 hardware 살아남음

Managed Agents:

Brain abstraction
Hand abstraction
어떤 모델이든
어떤 sandbox든

이게 "AI 인프라의 표준 정의자":

Anthropic = AI OS 디자이너
다른 회사 = 그 위에 빌드
표준 정복

비교 — Linux (1991):

표준 OS
다른 application 그 위에
30년 지속

Managed Agents = AI 시대 같은 위치 시도.

7. "Auto Mode = Tool 대체" 의 흥미로운 진화

본문 인용:

"Claude Code's auto-mode... provides a security boundary around the bash tool: it has a second Claude read the command string and judge whether it's safe. This pattern can limit the need for dedicated tools."

(Auto Mode = bash 보안 boundary. 전용 도구 필요성 ↓)

이게 "Claude → Claude" 패턴의 정확한 사례:

전통: 보안 = 별도 도구
새: Claude가 Claude 검토
단순화

비교 — IT 보안:

별도 firewall
별도 IDS
다중 layer

새:

AI = adaptive 보안
하나의 시스템
다목적

8. "Frequent Re-testing" 의 새 SW practice

본문 결론:

"The frontier of Claude's intelligence is always changing. Assumptions about what Claude can't do need to be re-tested with each step change in its capability."

(Claude 능력 frontier 변화. "Claude 못한다" 가정 = 재테스트 필요)

이게 "AI engineering 일상의 새 practice":

매 모델 출시 = 시스템 평가
옛 hack 제거
새 능력 활용

비교 — 전통 SW:

라이브러리 업그레이드 (마이너)
기능 비슷
평가 적음

AI:

모델 업그레이드 (메이저)
기능 거대 변화
모든 가정 재평가

이 "끊임없는 재평가" 가 AI engineering의 새 일상.

9. "Sonnet 4.5 vs Opus 4.5 Context Anxiety" 의 사례

본문 사례:

Sonnet 4.5: context 한도 다가오면 조기 종료 ("context anxiety")
harness에 reset 추가
Opus 4.5: 행동 사라짐
harness 단순화 가능

이게 "AI 행동의 personality" 시그널:

다른 모델 = 다른 행동
같은 가정 X
각 모델 행동 평가

비교 — 인간 직원:

새 직원 = 신중
경험자 = 자신
같은 task 다른 행동

AI도 같음. 각 버전이 다른 "성격" .

10. "Harness as Crutch" 의 흥미로운 시각

이 글의 함의:

harness = 모델 한계 보정
모델 ↑ = harness ↓
이상적: harness 없음

이게 "AI evolution" 의 명확 측정:

처음: 거대 harness (모델 약)
중기: 중간 harness
미래: 최소 harness (모델 강)

비교 — 어린이 학습:

자전거 보조 바퀴
능력 ↑
보조 바퀴 제거

AI도 같음. "보조 바퀴 점진 제거".

11. "Strong Coding Model = Strong Agent" 의 통찰

본문 강조:

"Since code is a general way for Claude to orchestrate actions, a strong coding model is also a strong general agent."

(코드 = action orchestration의 일반 방식. 강한 coding 모델 = 강한 일반 agent)

이게 "코딩 능력 우선" 의 정당화:

모든 작업 = 코드로 표현
코드 잘 = 모든 작업 잘
coding-first 진화

비교 — Anthropic 우선순위:

Claude Code: 우선 출시
1M context: coding 우선 (#98)
Code as primary skill

이 우선순위가 enterprise 매출 가속의 정확한 동력.

12. "Anthropic Engineering Blog 시리즈" 의 자산

이 글 + 후속 (Managed Agents):

이 글 = 일반 패턴
Managed Agents = 인프라 디자인
둘 다 engineering blog

다른 시리즈:

Building Effective Agents (#33)
Multi-agent Research (#54)
Common Workflow Patterns (#94)
Skill-Creator Improvements (#93)

이게 "AI engineering 표준 교과서" 형성 중. 표준 정의자 위치 누적.

마무리

이 글은 "Claude 활용 가이드" 같지만, 실제로는 AI 시대 SW engineering의 새 원칙 정의다.

Grown vs Built: 패러다임 변화
Stale Assumptions: SW 도전
Code Execution: AI engineering 원칙
+16.3pp BrowseComp: 정량 증명
Many Brains, Many Hands: distributed
OS Virtualization: 표준 정의
Auto Mode = Tool 대체: 단순화
Frequent Re-testing: 새 practice
Context Anxiety: 모델 personality
Harness as Crutch: evolution
Coding = General: 우선순위
Engineering Blog 시리즈: 표준 교과서

2026년 4월 2일 시점은 "AI = static 도구" 시대가 끝난 시점이다. AI = 끊임없이 진화하는 동료의 정착.

흥미로운 건 이 글이 #94 (Workflow Patterns) → #102 (Auto Mode) → #103 (Compliance) → 이 글 의 계열의 다음 단계라는 점이다:

#94: 패턴 정의
#102: 자율 + 안전
#103: audit
#104 (이 글): 진화 원칙

각 layer가 AI engineering의 표준 교과서의 한 챕터.

비교 — 기존 SW engineering 교과서:

Code Complete (Steve McConnell)
Pragmatic Programmer
Clean Code (Robert Martin)

미래 AI engineering 교과서:

Anthropic Engineering Blog 모음
산업 표준
"AI를 잘 활용하는 법"

다음 글 (#105): CSV #13 — "How and when to use subagents in Claude Code" — Subagents 패턴. 이 글의 "Many Brains" 의 직접 적용. AI agent의 분업 패턴이 보인다.

panicdev

이전 포스트

Claude 블로그 되짚어보기 #103 — Compliance API, AI 거버넌스의 표준 (2026)

다음 포스트

Claude 블로그 되짚어보기 #104 — Harnessing Claude, AI는 grown 아닌 built (2026)

원문 정보

글의 요지

핵심 원칙 — Claude는 "grown"

3 패턴

패턴 1: Claude가 이미 아는 것 사용

패턴 2: 무엇을 멈출 수 있는지 묻기

패턴 3: Agent Harness 경계 신중히

Managed Agents — Meta-Harness

2026년에 다시 읽으며 — 내가 본 것

1. "Grown vs Built" 의 패러다임 변화

2. "Stale Assumptions" 의 SW engineering 도전

3. "Code Execution Tool" 의 깊은 의미

4. "BrowseComp 16.3pp 향상" 의 정량 증명

5. "Many Brains, Many Hands" 의 architecture

6. "OS Virtualization 비유" 의 깊이

7. "Auto Mode = Tool 대체" 의 흥미로운 진화

8. "Frequent Re-testing" 의 새 SW practice

9. "Sonnet 4.5 vs Opus 4.5 Context Anxiety" 의 사례

10. "Harness as Crutch" 의 흥미로운 시각

11. "Strong Coding Model = Strong Agent" 의 통찰

12. "Anthropic Engineering Blog 시리즈" 의 자산

마무리

Claude 블로그 되짚어보기 #103 — Compliance API, AI 거버넌스의 표준 (2026)

Claude 블로그 되짚어보기 #105 — Subagents, AI의 브라우저 탭 (2026)

0개의 댓글