Claude 블로그 되짚어보기 #93 — Skill-Creator 진화, AI as SW Engineer (2026)

panicdev·2026년 5월 3일

AI Anthropic Claude LLM SkillCreator evaluation skills 블로그리뷰

원문 정보

제목: Improving skill-creator: Test, measure, and refine Agent Skills
링크: claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills
발행: 2026년 3월 3일
카테고리: Claude Code

글의 요지

Skill-Creator의 거대 진화 — Skills 빌드 도구에 테스트 + 측정 + 개선 추가. 4가지 모드: Create, Eval, Improve, Benchmark. 4개 sub-agent 병렬: Executor, Grader, Comparator, Analyzer. 자동 description optimization (5 iteration, 60/40 train/test split, overfitting 방지). "Skill = software artifact" 표준 정착.

4가지 모드

1) Create (생성)

처음부터 Skill 빌드
Skills 구조 가이드
YAML frontmatter 자동 생성

2) Eval (평가)

Skill이 의도대로 작동 검증
Test cases JSON 형식
Pass rate 측정

3) Improve (개선)

Eval 결과 분석
자동 개선 제안
Description tuning

4) Benchmark (벤치마크)

Pass rate
시간
토큰 사용
variance 분석

4 Sub-Agent 병렬 시스템

본문 (Tessl 인용):

"The eval pipeline uses four composable sub-agents working in parallel."

Executor:

Skill을 eval prompt에 실행
결과 캡처

Grader:

output을 expected와 비교
assertion 검증

Comparator:

Skill v1 vs v2 blind A/B 비교
어느 게 더 나은지

Analyzer:

패턴 식별
Aggregate stats가 못 보는 것
개선 제안

Test Case 구조

JSON 형식:

{
  "eval_id": 2,
  "eval_name": "api-handler",
  "prompt": "Review this Express handler for me — it processes orders.",
  "assertions": [
    "should identify SQL injection",
    "should suggest input validation",
    "should flag missing error handling"
  ]
}

각 test case:

현실적 user prompt
검증 가능한 assertion
자동 grading

Description Optimization

본문 강조 (GitHub):

"This handles the full optimization loop automatically. It splits the eval set into 60% train and 40% held-out test, evaluates the current description (running each query 3 times to get a reliable trigger rate), then calls Claude to propose improvements based on what failed. It re-evaluates each new description on both train and test, iterating up to 5 times."

자동 description 개선 흐름:
1. Train/Test 분할: 60% / 40%
2. 현재 description 평가: 각 쿼리 3회 (신뢰도)
3. 실패 분석: Claude가 개선안 제안
4. 새 description 평가: train + test
5. 5회 반복
6. HTML 보고서: iteration별 결과
7. best_description 선택: test score 기준 (overfitting 방지)

이게 ML의 "hyperparameter tuning" + "holdout validation" 패턴이다.

Trigger Quality Improvement

본문이 강조:

"Internal description tuning improved triggering on 5 out of 6 public document-creation skills."

(내부 description 튜닝으로 6개 공개 skill 중 5개 triggering 개선)

Description의 진짜 의미:

단순 "무엇을 하는가" X
"언제 trigger 되는가" O
키워드, 시그널 phrases 중요

좋은 description 예:

"How to build a simple fast dashboard to display internal Anthropic data. Make sure to use this skill whenever the user mentions dashboards, data visualization, internal metrics, or wants to display any kind of company data, even if they don't explicitly ask for a 'dashboard.'"

(Trigger 시그널 명시 → Claude가 정확히 호출)

Common Failure Patterns

본문 (Claude AI Dev 인용)이 식별:

Obsolescence detection: base model이 더 잘 함 → skill 불필요
Trigger quality: false positive + false negative
Test set quality: 너무 쉬운 test → 100% 의미 X

2026년에 다시 읽으며 — 내가 본 것

1. "Skills = Software Artifact" 의 표준 정착

이 글의 가장 중요한 의미 — Skills를 ML 모델처럼 다루기.

전통 prompt engineering:

"이 prompt 더 좋아?" 직관
"한번 시도" 검증
"works for me" 표준

새 패턴 (이 글):

Test set 정의
정량 측정
Train/test split
Iteration tracking
HTML 보고서

이게 ML 시대 SW 엔지니어링 표준:

TDD: 코드 테스트
ML: 모델 평가
Skills: prompt 평가

같은 "엔지니어링 디시플린" 적용.

비교 — 직무 진화:

ML Engineer: 모델 evaluation
Prompt Engineer: prompt evaluation
Skill Engineer (새): skill evaluation

이 "Skill Engineer" 가 향후 새 직무 카테고리.

2. "Multi-Agent Eval Pipeline"의 우아함

4 sub-agent 병렬:

Executor (실행)
Grader (채점)
Comparator (비교)
Analyzer (분석)

이게 "Skills 평가의 분업" :

각 agent = 단일 책임
병렬 실행 = 빠름
명확 인터페이스

비교 — Software 시스템:

Microservice 패턴
각 서비스 = 단일 책임
API 인터페이스
독립 스케일

Skills eval system도 같은 패턴. AI 시대 microservice.

3. "60/40 Train/Test Split + 5 Iterations" 의 ML 디시플린

이 메커니즘의 ML 디시플린:

Holdout validation: test set 분리 (overfitting 방지)
Multiple runs: 신뢰도 측정 (3회/쿼리)
Iterative improvement: 5회 반복
Best by test score: train 아닌 test 기준

이게 ML 핵심 원칙들의 정확한 적용:

Cross-validation
Holdout test
Stopping criteria
Generalization

비교 — 일반 prompt engineering:

Train set 없음
Test set 없음
Overfitting 위험
"works on my examples"

새:

ML 표준
Generalization 검증
Production 신뢰

4. "Cisco 84% Cross-Skill Performance"의 검증

Tessl 인용:

"Cisco's software-security skill, built on Project CodeGuard, scores 84% overall, and a total 1.78x improvement, nearly doubling the agent's score."

(Cisco 보안 skill: 84% 종합 점수, 1.78× 개선 — 거의 2배)

이게 enterprise 검증 사례:

Cisco = 거대 보안 회사
자체 skill 빌드
측정 가능 결과
2× 성능 향상

비교 — 다른 산업:

일반 도구: "빨라진다" 추상
이 글: "84%, 1.78×" 정량

이 "측정 가능 ROI" 가 enterprise 도입 가속.

5. "Cross-Model, Cross-Agent" 의 표준 시그널

Tessl 인용:

"A skill that works well with Claude Sonnet 4.5 might behave differently on GPT-5 or Gemini."

(Sonnet 4.5에서 작동하는 skill = GPT-5/Gemini에서 다를 수 있음)

이 nuance의 의미:

Skills = 모델별 다름
Cross-model 평가 필요
"AI 도구 portability" 도전

미래 시나리오:

회사 1 = Claude
회사 2 = GPT
같은 skill 재사용?
→ 평가 결과 다름

해결:

Tessl 같은 "독립 평가 layer"
Skill registry
공개 평가 결과

6. "Public Skill Registry" 의 시장 형성

Tessl 인용:

"Public visibility for creators and users: eval results are surfaced directly on each skill's registry page, so creators can demonstrate that their skill and users can assess quality before installing."

(Eval 결과 = registry 페이지에 공개. 빌더가 검증, 사용자가 install 전 평가)

이게 "AI App Store + 평점 시스템" 의 정석:

iOS App Store: 별점, 리뷰
npm: download count, vulnerabilities
Skills: eval scores, benchmarks

같은 시장 신뢰 메커니즘. 사용자가 결정 도구.

7. "Plumbers + Grandparents Open Terminal" 의 시그널

GitHub 인용 (skill-creator SKILL.md):

"There's a trend now where the power of Claude is inspiring plumbers to open up their terminals, parents and grandparents to google 'how to install npm'."

(Claude의 힘에 영감 받아 plumber가 터미널 열고, 부모/조부모가 "npm 설치 방법" 검색)

이게 AI 사용자의 변화:

이전: 개발자만
이제: 모두

Anthropic의 디자인 원칙:

"광범위 사용자 친숙도 가정"
"context cue로 톤 조정"
"기술 용어 신중"

비교:

Dev tools (GitHub, npm): 개발자 우선
Claude Code: 모두 우선
"Vibe Coding" (#67 글): 비개발자

이 "democratization" 이 Anthropic 사용자 베이스의 가장 큰 차별이다.

8. "Skill의 Self-Improvement" 의 self-bootstrapping

이 글의 가장 깊은 함의 — AI가 자기 개선:

skill-creator = skill을 만드는 skill
skill-creator가 자기 description 평가
skill-creator가 자기 description 개선

이게 "self-bootstrapping" 의 정확한 사례:

AI가 AI 만듦
AI가 AI 평가
AI가 AI 개선

비교 (#82 글):

Anthropic 코드 70-90% Claude로 작성
그러나 인간 검증

이 글 (자동 description optimization):

100% AI
인간 검증 X (자동 holdout test로 검증)
"AI가 AI 평가"

이 자율 사이클이 AI 자체 개선 가속의 시그널이다.

9. "Anthropic이 Cisco에서 영감" 의 양방향

Tessl이 인용한 Cisco Project CodeGuard:

Cisco가 보안 skill 빌드
skill-creator로 평가
84% 점수

이 사례의 양방향 학습:

Anthropic → Cisco (도구 제공)
Cisco → Anthropic (사용 패턴 피드백)
skill-creator 개선
모든 사용자 혜택

이게 "네트워크 효과" 의 정석:

사용자 ↑ = 데이터 ↑
데이터 ↑ = 도구 개선
도구 ↑ = 사용자 ↑
무한 루프

10. "Skill Description = AI 시대 핵심 자산"

이 글의 빈번한 강조 — description의 정확성이 핵심.

description의 진짜 의미:

단순 "이 skill이 무엇" 설명 X
"Claude가 언제 호출하나" 결정
false positive/negative 통제
시스템 효율 좌우

비유:

HTTP API: URL 디자인 = 핵심
DB: index 디자인 = 핵심
Skills: description 디자인 = 핵심

각 시대의 "숨겨진 핵심 자산".

회사 자산:

Code = 명시적
Documentation = 보이는
Skill descriptions = AI 시대 새 자산

이 자산 관리가 향후 enterprise IT의 새 디시플린이다.

마무리

이 글은 "skill-creator 업데이트" 같지만, 실제로는 AI 시대 SW 엔지니어링 디시플린의 정의다.

4 모드 (Create, Eval, Improve, Benchmark): 라이프사이클
4 Sub-agent: microservice 패턴
60/40 + 5 iter: ML 표준
Cisco 1.78× 검증: 측정 가능 ROI
Cross-model 도전: portability
Public Registry: 시장 신뢰
Plumbers + Grandparents: 사용자 democratization
Self-Bootstrapping: AI가 AI 개선
Cisco ↔ Anthropic: 네트워크 효과
Description = 핵심 자산: 새 IT 디시플린

2026년 3월 3일 시점은 "Skills = prompt" 시대가 끝난 시점이다. Skills = software artifact의 정착.

흥미로운 건 이 글이 #83 (Skills 32-page Playbook) 의 자연스런 후속이라는 점이다:
1. #83: "Skills 빌드 방법" (가이드)
2. 이 글: "Skills 검증 방법" (도구)
3. 다음: "Skills 거버넌스" (조직)

각 layer가 "AI 디자인 패턴 → SW 디시플린" 변환의 단계.

이 변환이 완성되면 "Skills Engineer" 가 정식 직무. 향후 5년 가장 빠르게 성장하는 직무 카테고리 중 하나.

다음 글 (#94): Common workflow patterns for AI agents — Skills 위에 빌드되는 agent 패턴. 이 글의 "skill 측정" 이후의 "agent 디자인 패턴". AI 디자인 패턴 책의 다음 챕터다.

panicdev

이전 포스트

Claude 블로그 되짚어보기 #92 — Finance Plugins, CFO 사무실 정복 (2026)

다음 포스트

Claude 블로그 되짚어보기 #93 — Skill-Creator 진화, AI as SW Engineer (2026)

원문 정보

글의 요지

4가지 모드

1) Create (생성)

2) Eval (평가)

3) Improve (개선)

4) Benchmark (벤치마크)

4 Sub-Agent 병렬 시스템

Test Case 구조

Description Optimization

Trigger Quality Improvement

Common Failure Patterns

2026년에 다시 읽으며 — 내가 본 것

1. "Skills = Software Artifact" 의 표준 정착

2. "Multi-Agent Eval Pipeline"의 우아함

3. "60/40 Train/Test Split + 5 Iterations" 의 ML 디시플린

4. "Cisco 84% Cross-Skill Performance"의 검증

5. "Cross-Model, Cross-Agent" 의 표준 시그널

6. "Public Skill Registry" 의 시장 형성

7. "Plumbers + Grandparents Open Terminal" 의 시그널

8. "Skill의 Self-Improvement" 의 self-bootstrapping

9. "Anthropic이 Cisco에서 영감" 의 양방향

10. "Skill Description = AI 시대 핵심 자산"

마무리

Claude 블로그 되짚어보기 #92 — Finance Plugins, CFO 사무실 정복 (2026)

Claude 블로그 되짚어보기 #94 — AI Agent 6 패턴, Workflow vs Agent 어휘 (2026)

0개의 댓글