Skill-Creator의 거대 진화 — Skills 빌드 도구에 테스트 + 측정 + 개선 추가. 4가지 모드: Create, Eval, Improve, Benchmark. 4개 sub-agent 병렬: Executor, Grader, Comparator, Analyzer. 자동 description optimization (5 iteration, 60/40 train/test split, overfitting 방지). "Skill = software artifact" 표준 정착.
본문 (Tessl 인용):
"The eval pipeline uses four composable sub-agents working in parallel."
Executor:
Grader:
Comparator:
Analyzer:
JSON 형식:
{
"eval_id": 2,
"eval_name": "api-handler",
"prompt": "Review this Express handler for me — it processes orders.",
"assertions": [
"should identify SQL injection",
"should suggest input validation",
"should flag missing error handling"
]
}
각 test case:
본문 강조 (GitHub):
"This handles the full optimization loop automatically. It splits the eval set into 60% train and 40% held-out test, evaluates the current description (running each query 3 times to get a reliable trigger rate), then calls Claude to propose improvements based on what failed. It re-evaluates each new description on both train and test, iterating up to 5 times."
자동 description 개선 흐름:
1. Train/Test 분할: 60% / 40%
2. 현재 description 평가: 각 쿼리 3회 (신뢰도)
3. 실패 분석: Claude가 개선안 제안
4. 새 description 평가: train + test
5. 5회 반복
6. HTML 보고서: iteration별 결과
7. best_description 선택: test score 기준 (overfitting 방지)
이게 ML의 "hyperparameter tuning" + "holdout validation" 패턴이다.
본문이 강조:
"Internal description tuning improved triggering on 5 out of 6 public document-creation skills."
(내부 description 튜닝으로 6개 공개 skill 중 5개 triggering 개선)
Description의 진짜 의미:
좋은 description 예:
"How to build a simple fast dashboard to display internal Anthropic data. Make sure to use this skill whenever the user mentions dashboards, data visualization, internal metrics, or wants to display any kind of company data, even if they don't explicitly ask for a 'dashboard.'"
(Trigger 시그널 명시 → Claude가 정확히 호출)
본문 (Claude AI Dev 인용)이 식별:
이 글의 가장 중요한 의미 — Skills를 ML 모델처럼 다루기.
전통 prompt engineering:
새 패턴 (이 글):
이게 ML 시대 SW 엔지니어링 표준:
같은 "엔지니어링 디시플린" 적용.
비교 — 직무 진화:
이 "Skill Engineer" 가 향후 새 직무 카테고리.
4 sub-agent 병렬:
이게 "Skills 평가의 분업" :
비교 — Software 시스템:
Skills eval system도 같은 패턴. AI 시대 microservice.
이 메커니즘의 ML 디시플린:
이게 ML 핵심 원칙들의 정확한 적용:
비교 — 일반 prompt engineering:
새:
Tessl 인용:
"Cisco's software-security skill, built on Project CodeGuard, scores 84% overall, and a total 1.78x improvement, nearly doubling the agent's score."
(Cisco 보안 skill: 84% 종합 점수, 1.78× 개선 — 거의 2배)
이게 enterprise 검증 사례:
비교 — 다른 산업:
이 "측정 가능 ROI" 가 enterprise 도입 가속.
Tessl 인용:
"A skill that works well with Claude Sonnet 4.5 might behave differently on GPT-5 or Gemini."
(Sonnet 4.5에서 작동하는 skill = GPT-5/Gemini에서 다를 수 있음)
이 nuance의 의미:
미래 시나리오:
해결:
Tessl 인용:
"Public visibility for creators and users: eval results are surfaced directly on each skill's registry page, so creators can demonstrate that their skill and users can assess quality before installing."
(Eval 결과 = registry 페이지에 공개. 빌더가 검증, 사용자가 install 전 평가)
이게 "AI App Store + 평점 시스템" 의 정석:
같은 시장 신뢰 메커니즘. 사용자가 결정 도구.
GitHub 인용 (skill-creator SKILL.md):
"There's a trend now where the power of Claude is inspiring plumbers to open up their terminals, parents and grandparents to google 'how to install npm'."
(Claude의 힘에 영감 받아 plumber가 터미널 열고, 부모/조부모가 "npm 설치 방법" 검색)
이게 AI 사용자의 변화:
Anthropic의 디자인 원칙:
비교:
이 "democratization" 이 Anthropic 사용자 베이스의 가장 큰 차별이다.
이 글의 가장 깊은 함의 — AI가 자기 개선:
이게 "self-bootstrapping" 의 정확한 사례:
비교 (#82 글):
이 글 (자동 description optimization):
이 자율 사이클이 AI 자체 개선 가속의 시그널이다.
Tessl이 인용한 Cisco Project CodeGuard:
이 사례의 양방향 학습:
이게 "네트워크 효과" 의 정석:
이 글의 빈번한 강조 — description의 정확성이 핵심.
description의 진짜 의미:
비유:
각 시대의 "숨겨진 핵심 자산".
회사 자산:
이 자산 관리가 향후 enterprise IT의 새 디시플린이다.
이 글은 "skill-creator 업데이트" 같지만, 실제로는 AI 시대 SW 엔지니어링 디시플린의 정의다.
2026년 3월 3일 시점은 "Skills = prompt" 시대가 끝난 시점이다. Skills = software artifact의 정착.
흥미로운 건 이 글이 #83 (Skills 32-page Playbook) 의 자연스런 후속이라는 점이다:
1. #83: "Skills 빌드 방법" (가이드)
2. 이 글: "Skills 검증 방법" (도구)
3. 다음: "Skills 거버넌스" (조직)
각 layer가 "AI 디자인 패턴 → SW 디시플린" 변환의 단계.
이 변환이 완성되면 "Skills Engineer" 가 정식 직무. 향후 5년 가장 빠르게 성장하는 직무 카테고리 중 하나.
다음 글 (#94): Common workflow patterns for AI agents — Skills 위에 빌드되는 agent 패턴. 이 글의 "skill 측정" 이후의 "agent 디자인 패턴". AI 디자인 패턴 책의 다음 챕터다.