Claude 블로그 되짚어보기 #59 — 프롬프트 엔지니어링 베스트 프랙티스, Context Engineering으로의 진화 (2025)

panicdev·2026년 4월 26일

AI Anthropic Claude ContextEngineering LLM PromptEngineering 블로그리뷰

원문 정보

제목: Best practices for prompt engineering
링크: claude.com/blog/best-practices-for-prompt-engineering
발행: 2025년 11월 (Skills 시기)
카테고리: Claude Apps / Productivity / Agents

글의 요지

프롬프트 엔지니어링의 베스트 프랙티스. "AI에게 명확하게 의도를 전달하는 언어" 로서 프롬프트 엔지니어링의 핵심 원칙. 가장 좋은 프롬프트는 가장 길거나 복잡한 게 아니라 최소 구조로 안정적 목표 달성.

코어 원칙 — 4가지

1) 명확함과 직접성 (Be Clear and Direct)

모호한 표현 회피
정확한 동작 지정
"이 텍스트 분석해" (X) → "이 텍스트의 주요 주장 3개를 bullet로 추출" (O)

2) 예시 사용 (Use Examples)

Few-shot prompting
여러 "엣지 케이스 나열" 보다 다양한 canonical 예시 큐레이션
모델이 패턴을 일반화

3) Claude 사고 시간 주기 (Let Claude Think)

"단계별로 사고하라" 명시
Extended Thinking 활용 (Claude 4.x)
복잡한 추론에서 결정적

4) XML 태그 활용 (Use XML Tags)

Claude 학습 데이터에 XML 많음
<example>, <document>, <instructions> 같은 태그
구조 명확화

Claude 4.x의 변화 — "Literal Interpretation"

본문이 강조한 핵심 변화:

이전 모델 (Claude 3.5): 의도 추론, 모호한 요청 확장
Claude 4.x: 문자 그대로 받음, 정확히 요청한 것만

예시:

"Build a dashboard" → 이전: 풀 대시보드, 4.x: 빈 프레임 + 제목
"Above and beyond" 동작 원하면 명시적 요청 필요

이 변화의 함의:

더 정확한 통제
그러나 더 명시적 지시 필요
literal-minded employee 처럼 다뤄야

코어 vs 고급 기법

시작 (코어):

명확함, 예시, Think, XML
일관되게 사용 → 자연스러워질 때까지

고급 (필요 시):

Prompt chaining
Role prompting
Negative prompting (조심해서)
Output prefilling

규칙: "고급 기법은 구체적 문제 풀 때만 추가"

Context Engineering으로의 진화

본문이 강조한 새 패러다임:

"Prompt engineering의 중요성은 줄지 않는다, 그러나 'context engineering'으로 진화 중."

차이:

Prompt Engineering: 단일 프롬프트 작성
Context Engineering: AI가 어떤 정보를 어떤 단계에 받는지 큐레이션
멀티스텝 에이전트 워크플로의 새 영역

Cognition AI 인용

Sonnet 4.5의 18% 플래닝 성능 증가 — "Sonnet 3.6 이후 가장 큰 점프"

2026년에 다시 읽으며 — 내가 본 것

1. "Prompt Engineering"의 정체성 변화

이 글은 "prompt engineering의 시대 변환점" 을 보여준다.

시기별 위상:

2022-2023: "마법의 주문" — 구체 기법 알면 큰 우위
2024: 표준화, 베스트 프랙티스 정착
2025년 후반 (이 글): 기본 + Context Engineering
2026년 예상: "Context Engineering이 prompt engineering을 흡수"

본문 인용:

"As models become more capable, the challenge isn't just crafting the perfect prompt—it's thoughtfully curating what information enters the model's limited attention budget at each step."

번역: 모델이 더 강력해지면서, 도전은 "완벽한 프롬프트 작성" 만이 아니라 모델의 주의 예산에 어떤 정보가 들어갈지 큐레이션 임.

이게 prompt → context 진화의 본질이다.

2. "Literal Interpretation" 변화의 의미

Claude 4.x가 "문자 그대로 해석" 하는 변화가 흥미롭다.

이게 발전인가, 회귀인가?

발전 측면:

사용자 통제권 ↑
모델이 사용자 의도 추측 안 함 (자기주장 적음)
안전성 ↑ (모델이 임의로 행동 안 함)

회귀 측면:

"AI 마법" 감 줄음
더 명시적 지시 필요
비기술 사용자 어려움

이 트레이드오프가 AI 도구의 성숙을 보여준다. 초기엔 "AI가 알아서 해주면 좋겠다". 성숙기엔 "AI가 정확히 내가 시킨 것만 했으면".

이 변화는 enterprise 사용자에게 결정적이다. 거대 회사가 AI 도입 결정 시 "AI가 임의 행동" 이 가장 큰 두려움. literal interpretation = 신뢰.

3. "AI Slop"이라는 새 디자인 어휘

본문이 인용한 표현 — "AI slop aesthetic" (AI 슬롭 미학):

모든 AI 생성 사이트가 비슷
Inter, Space Grotesk 폰트
검정 + 에메랄드 그라데이션
같은 레이아웃

이 "AI slop" 이 2025년의 가장 큰 디자인 비판이 됐다. ChatGPT, v0, Bolt 등으로 만든 사이트가 다 비슷.

Anthropic의 대응:

Frontend Design Skill 오픈소스

System prompt로 의도적 회피:

<frontend_aesthetics>
You tend to converge toward generic, "on distribution" outputs.
</frontend_aesthetics>

이 "AI 자체가 자기 한계 인지" 가 흥미롭다. "너는 generic으로 가는 경향이 있어, 그러지 마" 같은 자기 인식 프롬프트.

4. "Anthropic Skilljar 코스"의 의미

본문이 언급 — "prompt engineering 코스 at anthropic.skilljar.com".

Anthropic의 교육 전략:

무료 코스 (Skilljar 플랫폼)
인증서 발급
구조화된 학습 경로

이게 개발자 락-인 전략이다:

개발자가 "Claude prompt engineering" 배움
다른 모델로 전환 시 다시 배워야 함
학습 투자 = 전환 비용

같은 패턴:

AWS 자격증 → AWS 락-인
Salesforce 인증 → Salesforce 락-인
Anthropic Skilljar → Claude 락-인

이게 장기 시장 점유 전략의 일부다. 모델 능력만이 아니라 사용자 스킬 락-인.

5. "Examples > Edge Cases" 원칙

본문 인용:

"Teams will often stuff a laundry list of edge cases into a prompt... We do not recommend this. Instead, we recommend working to curate a set of diverse, canonical examples."

이게 prompt engineering의 흔한 실수다:

잘못된 패턴:

모든 가능한 케이스 명시
"만약 X이면 A, Y이면 B, Z이면 C..."
100개 규칙 나열

좋은 패턴:

3-5개 canonical 예시
다양한 시나리오 커버
모델이 일반화

이 원칙이 소프트웨어 디자인의 일반 원칙과 같다 — DRY (Don't Repeat Yourself), 추상화, 패턴 인식.

이 "개발자 직관" 이 prompt engineering에 그대로 적용된다는 게 흥미롭다.

6. "Negative Prompting의 함정"

본문이 경고 — "Negative prompting을 가볍게".

문제:

"X 하지 마라" → 오히려 X 더 함
LLM이 "~을 하지 말라" 보다 "~을 해라" 를 더 잘 따름
부정 명령이 어떻게 "reverse psychology" 효과

PromptLayer 인용:

"Telling Claude too forcefully what not to do can sometimes backfire and actually encourage that behavior through a kind of reverse psychology effect."

좋은 패턴:

"X 안 하기" → "Y 하기"
원하는 동작을 명시
부정문 최소화

이게 언어 모델의 작동 방식 에서 자연스러운 결과다. LLM은 "다음 토큰 예측" — 부정문이 자주 등장하면 부정문 자체를 더 생성.

7. "Cognition AI의 18%" — 외부 검증

본문이 인용한 외부 데이터:

Cognition AI (Devin 만든 회사)
Sonnet 4.5의 플래닝 성능 18% 증가
"Sonnet 3.6 이후 가장 큰 점프"

이 인용의 마케팅적 의미:

외부 검증 = Anthropic 자기주장보다 신뢰
경쟁사 검증 = 더 강한 신뢰
구체 수치 = 마케팅 임팩트

Cognition은 Devin (자율 SWE 에이전트) 만든 회사. AI 코딩 시장의 경쟁자다. 그들이 "Claude가 좋다" 인용 = 객관성 시그널.

이 "경쟁자가 인정" 패턴이 Anthropic의 신뢰 마케팅이다.

마무리

이 글은 "프롬프트 엔지니어링 가이드" 같지만, 실제로는 AI 도구 사용의 패러다임 변환점을 보여준다.

코어 4원칙: 명확함, 예시, 사고, XML
Claude 4.x = literal interpretation: 추측 안 함
Prompt → Context Engineering 진화
AI slop 회피 의식
Examples > Edge cases: 일반화 우선
Negative prompting의 함정
Skilljar 교육 → 락-인 전략
Cognition AI 외부 검증: 신뢰 마케팅

2025년 11월 시점은 "prompt engineering이 더 이상 마법이 아니다" 라는 시기다. 모든 사용자가 알아야 할 기본기가 됨. 동시에 context engineering 이라는 새 영역으로 진화.

흥미로운 건 Anthropic이 자기 모델의 "불완전성" 을 솔직히 인정한다는 점이다 — "AI slop으로 가는 경향이 있다", "4.x는 literal하다". 이 솔직함이 신뢰의 토대. 다른 AI 회사가 "우리 모델 완벽" 이라 할 때, Anthropic은 "이런 한계 있으니 이렇게 다루세요" 라 함.

이 "제한 사항을 명시" 가 enterprise CIO에게 결정적이다. 완벽함 자랑보다 한계 명시가 신뢰 산다. "우리는 우리 모델을 안다" = Anthropic의 가장 강한 메시지.