Claude 블로그 되짚어보기 #44 — 샌드박스, 권한 프롬프트의 시대를 끝내다 (2025)

panicdev·2026년 4월 26일

AI Anthropic Claude LLM Sandbox claudecode security 블로그리뷰

원문 정보

제목: Beyond permission prompts: making Claude Code more secure and autonomous
링크: claude.com/blog/beyond-permission-prompts-making-claude-code-more-secure-and-autonomous
발행: 2025년 10월 20일
카테고리: Engineering / Claude Code

글의 요지

Claude Code가 샌드박스 기반 구조로 진화했다. 매번 묻는 권한 프롬프트 대신 OS 수준 격리로 더 자율적이면서 더 안전하게 작동. 사내 측정 결과 권한 프롬프트 84% 감소.

두 가지 새 기능

Bash 도구 샌드박스 (CLI 안에서 작동)
- 격리된 환경에서 명령 실행
- 사용자 정의 경계 안에서 자유롭게 작동
Claude Code on the Web (클라우드 격리 샌드박스)
- 격리 컨테이너 안에서 비동기 코딩
- GitHub 리포지토리 가리킴 → 자율 실행
- 결과를 PR로 생성

두 가지 격리 경계

파일시스템 격리:

현재 작업 디렉토리만 읽기/쓰기 가능
외부 파일 수정 차단
prompt-injected Claude가 시스템 파일 변경 못 함

네트워크 격리:

승인된 호스트만 접근
Unix domain socket → 외부 프록시 서버 경유
prompt-injected Claude가 SSH 키 같은 데이터 유출 못 함

OS 수준 구현

Linux: Bubblewrap
macOS: Seatbelt
명령 실행 + 그 명령이 spawn하는 모든 서브프로세스에 적용
오픈소스: anthropic-experimental/sandbox-runtime (Apache 2)

"Approval Fatigue" 문제

기존 모델:

기본 read-only
변경·명령마다 "approve" 클릭
결과: 사용자가 클릭만 자동화 = 보안 효과 없음

Anthropic 데이터:

사용자가 권한 프롬프트의 93%를 승인
즉 "approve" 가 의미 있는 검토 단계 아님
"approval fatigue" → 실수의 원인

사용

# 새 sandboxing 활성화
/sandbox

# Claude Code on the web (별도 출시)
# GitHub 리포 → 환경 선택 → 프롬프트

동시 출시: Claude Code on the Web

비동기 코딩 에이전트 — 클라우드에서 실행:

GitHub 리포지토리 연결
환경 선택: 완전 잠금 / 도메인 화이트리스트 / * (전체)
프롬프트 입력 → 작업 진행
추가 프롬프트 큐 가능
완료 후 자동 PR 생성
Teleport 기능: 채팅 + 변경 파일을 로컬 Claude Code CLI로 복사 → 직접 이어 작업

2026년에 다시 읽으며 — 내가 본 것

1. "Approval Fatigue 93%"의 충격적 솔직함

이 글의 핵심 데이터 — 사용자가 권한 프롬프트의 93%를 승인.

이건 단순 통계가 아니라 권한 시스템의 무용성 입증이다. 사용자가 거의 모든 걸 승인한다는 건:

권한 프롬프트가 보안 메커니즘으로 작동 안 함
사용자가 세부 검토 안 함 — 그냥 "yes" 클릭
"approve" 자체가 자동화된 행동이 됨

이 데이터가 의미하는 것: 현재의 권한 모델은 깨졌다. "매번 묻는다" 가 안전을 보장하지 않는다 — 결국 인간이 적당히 "yes" 클릭하기 때문.

이 솔직한 인정이 Anthropic의 일관된 패턴이다 — "23.6% 공격 성공률" (Chrome pilot, #36 글), "AI 생산성 예측을 절반으로 낮췄다" (#37 글) — 부정적 데이터를 공개하는 게 신뢰의 토대.

2. "샌드박스 + 자율성"의 우아한 설계

이 글의 진짜 통찰:

"By defining set boundaries within which Claude can work freely, they increase security AND agency."

번역: "Claude가 자유롭게 작동할 경계를 정의함으로써, 보안과 능동성을 동시에 올린다."

이게 패러독스 같지만 사실이다. 비유:

공원 vs 끝없는 황야:
- 황야: 어디든 갈 수 있지만 위험. 부모가 매번 "괜찮니?" 물음
- 공원: 펜스 안. 부모가 안심하고 자유롭게 둠. 아이도 더 자유롭게 놂
Claude Code 권한 모델:
- 매번 묻기: 자율 없음, 보안도 없음 (93% 승인)
- 샌드박스: 자율 + 보안 동시

이 통찰이 에이전트 보안의 일반 원칙으로 자리잡았다. Anthropic의 다른 제품들도 같은 패턴 적용:

Claude in Chrome: 사이트별 권한 모델
Cowork: 작업 폴더 + egress 통제
Skills: 격리된 실행 환경

3. "OS 수준 격리"의 의미

샌드박스를 OS primitives 위에 구축한 게 핵심이다.

기존 "애플리케이션 수준 권한 체크":

Claude Code 코드가 "이 파일 접근해도 되나?" 체크
Claude의 코드를 우회하면 보안 깨짐

새로운 "OS 수준 격리":

Linux bubblewrap, macOS seatbelt
커널이 직접 강제 → Claude가 어찌 행동해도 못 빠져나감
prompt injection으로 Claude 의식이 통째로 탈취돼도 샌드박스 못 깸

이 신뢰 모델 차이가 결정적이다.

Trust the model: 모델이 잘 행동할 거라 믿음 (취약)
Trust the OS: OS 메커니즘이 제한 강제 (강력)

엔터프라이즈가 진지한 도구 도입하려면 trust the OS 모델이 필수다. 이 글이 그 인프라를 공식화.

4. "lethal trifecta"의 부분 해체

#36 글에서 다룬 lethal trifecta:
1. Untrusted content access
2. Sensitive data access
3. Action capabilities

샌드박스가 어떻게 이걸 푸는가?

Untrusted content (1) → 여전히 들어옴 (수정 불가)
Sensitive data (2) → filesystem 격리로 차단
Action capabilities (3) → network 격리로 외부 영향 차단

즉 sandbox는 "공격이 들어와도 영향이 격리됨". SSH 키, AWS 자격증명, .env 파일이 읽혀도 외부로 못 나감.

이 모델이 "defense in depth" 의 좋은 예다. 모델 자체의 prompt injection 저항을 강화하는 것 (어렵고 불완전) 보다, 공격 영향을 격리 (쉽고 보장됨).

5. "Claude Code on the Web"의 비동기 패러다임

같은 글에 "파묻힌" (Simon Willison 표현) 큰 출시 — Claude Code on the Web.

이 제품의 의미:

로컬 머신 의존 없음 — 어디서나 작동
비동기 워크플로 — 시작 → 다른 일 → 결과 확인
GitHub 통합 — PR로 결과 자동 생성
여러 에이전트 동시 — 한 사용자가 여러 작업 병렬

이게 AI 개발의 작업 모델 변화를 보여준다.

2024년: AI = 옆에 앉은 페어 프로그래머
2025년 (이 글): AI = 외주 노동자 (작업 보내고 결과 받기)
2026년 (Cowork): AI = 자율 동료 (계속 일하면서 가끔 보고)

이 변화에서 Claude Code on the Web이 결정적 단계다. 사용자가 노트북 닫고 잠자는 동안에도 AI가 GitHub 리포에서 일한다.

6. "Anthropic이 컨테이너에 능숙해진다"

Simon Willison의 코멘트:

"Anthropic are getting really good at containers these days."

이게 흥미로운 관찰이다. Anthropic의 인프라 진화:

2024년: API 회사 — 모델 제공
2025년 초: Code execution sandbox — 코드 실행 환경
2025년 9월: Claude in Chrome — 브라우저 격리
2025년 10월: Claude Code 샌드박스 + Web 컨테이너
2025년 후반: Claude Cowork — 데스크톱 격리

각 제품마다 격리 컨테이너를 운영. Anthropic이 사실상 컨테이너 인프라 회사가 됐다.

이 인프라 역량이 다른 AI 회사와 차별점이다. OpenAI는 ChatGPT 안에서 모든 게 일어나는 단일 인터페이스. Anthropic은 다양한 환경에 격리 인스턴스를 띄운다. 이 차이가 enterprise 도입에서 결정적이다.

7. "오픈소스 sandbox-runtime"의 전략

샌드박스 구현체를 Apache 2 오픈소스로 공개:

github.com/anthropic-experimental/sandbox-runtime

왜 오픈소스인가?

검증 가능성: 보안 도구는 투명성 필수
표준화 시도: 다른 에이전트 회사도 채택 → 산업 표준
개발자 신뢰: "Anthropic이 우리 보안에 진지하다" 시그널
커뮤니티 개선: 전문가들이 약점 발견·수정

이 패턴은 Anthropic의 MCP, Skills, Security Review GitHub Action 오픈소스 전략과 일관된다.

전략적 베팅: "우리가 표준을 정의하면 우리가 표준 위에서 가장 잘 작동한다." MCP가 이 베팅이 검증된 가장 큰 사례.

마무리

이 글은 권한 프롬프트의 시대를 종료시키는 선언이다.

93% 승인률 데이터: 권한 프롬프트가 보안 메커니즘으로 깨짐
샌드박스 = 자율 + 보안 동시: 패러독스의 해결
OS 수준 격리: trust the model → trust the OS
Lethal trifecta 부분 해체: 영향 격리로 공격 영향 최소화
Claude Code on the Web: 비동기 작업 패러다임
오픈소스 sandbox-runtime: 표준 정립 시도

2025년 10월 20일은 "AI 에이전트가 진지한 보안 모델을 갖춘 날" 이다. 이전엔 "AI가 위험한 짓 할 수 있어요, 매번 확인하세요" 였다. 이후엔 "AI에게 격리된 작업장을 줍니다, 그 안에서 자유롭게 일합니다" 다.

이 변화가 Claude Code의 enterprise 도입을 가속했다. CIO에게 "AI가 통제됩니다" 가 "매번 승인하세요" 보다 훨씬 설득력 있다. 같은 시기 발표된 Compliance API, Claude in Slack과 함께 이 글이 enterprise readiness의 마지막 퍼즐을 맞췄다.