지난주에 Anthropic이 Project Glasswing을 발표하면서
"Mythos Preview는 제한 출시하고, 사이버 보안 기능은 한 단계 낮은 모델들에서 먼저 테스트하겠다"고 했었다.
그 첫 번째 모델이 오늘 나왔다.

경고했던 Mythos와는 다른, 기존 Opus 4.6 라인을 개선한 모델이다.
진짜 그동안의 유출이 마케팅이었는지, 기대감이 좀 증폭된다.
Mythos Preview가 여전히 상한선이긴 하다는데, 그건 일반 사용자한테 제공을 안 하니까.
평소 업데이트와 같이 당장 우리가 쓸 수 있는 가장 센 모델이 4.7로 바뀌었다고 보면 된다.
공식 포스팅에 이런 말이 있다.
"previous models interpreted instructions loosely or skipped parts entirely, Opus 4.7 takes the instructions literally"
기존 모델들은 프롬프트를 느슨하게 해석하거나 일부를 그냥 스킵했는데, 4.7은 문자 그대로 받아들인다는 거다.
그래서 4.6 시절에 잘 돌아가던 프롬프트가 4.7에서는 이상한 결과를 뱉을 수 있다.
프롬프트랑 하네스 재튜닝이 필요하다고 공식적으로 경고하고 있다.

사이드 프로젝트에서 Claude API 쓰고 있는 사람은 기존 프롬프트가 제대로 동작하는지 한 번 돌려봐야 할 것 같다.
특히 agentic 워크플로 짜놓은 경우엔 더 그렇다.
긴 변 기준 2,576픽셀까지 받는다.
대략 3.75 메가픽셀이고 기존 대비 3배 이상이다.
이게 왜 중요하냐면,
컴퓨터 유즈 에이전트가 밀도 높은 스크린샷을 읽거나, 복잡한 다이어그램에서 데이터를 뽑거나, 픽셀 단위 정밀도가 필요한 작업을 할 때 이전 해상도로는 디테일이 뭉개졌다.
로봇 쪽에서도 기구적인 이미지를 먹여 제어 코드 리뷰를 하거나 카메라 이미지 자체를 LLM에 먹여서 판단받는 파이프라인이 있으면 영향이 크다.
API 파라미터가 아니라 모델 레벨 변경이라서,
그냥 이미지 보내기만 하면 알아서 더 높은 해상도로 처리한다.
대신 물론 토큰은 더 먹는다.
필요 없으면 다운샘플링해서 보내라고 안내하고 있다.
파일 시스템 기반 메모리를 잘 활용한다고 한다.

긴 세션, 여러 세션에 걸친 작업에서 중요한 노트를 기억하고, 그 다음 작업에 덜 반복된 컨텍스트로 들어간다.
Claude Code로 큰 프로젝트 이어서 작업하는 사람한텐 꽤 실용적인 변화다.
재미있는 건, 단순 코딩 벤치만 올린 게 아니라 "실제 일"에 강해졌다는 걸 꽤 강조한다.
Finance Agent 평가에서 SOTA 찍었고, GDPval-AA(경제적 가치가 있는 지식 노동 전반을 평가하는 서드파티 벤치)에서도 SOTA라고 한다.
파워포인트, 문서, 재무 모델 같은 아웃풋 퀄리티가 올라갔다는 소리다.
같이 나온 업데이트 중에 Claude Code 관련이 제일 크다.
/ultrareview 슬래시 커맨드가 새로 생겼다.
변경 사항을 처음부터 끝까지 읽으면서 버그랑 설계 이슈를 잡아주는 전용 리뷰 세션이다.
꼼꼼한 리뷰어가 잡을 만한 것들을 잡도록 설계됐다고 하며, Pro랑 Max 플랜 사용자한테 3번 무료로 체험하게 해주고 있다.
Auto mode가 Max 플랜으로 확대됐다.
권한 옵션인데, Claude가 알아서 결정하면서 작업하는 모드다.
"권한 전부 스킵"보다는 안전하면서도 긴 작업을 덜 방해받고 돌릴 수 있다는 포지셔닝이다.
완전히 맡기긴 무섭지만 매번 물어보는 것도 피곤한 사람들 위한 타협점.
기본 effort가 xhigh로 올라간 것도 Claude Code 한정이다.
모든 플랜에 다 적용. 코딩이나 에이전틱 유즈 케이스면 high 또는 xhigh부터 시작하라고 권장한다.
마이그레이션 가이드에서 토큰 사용량 관련해서 두 가지를 짚는다.
토크나이저가 업데이트됐다. 같은 입력이 1.0~1.35배 정도 더 많은 토큰으로 매핑된다. 컨텐츠 타입에 따라 다름.
높은 effort 레벨에서 에이전틱 세팅 후반 턴으로 갈수록 더 많이 "생각"한다. 어려운 문제 신뢰도는 올라가는데, 아웃풋 토큰이 더 나온다는 뜻이다.
토큰 쓰는 게 부담되면 effort 파라미터 낮추거나, task budget 조정하거나, 간결하게 답하라고 프롬프팅하면 된다. 참고로 task budget이 public beta로 새로 나왔다. 긴 런에서 Claude가 토큰 예산을 어떻게 쓸지 개발자가 가이드할 수 있는 기능이다.
Anthropic 쪽 자체 벤치에서는 effort 레벨 전반에서 토큰 대비 성능이 좋아졌다고 하는데, 이건 진짜 자기 트래픽에서 재보는 게 맞다.
이번 릴리즈는 Project Glasswing 기조의 첫 실전 적용이다.
4.7은 Mythos만큼 능력이 높지 않고, 학습 단계에서 "사이버 보안 관련 능력을 차등적으로 낮추는" 실험까지 거쳤다.
금지되거나 고위험인 사이버 관련 요청은 자동으로 탐지하고 차단하는 세이프가드가 들어가 있다.
이게 취약점 연구, 침투 테스트, 레드팀처럼 합법적인 보안 업무에는 걸림돌이 될 수 있는데,
Anthropic이 Cyber Verification Program을 새로 운영한다.
검증된 보안 전문가면 따로 신청해서 쓰는 구조라고 한다.
내 본업에서는 Claude를 제어 루프에 직접 넣지는 않지만, 분석이나 문서화, 코드 리뷰 쪽에 유용하게 쓰고 있다.
4.7 관련해서는 바로 체감을 해볼 수 있을 것 같아 당장 오늘부터 진행해보고자 한다.

요약하자면, Mythos급의 광범위한 능력은 아니지만 상당 부분이 개선된 Opus 4.7.
토큰 당 가격은 그대로고, 인스트럭션 팔로잉 개선, 비전 강화, Claude Code UX 업데이트까지 있었다~
이 글은 아래 공식포스팅을 참고했다.
공식 포스팅: Introducing Claude Opus 4.7
오 감사합니다!