Claude 블로그 되짚어보기 #88 — Web Search Dynamic Filtering, +11% 정확도 -24% 토큰 (2026)

panicdev·2026년 4월 29일

AI Anthropic Claude DynamicFiltering LLM agents websearch 블로그리뷰

원문 정보

제목: Increase web search accuracy and efficiency with dynamic filtering (Improved Web Search with Dynamic Filtering)
링크: claude.com/blog/improved-web-search-with-dynamic-filtering
발행: 2026년 2월 17일 (Sonnet 4.6 출시 동시)
카테고리: Claude Platform / Agents

글의 요지

Web search 도구가 dynamic filtering 추가. Claude가 search 결과를 코드로 직접 후처리 → context window 진입 전 노이즈 제거. 평균 11% 정확도 향상 + 24% 토큰 절감. Sonnet 4.6, Opus 4.6 동시 적용. API tool 버전 web_search_20260209.

문제 — Token 폭발

본문 인용:

"Web search is a highly token-intensive task. Agents using basic web search tools need to make a query, pull search results into context, fetch full HTML files from multiple websites, and reason over it all before responding."

(Web search = 토큰 매우 많이 먹는 작업. 쿼리 → 결과 풀 → 여러 사이트 HTML → 전부 추론)

전통 흐름:

쿼리 → 10 사이트 HTML
각 HTML = 50K 토큰
총 500K 토큰 context 차지
대부분이 navigation, 광고, boilerplate
신호 < 노이즈

해결 — Dynamic Filtering

새 흐름:

쿼리 → 결과 받음
Claude가 코드 작성:
- HTML 파싱
- 관련 콘텐츠 추출
- 노이즈 제거
필터링된 결과만 context 진입

핵심 차이:

이전: "raw HTML dump 추론"
새: "코드로 후처리 → 정제된 결과 추론"

벤치마크 결과

BrowseComp (어려운 정보 찾기)

모델	이전	Dynamic Filtering
Sonnet 4.6	33.3%	46.6% (+13.3%p)
Opus 4.6	45.3%	61.6% (+16.3%p)

DeepsearchQA (다중 답 검색, F1 score)

모델	이전	Dynamic Filtering
Sonnet 4.6	52.6%	59.4% (+6.8%p)
Opus 4.6	69.8%	77.3% (+7.5%p)

평균: +11% 정확도, -24% 토큰.

비용 영향

본문 디테일:

Sonnet 4.6: 두 벤치마크 모두 price-weighted token 감소
Opus 4.6: 일부 케이스에서 증가 (더 강력한 모델이 더 복잡한 코드 생성)
권장: 자기 쿼리 패턴으로 벤치마크

활성화 조건

API tool 버전: web_search_20260209
기본 활성화 (Sonnet 4.6, Opus 4.6)
Code Execution Tool 활성화 필수 (코드 실행 환경)
web_search + web_fetch 둘 다 적용

Quora 사례

본문 외 정보 (Blockchain News):

"Quora found Opus 4.6 with dynamic filtering achieved the highest accuracy against other frontier models on their internal evaluation."

(Quora가 Opus 4.6 + dynamic filtering이 다른 frontier 모델 모두 이김 — 자체 평가)

동시 GA — 관련 도구들

이 출시와 함께 GA 승격:

Code execution sandboxes
Persistent memory across conversations
Programmatic tool calling
Dynamic tool discovery

이게 "agentic infrastructure 전체 ready" 의 시그널.

2026년에 다시 읽으며 — 내가 본 것

1. "코드로 search 후처리"의 패러다임

이 변화의 깊이:

전통: AI가 "읽고 추론"
새: AI가 "코드 짜서 처리 → 추론"

이게 "AI 능력의 두 차원 결합" 의 정수다:

언어 능력: 의미 이해
코드 능력: 결정적 처리

같은 모델이 두 가지 모두 하니까 가능. ChatGPT 초기에는 어려웠던 패턴.

비교 — Python pandas 사용:

데이터 분석가: pandas 직접 코딩
일반인: 결과만 봄
AI: 둘 다 자동

이 "AI가 자기 도구 만들고 사용" 이 진짜 자율성이다.

2. "16%p BrowseComp 향상"의 시장 정의

Opus 4.6: 45.3% → 61.6% = +16.3%p

이게 "같은 모델, 다른 도구 = 16%p" 의미:

모델 자체 변화 X
도구 디자인 변화만으로
거대 향상

이게 "context engineering이 핵심 스킬" (#75) 의 검증이다:

프롬프트 X
도구 + 데이터 흐름
16%p = 거대 차이

3. "24% 토큰 절감"의 운영 ROI

24% 토큰 절감 = 24% 비용 절감 (input 기준).

거대 검색 사용자:

일 1M 검색
검색당 평균 50K input 토큰
일 토큰 = 50B
$5/1M 토큰 (Opus) = $250K/일
24% 절감 = $60K/일 = $22M/년

이게 거대 사용자의 "기능 1개 = $22M/년 절약" 의 ROI다.

4. "Code Execution Tool" 의 인프라 시그널

본문 디테일:

Dynamic filtering = Code Execution 활성화 필수
즉, AI가 격리 환경에서 Python 실행

이게 "AI 시대 인프라" 의 한 층:

모델 (추론)
- Code Execution (결정적 처리)
- Web Tools (실세계 데이터)
= 풀 agentic 시스템

비교 — 다른 AI 회사:

OpenAI Code Interpreter: 비슷
Google Gemini Code Execution: 비슷
그러나 Anthropic이 가장 깊이 통합

이 "통합 깊이" 가 차별점.

5. "Quora 검증"의 시장 시그널

Quora가 "Opus 4.6 + dynamic filtering = 최고" 발표:

Quora = 거대 Q&A 플랫폼
자체 AI 도구 (Poe)
다양한 모델 비교 가능
객관적 위치

Quora 검증의 시장 의미:

모든 frontier 모델 비교
Anthropic 우위 확인
다른 회사들에게 시그널

이게 third-party 검증의 marketing 가치다. 자기 자랑보다 강력.

6. "Sonnet 4.6 < Opus 4.6"의 격차

Dynamic Filtering 후:

Sonnet 4.6 BrowseComp: 46.6%
Opus 4.6 BrowseComp: 61.6%
격차 15%p

이 격차가 "왜 Opus 더 비싼가" 의 답:

Sonnet $3/1M vs Opus $5/1M
67% 더 비쌈
그러나 33% 더 정확

ROI 계산:

정확도 ↑ = 재시도 ↓ = 총 비용 ↓
결과 신뢰 ↑ = 인간 검증 시간 ↓
"비싸도 더 싸다" 패턴

이게 enterprise가 "비싼 모델 선택" 하는 이유다.

7. "Web Search → 11월 2025 출시"의 진화

타임라인:

2025년 11월 4일: Web Search API 출시
2026년 2월 17일 (이 글): Dynamic Filtering 추가

3개월 진화:

1단계: web search 가능 (기본)
2단계: dynamic filtering (효율)
3단계 예측: 자율 search 전략 (모델이 검색 plan 짜기)

이 "3개월 단위 진화" 가 Anthropic 가속의 정석이다.

8. "Agentic Workflow의 결정적 piece"

웹 검색이 agentic 시스템의 핵심:

정보 부족 → 검색
답변 → 컨텍스트
다음 단계 → 검색 또 함

Dynamic filtering이 이 사이클의 효율 극대화:

적은 토큰 → 더 많은 검색 가능
정확 결과 → 다음 단계 정확
누적 효과 거대

비교 — Research feature (#77):

10+ subagents 병렬 검색
각자 dynamic filtering
"10명이 10번 검색 = 100번"
전부 효율적

이 결합이 "Anthropic Research feature 우위" 의 토대다.

마무리

이 글은 "web search 업그레이드" 같지만, 실제로는 agentic system의 효율 한계 돌파다.

코드로 search 후처리: 패러다임 진화
16%p BrowseComp: 도구가 모델만큼 중요
24% 토큰 절감: $22M/년 ROI (거대 사용자)
Code Execution 필수: 인프라 통합 깊이
Quora 검증: third-party 시그널
Sonnet < Opus 격차 15%p: 가격-정확도 trade-off
3개월 진화: 출시 → 효율 → 자율
Research feature 결합: 가속 효과

2026년 2월 17일 시점은 "AI search = 단순 도구" 시대가 끝난 시점이다. AI search = 자기 코드 만들고 처리하는 자율 시스템.

흥미로운 건 이 변화가 "agentic infrastructure" 의 한 층이라는 점이다:

Layer 1: 모델 (Opus 4.6, Sonnet 4.6)
Layer 2: Tools (web search, fetch)
Layer 3: Dynamic Filtering (이 글)
Layer 4: Skills (#84)
Layer 5: MCP (#74)

각 층이 자기 효율 + 다른 층과 시너지. 결과 = 거대 멀티 단계 가속.

핵심 깨달음 — "AI 가속이 모델만 X, 인프라 통합":

모델만 향상 = 일부 ROI
- 도구 효율 = 누적 ROI
- 통합 깊이 = 거대 ROI

Anthropic이 이 모든 층 동시에 진화 = 시장 우위 굳힘. OpenAI가 모델만 빠르게 출시해도 통합 깊이 따라잡기 어려움. 이게 "infrastructure first" 베팅의 가치다.

panicdev

이전 포스트

Claude 블로그 되짚어보기 #87 — Enterprise Self-Serve, PLG의 enterprise 침투 (2026)

다음 포스트