Claude 블로그 되짚어보기 #88 — Web Search Dynamic Filtering, +11% 정확도 -24% 토큰 (2026)

panicdev·2026년 4월 29일

원문 정보

글의 요지

Web search 도구가 dynamic filtering 추가. Claude가 search 결과를 코드로 직접 후처리 → context window 진입 전 노이즈 제거. 평균 11% 정확도 향상 + 24% 토큰 절감. Sonnet 4.6, Opus 4.6 동시 적용. API tool 버전 web_search_20260209.

문제 — Token 폭발

본문 인용:

"Web search is a highly token-intensive task. Agents using basic web search tools need to make a query, pull search results into context, fetch full HTML files from multiple websites, and reason over it all before responding."

(Web search = 토큰 매우 많이 먹는 작업. 쿼리 → 결과 풀 → 여러 사이트 HTML → 전부 추론)

전통 흐름:

  • 쿼리 → 10 사이트 HTML
  • 각 HTML = 50K 토큰
  • 총 500K 토큰 context 차지
  • 대부분이 navigation, 광고, boilerplate
  • 신호 < 노이즈

해결 — Dynamic Filtering

새 흐름:

  • 쿼리 → 결과 받음
  • Claude가 코드 작성:
    • HTML 파싱
    • 관련 콘텐츠 추출
    • 노이즈 제거
  • 필터링된 결과만 context 진입

핵심 차이:

  • 이전: "raw HTML dump 추론"
  • 새: "코드로 후처리 → 정제된 결과 추론"

벤치마크 결과

BrowseComp (어려운 정보 찾기)

모델이전Dynamic Filtering
Sonnet 4.633.3%46.6% (+13.3%p)
Opus 4.645.3%61.6% (+16.3%p)

DeepsearchQA (다중 답 검색, F1 score)

모델이전Dynamic Filtering
Sonnet 4.652.6%59.4% (+6.8%p)
Opus 4.669.8%77.3% (+7.5%p)

평균: +11% 정확도, -24% 토큰.

비용 영향

본문 디테일:

  • Sonnet 4.6: 두 벤치마크 모두 price-weighted token 감소
  • Opus 4.6: 일부 케이스에서 증가 (더 강력한 모델이 더 복잡한 코드 생성)
  • 권장: 자기 쿼리 패턴으로 벤치마크

활성화 조건

  • API tool 버전: web_search_20260209
  • 기본 활성화 (Sonnet 4.6, Opus 4.6)
  • Code Execution Tool 활성화 필수 (코드 실행 환경)
  • web_search + web_fetch 둘 다 적용

Quora 사례

본문 외 정보 (Blockchain News):

"Quora found Opus 4.6 with dynamic filtering achieved the highest accuracy against other frontier models on their internal evaluation."

(Quora가 Opus 4.6 + dynamic filtering이 다른 frontier 모델 모두 이김 — 자체 평가)

동시 GA — 관련 도구들

이 출시와 함께 GA 승격:

  • Code execution sandboxes
  • Persistent memory across conversations
  • Programmatic tool calling
  • Dynamic tool discovery

이게 "agentic infrastructure 전체 ready" 의 시그널.


2026년에 다시 읽으며 — 내가 본 것

1. "코드로 search 후처리"의 패러다임

이 변화의 깊이:

  • 전통: AI가 "읽고 추론"
  • 새: AI가 "코드 짜서 처리 → 추론"

이게 "AI 능력의 두 차원 결합" 의 정수다:

  • 언어 능력: 의미 이해
  • 코드 능력: 결정적 처리

같은 모델이 두 가지 모두 하니까 가능. ChatGPT 초기에는 어려웠던 패턴.

비교 — Python pandas 사용:

  • 데이터 분석가: pandas 직접 코딩
  • 일반인: 결과만 봄
  • AI: 둘 다 자동

"AI가 자기 도구 만들고 사용" 이 진짜 자율성이다.

2. "16%p BrowseComp 향상"의 시장 정의

Opus 4.6: 45.3% → 61.6% = +16.3%p

이게 "같은 모델, 다른 도구 = 16%p" 의미:

  • 모델 자체 변화 X
  • 도구 디자인 변화만으로
  • 거대 향상

이게 "context engineering이 핵심 스킬" (#75) 의 검증이다:

  • 프롬프트 X
  • 도구 + 데이터 흐름
  • 16%p = 거대 차이

3. "24% 토큰 절감"의 운영 ROI

24% 토큰 절감 = 24% 비용 절감 (input 기준).

거대 검색 사용자:

  • 일 1M 검색
  • 검색당 평균 50K input 토큰
  • 일 토큰 = 50B
  • $5/1M 토큰 (Opus) = $250K/일
  • 24% 절감 = $60K/일 = $22M/년

이게 거대 사용자의 "기능 1개 = $22M/년 절약" 의 ROI다.

4. "Code Execution Tool" 의 인프라 시그널

본문 디테일:

  • Dynamic filtering = Code Execution 활성화 필수
  • 즉, AI가 격리 환경에서 Python 실행

이게 "AI 시대 인프라" 의 한 층:

  • 모델 (추론)
    • Code Execution (결정적 처리)
    • Web Tools (실세계 데이터)
  • = 풀 agentic 시스템

비교 — 다른 AI 회사:

  • OpenAI Code Interpreter: 비슷
  • Google Gemini Code Execution: 비슷
  • 그러나 Anthropic이 가장 깊이 통합

"통합 깊이" 가 차별점.

5. "Quora 검증"의 시장 시그널

Quora가 "Opus 4.6 + dynamic filtering = 최고" 발표:

  • Quora = 거대 Q&A 플랫폼
  • 자체 AI 도구 (Poe)
  • 다양한 모델 비교 가능
  • 객관적 위치

Quora 검증의 시장 의미:

  • 모든 frontier 모델 비교
  • Anthropic 우위 확인
  • 다른 회사들에게 시그널

이게 third-party 검증의 marketing 가치다. 자기 자랑보다 강력.

6. "Sonnet 4.6 < Opus 4.6"의 격차

Dynamic Filtering 후:

  • Sonnet 4.6 BrowseComp: 46.6%
  • Opus 4.6 BrowseComp: 61.6%
  • 격차 15%p

이 격차가 "왜 Opus 더 비싼가" 의 답:

  • Sonnet $3/1M vs Opus $5/1M
  • 67% 더 비쌈
  • 그러나 33% 더 정확

ROI 계산:

  • 정확도 ↑ = 재시도 ↓ = 총 비용 ↓
  • 결과 신뢰 ↑ = 인간 검증 시간 ↓
  • "비싸도 더 싸다" 패턴

이게 enterprise가 "비싼 모델 선택" 하는 이유다.

7. "Web Search → 11월 2025 출시"의 진화

타임라인:

  • 2025년 11월 4일: Web Search API 출시
  • 2026년 2월 17일 (이 글): Dynamic Filtering 추가

3개월 진화:

  • 1단계: web search 가능 (기본)
  • 2단계: dynamic filtering (효율)
  • 3단계 예측: 자율 search 전략 (모델이 검색 plan 짜기)

"3개월 단위 진화" 가 Anthropic 가속의 정석이다.

8. "Agentic Workflow의 결정적 piece"

웹 검색이 agentic 시스템의 핵심:

  • 정보 부족 → 검색
  • 답변 → 컨텍스트
  • 다음 단계 → 검색 또 함

Dynamic filtering이 이 사이클의 효율 극대화:

  • 적은 토큰 → 더 많은 검색 가능
  • 정확 결과 → 다음 단계 정확
  • 누적 효과 거대

비교 — Research feature (#77):

  • 10+ subagents 병렬 검색
  • 각자 dynamic filtering
  • "10명이 10번 검색 = 100번"
  • 전부 효율적

이 결합이 "Anthropic Research feature 우위" 의 토대다.


마무리

이 글은 "web search 업그레이드" 같지만, 실제로는 agentic system의 효율 한계 돌파다.

  • 코드로 search 후처리: 패러다임 진화
  • 16%p BrowseComp: 도구가 모델만큼 중요
  • 24% 토큰 절감: $22M/년 ROI (거대 사용자)
  • Code Execution 필수: 인프라 통합 깊이
  • Quora 검증: third-party 시그널
  • Sonnet < Opus 격차 15%p: 가격-정확도 trade-off
  • 3개월 진화: 출시 → 효율 → 자율
  • Research feature 결합: 가속 효과

2026년 2월 17일 시점은 "AI search = 단순 도구" 시대가 끝난 시점이다. AI search = 자기 코드 만들고 처리하는 자율 시스템.

흥미로운 건 이 변화가 "agentic infrastructure" 의 한 층이라는 점이다:

  • Layer 1: 모델 (Opus 4.6, Sonnet 4.6)
  • Layer 2: Tools (web search, fetch)
  • Layer 3: Dynamic Filtering (이 글)
  • Layer 4: Skills (#84)
  • Layer 5: MCP (#74)

각 층이 자기 효율 + 다른 층과 시너지. 결과 = 거대 멀티 단계 가속.

핵심 깨달음 — "AI 가속이 모델만 X, 인프라 통합":

  • 모델만 향상 = 일부 ROI
    • 도구 효율 = 누적 ROI
    • 통합 깊이 = 거대 ROI

Anthropic이 이 모든 층 동시에 진화 = 시장 우위 굳힘. OpenAI가 모델만 빠르게 출시해도 통합 깊이 따라잡기 어려움. 이게 "infrastructure first" 베팅의 가치다.

0개의 댓글