최근 AI Agent 도메인 내 Harness 용어 노출 빈도가 급증하고 있다.
사실 Harness 자체는 새로운 개념이 아니다. 기존 소프트웨어 엔지니어링 영역에서 수십 년간 검증된 패러다임에 수렴한다.
LLM Agent 문맥에서는 2023년 이후 시스템 안정성 확보를 위한 핵심 아키텍처로 부상하는 추세다.

하네스(Harness)는 AI 에이전트 아키텍처에서 모델(LLM)을 제외한 실행 및 제어 계층(Runtime Layer) 전체를 의미한다.
Agent = Model + Harness
여기서 Harness는
모델 자체를 제외한 Runtime 계층 전체를 의미.
특히 Coding Agent 문맥에서는
System PromptMemoryTool RuntimePlannerRetry LogicVerificationSandboxTracing같은 실행 계층까지 포함하는 경우가 많음.
초기 LLM Agent 시스템은 Prompt Engineering 중심 구조 비중 높음.
좋은 Prompt 작성 더 안정적인 Agent 생성
같은 접근 방식
하지만 작업 규모 증가와 함께 여러 한계 노출이 되기 시작했는데
특히 Long-running task 환경에서
Context Overflow상태 손실Tool 선택 오류실패 루프 반복작업 길이 증가와 함께
state consistency 유지 비용 증가.
예를 들어
"React 기반 Dashboard 애플리케이션 생성"
같은 작업 수행 시 초기 결과는 자연스럽게 생성되는 경우가 많음.
하지만 작업 규모 증가 이후:
현상 반복.
즉, 문제 핵심은 단순 생성 능력보다
- 작업 상태 유지
- 오류 복구
영역에 더 가까움.
그리고 이 영역 담당 주체가 바로 Harness
Agent의 핵심 문제는 generation보다 execution 영역에 가까워지는 중.
Harness 목적은 모델 capability 확장보다
실행 안정성 확보에 가까움.
오히려 핵심은 아래와 같음
실행 상태 유지실패 복구결과 검증Runtime 안정성 확보대부분 Agent Harness 내부에는 아래 요소 포함하는데
User
↓
Harness
├─ Prompt
├─ Memory
├─ Planner
├─ Tool Router
├─ Verifier
├─ Retry Loop
├─ Sandbox
└─ Tracing
↓
LLM
각 요소 역할이 분리되어 있다.
즉 Harness는 단순 Prompt Wrapper가 아님
LLM을 실제 작업 환경에서 안정적으로 실행하기 위한 Runtime System에 가깝다.
최근 Agent 시스템 경쟁력은
단순 모델 크기보다 Runtime 구조 영역으로 이동 중.
특히:
중요성 증가.
대표 사례로는 Cursor, Claude, OpenHands 이런 시스템들은 단순 Prompt Layer보다 Runtime Layer 설계 비중이 확대되어 있음
실제 최근 Agent 분야에서는
과거에는:
좋은 Agent = 좋은 Model
관점 비중이 높았다면,
최근에는:
좋은 Agent = 좋은 Harness
방향으로 이동 중.
관점으로 확산 중이다.
Prompt Engineering 시대 핵심은:
어떻게 생성할 것인가
반면 최근 Agent 시스템 핵심은:
즉, Agent 중심 문제는 generation보다 execution 영역으로 이동 중.
Harness는 이런 Runtime Layer 전체를 설명하는 개념으로 자리잡는 중.