LLM 애플리케이션, 특히 에이전트(Agent)나 도메인 특화 추론 시스템에서 컨텍스트 적응(Context Adaptation)은 핵심적인 역할을 합니다.
모델의 가중치를 업데이트하는 대신 프롬프트에 지침, 전략, 증거 등을 추가하여 모델의 행동을 개선하는 방식이죠.
하지만 기존의 컨텍스트 적응 방식들은 몇 가지 근본적인 문제점을 가지고 있었습니다.
(하기 논문에서는 ICL, MIPROv2, GEPA 등이 기존 방식으로 언급되었습니다)
기존 방식들은 도메인 특화 인사이트를 간결한 요약으로 압축하는 경향이 있습니다. 이 과정에서 실제로 유용한 세부 정보들이 손실됩니다.
예를 들어, 콘서트 티켓 예매를 자동화하는 에이전트가 있다고 가정해봅시다.
기존 방식은 "예매 페이지에 접속하여 좌석을 선택하고 결제를 완료하라"는 간결한 지침으로 요약합니다. 하지만 실제로 유용한 정보는
"인터파크는 오픈 10초 전에 새로고침하면 대기열에서 밀리니 정각에 맞춰야 한다"
"예스24는 좌석 선택 후 60초 내 결제하지 않으면 자동 취소되니 결제 정보를 미리 입력해둬야 한다"
"멜론티켓은 잔여석 확인 시 '새로고침' 대신 '뒤로가기 후 재진입'이 더 빠르다"
같은 구체적인 노하우입니다. 기존 방식은 이런 디테일을 "불필요하다"고 판단하여 제거해버립니다.
반복적인 재작성(iterative rewriting) 과정에서 중요한 세부 정보가 점진적으로 손실되는 현상입니다. 컨텍스트를 전체적으로 다시 생성할 때마다 이전에 축적된 지식의 일부가 사라지게 되는 것이죠.
이는 마치 여러 번 복사를 거치면서 원본의 품질이 점차 저하되는 것과 유사합니다. 각 iteration에서 조금씩 정보가 손실되면서, 결국 컨텍스트의 효용성이 크게 떨어지게 됩니다.
이러한 문제들을 해결하기 위해 Stanford와 SambaNova Systems의 연구팀이 ACE(Agentic Context Engineering)를 제안했습니다. ACE는 컨텍스트를 단순한 정적 프롬프트가 아닌, 진화하는 플레이북(Evolving Playbook)으로 다룹니다.

ACE는 Dynamic Cheatsheet의 에이전틱 설계를 기반으로, 세 가지 역할을 분리하여 운영합니다.
1. Generator (생성자)
2. Reflector (반성자)
3. Curator (큐레이터)
이 3가지 모듈은 인간의 학습 방식을 모방한 분업 방식을 사용했다고 합니다.
실험하고(Generator), 반성하고(Reflector), 통합하는(Curator) 과정을 거치는 것이죠.
ACE의 또 다른 핵심 혁신은 증분 델타 업데이트(Incremental Delta Updates) 방식입니다.
기존 방식들이 컨텍스트 전체를 새로 생성하는 반면, ACE는 작은 단위의 후보 bullet들만 생성하여 기존 컨텍스트에 통합합니다.
이를 통해:
가이드 문서를 처음부터 다시 작성하는 대신, 필요한 부분만 수정하고 추가하는 것이라고 이해하면 될 것 같습니다.
ACE는 컨텍스트의 지속적 확장과 중복 제어 사이의 균형을 유지합니다.
컨텍스트가 계속 커지기만 하면 토큰 비용이 증가하고 관련 정보를 찾기 어려워집니다. 반대로 너무 공격적으로 압축하면 중요한 정보가 손실됩니다. ACE는 이 균형점을 찾아 컨텍스트를 관리합니다.

후술될 벤치마크 결과는 두 가지 유형의 LLM 애플리케이션에서 평가되었습니다.
AppWorld는 멀티턴 추론, 도구 사용, 환경 상호작용이 필요한 에이전트 벤치마크입니다.
| 방법 | Test-Normal | Test-Challenge | 평균 |
|---|---|---|---|
| ReAct (Baseline) | 63.7 | 42.9 | 42.4 |
| ReAct + ACE (Offline) | 76.2 | 64.3 | 57.3 |
| ReAct + ACE (Online) | 69.6 | 53.6 | 59.5 |
ACE는 베이스라인 대비 평균 10.6%의 성능 향상을 달성했습니다.
특히 주목할 점은, ACE를 적용한 오픈소스 모델(DeepSeek-V3.1)이 AppWorld 리더보드에서 GPT-4.1 기반의 최상위 프로덕션급 에이전트(IBM CUGA)와 동등한 성능을 보였다는 것입니다.
더 어려운 test-challenge 분할에서는 오히려 8.4% 더 높은 성능을 기록했습니다.
금융 분석 벤치마크에서 ACE는 평균 8.6%의 성능 향상을 달성했습니다.
금융 도메인은 XBRL 규칙, 재무 개념 등 정확한 도메인 지식이 필요한 영역입니다.
고정된 데모나 모놀리식 최적화 프롬프트로는 한계가 있지만, ACE의 구조화되고 진화하는 컨텍스트는 이러한 도메인 지식을 효과적으로 축적할 수 있었습니다.
ACE는 성능 향상만 달성한 것이 아니라, 효율성 측면에서도 큰 개선을 보였습니다.
| 메트릭 | 개선 |
|---|---|
| 적응 지연 시간 | 82.3% ~ 91.5% 감소 |
| 필요한 롤아웃(agent 호출 회수) 수 | 75.1% 감소 |
| 토큰 비용 | 83.6% 감소 |
ACE의 또 다른 중요한 특징은 정답 레이블 없이도 효과적으로 적응할 수 있다는 점입니다.
기존의 많은 프롬프트들은 ground-truth 레이블을 이용해서 최적화되었습니다.
하지만 ACE는 실행 피드백(execution feedback)과 환경 신호만으로도 컨텍스트를 개선할 수 있습니다.
프로덕션 환경에서는 정답을 미리 준비해둘 수 없는 상황이 대부분이기 때문에, 레이블 없이 작동한다는 점이 ACE의 핵심 강점입니다.
ACE는 모든 상황에서 필요한 것은 아닙니다.
ACE가 유용한 경우:
ACE가 불필요한 경우:
ACE는 LLM 애플리케이션의 컨텍스트를 단순한 입력이 아닌, 진화하고 성장하는 지식 저장소로 바라보는 새로운 관점의 아이디어를 제시했습니다.
기존 방식들이 가진 간결성 편향과 컨텍스트 붕괴 문제를 해결하면서, 더 적은 비용으로 더 나은 성능을 달성했습니다. 특히 정답 레이블 없이도 자기 개선이 가능하다는 점은 변수가 많은 실제 프로덕션 환경에서 매우 중요하게 작용할 것으로 생각됩니다.
모델 자체를 변경하지 않고도 컨텍스트 엔지니어링만으로 상당한 성능 향상을 달성할 수 있다는 점은 확실히 흥미롭습니다.
가장 유명한 ACE 구현체를 찾아봤는데, 2달 전에 나온 개념이라 그런지 아직 초기 단계인 것 같습니다. playbook을 단일 파일로 관리하고 있고, deduplication 로직도 개선의 여지가 보입니다. 실사용 후기도 아직 많지 않은 상태구요. 다만 커밋이 활발하게 올라오고 있어서 앞으로가 기대됩니다.
프로덕션 레벨의 구현체가 나오면 실제 프로젝트에 적용해보고 싶네요.