정답 없이도 스스로 학습하는 LLM 에이전트: ACE의 등장

준서·2025년 12월 18일

기술 소개

목록 보기

3/5

짧은 정리

문제: 기존 컨텍스트 적응 방식은 중요한 디테일을 잃어버리는 Brevity Bias와 반복 업데이트 시 정보가 사라지는 Context Collapse 문제가 있음
해결책: ACE는 컨텍스트를 진화하는 플레이북으로 다루며, Generator(실행) → Reflector(반성) → Curator(통합)의 3단계 파이프라인으로 지식을 축적
핵심 혁신: 전체 재작성 대신 Delta Updates(점진적 업데이트)로 기존 지식 보존 + 비용 절감
성능: 에이전트 벤치마크 +10.6%, 금융 도메인 +8.6% 향상. 오픈소스 모델이 GPT-4.1 기반 최상위 에이전트와 동등한 성능 달성
효율성: 적응 지연 시간 86.9% 감소, 토큰 비용 83.6% 감소
특징: 정답 레이블 없이 실행 피드백만으로 자기 개선 가능

기존 컨텍스트 적응 방식의 한계

LLM 애플리케이션, 특히 에이전트(Agent)나 도메인 특화 추론 시스템에서 컨텍스트 적응(Context Adaptation)은 핵심적인 역할을 합니다.
모델의 가중치를 업데이트하는 대신 프롬프트에 지침, 전략, 증거 등을 추가하여 모델의 행동을 개선하는 방식이죠.
하지만 기존의 컨텍스트 적응 방식들은 몇 가지 근본적인 문제점을 가지고 있었습니다.

(하기 논문에서는 ICL, MIPROv2, GEPA 등이 기존 방식으로 언급되었습니다)

Brevity Bias (간결성 편향)

기존 방식들은 도메인 특화 인사이트를 간결한 요약으로 압축하는 경향이 있습니다. 이 과정에서 실제로 유용한 세부 정보들이 손실됩니다.

예를 들어, 콘서트 티켓 예매를 자동화하는 에이전트가 있다고 가정해봅시다.

기존 방식은 "예매 페이지에 접속하여 좌석을 선택하고 결제를 완료하라"는 간결한 지침으로 요약합니다. 하지만 실제로 유용한 정보는

"인터파크는 오픈 10초 전에 새로고침하면 대기열에서 밀리니 정각에 맞춰야 한다"

"예스24는 좌석 선택 후 60초 내 결제하지 않으면 자동 취소되니 결제 정보를 미리 입력해둬야 한다"

"멜론티켓은 잔여석 확인 시 '새로고침' 대신 '뒤로가기 후 재진입'이 더 빠르다"

같은 구체적인 노하우입니다. 기존 방식은 이런 디테일을 "불필요하다"고 판단하여 제거해버립니다.

Context Collapse (컨텍스트 붕괴)

반복적인 재작성(iterative rewriting) 과정에서 중요한 세부 정보가 점진적으로 손실되는 현상입니다. 컨텍스트를 전체적으로 다시 생성할 때마다 이전에 축적된 지식의 일부가 사라지게 되는 것이죠.

이는 마치 여러 번 복사를 거치면서 원본의 품질이 점차 저하되는 것과 유사합니다. 각 iteration에서 조금씩 정보가 손실되면서, 결국 컨텍스트의 효용성이 크게 떨어지게 됩니다.

ACE (Agentic Context Engineering) 소개

이러한 문제들을 해결하기 위해 Stanford와 SambaNova Systems의 연구팀이 ACE(Agentic Context Engineering)를 제안했습니다. ACE는 컨텍스트를 단순한 정적 프롬프트가 아닌, 진화하는 플레이북(Evolving Playbook)으로 다룹니다.

ACE의 3가지 핵심 컴포넌트

ACE는 Dynamic Cheatsheet의 에이전틱 설계를 기반으로, 세 가지 역할을 분리하여 운영합니다.

1. Generator (생성자)

실제 태스크를 수행하며 추론 궤적(reasoning trajectory)을 생성합니다.
에이전트가 환경과 상호작용하면서 만들어내는 모든 시도와 결과물을 담당합니다.

2. Reflector (반성자)

Generator의 성공과 실패로부터 구체적인 인사이트를 추출합니다.
ACE의 핵심 혁신 중 하나로, 평가와 인사이트 추출을 별도의 컴포넌트로 분리했습니다.
이를 통해 컨텍스트 품질과 하류 태스크 성능이 크게 향상됩니다.

3. Curator (큐레이터)

Reflector가 추출한 인사이트(논문에선 bullet이라고 표현함)를 구조화된 컨텍스트 업데이트로 통합합니다.
중복을 제거하고, 관련 정보를 체계적으로 조직화합니다.

이 3가지 모듈은 인간의 학습 방식을 모방한 분업 방식을 사용했다고 합니다.
실험하고(Generator), 반성하고(Reflector), 통합하는(Curator) 과정을 거치는 것이죠.

점진적 업데이트 전략

ACE의 또 다른 핵심 혁신은 증분 델타 업데이트(Incremental Delta Updates) 방식입니다.

기존 방식들이 컨텍스트 전체를 새로 생성하는 반면, ACE는 작은 단위의 후보 bullet들만 생성하여 기존 컨텍스트에 통합합니다.

이를 통해:

전체 재작성에 따른 계산 비용과 지연 시간을 크게 줄입니다
과거에 축적된 지식이 보존됩니다
새로운 인사이트가 점진적으로 추가됩니다

가이드 문서를 처음부터 다시 작성하는 대신, 필요한 부분만 수정하고 추가하는 것이라고 이해하면 될 것 같습니다.

Grow-and-Refine 메커니즘

ACE는 컨텍스트의 지속적 확장과 중복 제어 사이의 균형을 유지합니다.

컨텍스트가 계속 커지기만 하면 토큰 비용이 증가하고 관련 정보를 찾기 어려워집니다. 반대로 너무 공격적으로 압축하면 중요한 정보가 손실됩니다. ACE는 이 균형점을 찾아 컨텍스트를 관리합니다.

실험 결과: ACE의 효과

후술될 벤치마크 결과는 두 가지 유형의 LLM 애플리케이션에서 평가되었습니다.

에이전트 벤치마크 (AppWorld)

AppWorld는 멀티턴 추론, 도구 사용, 환경 상호작용이 필요한 에이전트 벤치마크입니다.

방법	Test-Normal	Test-Challenge	평균
ReAct (Baseline)	63.7	42.9	42.4
ReAct + ACE (Offline)	76.2	64.3	57.3
ReAct + ACE (Online)	69.6	53.6	59.5

ACE는 베이스라인 대비 평균 10.6%의 성능 향상을 달성했습니다.

특히 주목할 점은, ACE를 적용한 오픈소스 모델(DeepSeek-V3.1)이 AppWorld 리더보드에서 GPT-4.1 기반의 최상위 프로덕션급 에이전트(IBM CUGA)와 동등한 성능을 보였다는 것입니다.

더 어려운 test-challenge 분할에서는 오히려 8.4% 더 높은 성능을 기록했습니다.

도메인 특화 벤치마크 (금융 분석)

금융 분석 벤치마크에서 ACE는 평균 8.6%의 성능 향상을 달성했습니다.

금융 도메인은 XBRL 규칙, 재무 개념 등 정확한 도메인 지식이 필요한 영역입니다.

고정된 데모나 모놀리식 최적화 프롬프트로는 한계가 있지만, ACE의 구조화되고 진화하는 컨텍스트는 이러한 도메인 지식을 효과적으로 축적할 수 있었습니다.

비용 및 속도 효율성

ACE는 성능 향상만 달성한 것이 아니라, 효율성 측면에서도 큰 개선을 보였습니다.

메트릭	개선
적응 지연 시간	82.3% ~ 91.5% 감소
필요한 롤아웃(agent 호출 회수) 수	75.1% 감소
토큰 비용	83.6% 감소

레이블 없이도 작동하는 자기 개선

ACE의 또 다른 중요한 특징은 정답 레이블 없이도 효과적으로 적응할 수 있다는 점입니다.

기존의 많은 프롬프트들은 ground-truth 레이블을 이용해서 최적화되었습니다.
하지만 ACE는 실행 피드백(execution feedback)과 환경 신호만으로도 컨텍스트를 개선할 수 있습니다.

프로덕션 환경에서는 정답을 미리 준비해둘 수 없는 상황이 대부분이기 때문에, 레이블 없이 작동한다는 점이 ACE의 핵심 강점입니다.

ACE가 적합한 상황

ACE는 모든 상황에서 필요한 것은 아닙니다.

ACE가 유용한 경우:

상세한 도메인 지식이 필요한 태스크
복잡한 도구 사용이 필요한 경우
환경 특화 전략이 모델 가중치나 단순 시스템 지침에 담기지 않는 경우

ACE가 불필요한 경우:

"이 글 세 줄로 요약해줘" 같은 단순 태스크
단위 변환기처럼 고정된 공식만 적용하면 되는 경우

마무리

ACE는 LLM 애플리케이션의 컨텍스트를 단순한 입력이 아닌, 진화하고 성장하는 지식 저장소로 바라보는 새로운 관점의 아이디어를 제시했습니다.

기존 방식들이 가진 간결성 편향과 컨텍스트 붕괴 문제를 해결하면서, 더 적은 비용으로 더 나은 성능을 달성했습니다. 특히 정답 레이블 없이도 자기 개선이 가능하다는 점은 변수가 많은 실제 프로덕션 환경에서 매우 중요하게 작용할 것으로 생각됩니다.

모델 자체를 변경하지 않고도 컨텍스트 엔지니어링만으로 상당한 성능 향상을 달성할 수 있다는 점은 확실히 흥미롭습니다.

가장 유명한 ACE 구현체를 찾아봤는데, 2달 전에 나온 개념이라 그런지 아직 초기 단계인 것 같습니다. playbook을 단일 파일로 관리하고 있고, deduplication 로직도 개선의 여지가 보입니다. 실사용 후기도 아직 많지 않은 상태구요. 다만 커밋이 활발하게 올라오고 있어서 앞으로가 기대됩니다.

프로덕션 레벨의 구현체가 나오면 실제 프로젝트에 적용해보고 싶네요.

준서

그럴 수 있지

이전 포스트

Protobuf는 어떻게 데이터를 표현할까

다음 포스트