[논문 리뷰] SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering

smj·2026년 3월 31일

review

목록 보기

3/30

한줄 요약: LLM의 능력만큼이나 에이전트가 코드베이스를 탐색/편집하는 인터페이스(ACI) 설계가 소프트웨어 엔지니어링 성능을 좌우한다.

항목	내용
저자	John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan 외
소속	Princeton University
발표	2024.05
링크	arxiv.org/abs/2405.15793
키워드	Coding Agent, ACI Design, SWE-bench, HCI for AI

1. 문제 정의

LLM 기반 코딩 에이전트 연구는 "어떤 모델을 쓸 것인가"에 집중한다. 하지만 에이전트가 코드베이스를 어떻게 탐색하고 편집하는가 — 즉 Agent-Computer Interface(ACI)의 설계도 성능에 결정적이다. HCI(Human-Computer Interface) 분야에서는 인터페이스 설계가 사용자 생산성을 좌우한다는 것이 상식이지만, AI 에이전트에 이 원칙을 적용한 체계적 연구가 없었다.

2. 제안 방법

ACI 설계 원칙 (HCI에서 차용)

원칙	HCI 예시	ACI 적용
피드백 밀도	타이핑 시 즉시 오류 표시	코드 편집 후 즉시 구문 검사
정보 구조화	화면에 필요한 정보만 표시	파일을 100줄 단위로 제시
인지 부하 감소	메뉴/단축키로 행동 제한	명확한 명령어 세트 제공
오류 예방	undo/redo 제공	편집 실패 시 자동 롤백

구체적 ACI 도구

파일 탐색:
  find_file "test_utils.py"    → 레포 전체에서 파일 검색
  search_dir "def forward"     → 디렉토리 내 텍스트 검색
  open "src/model.py"          → 파일 열기 (100줄씩 표시)

파일 뷰어:
  scroll_down                  → 100줄 아래로
  scroll_up                    → 100줄 위로
  goto 250                     → 250번 줄로 이동
  search_file "class Model"    → 파일 내 검색

편집:
  edit 15:20                   → 15-20번 줄 편집 모드
  → 편집 후 자동 구문 검사     → 에러 시 원본 복원
  → 성공 시 diff 표시

실행:
  python -m pytest tests/      → 테스트 실행
  python reproduce.py          → 재현 스크립트 실행

핵심: 구문 검사 + 자동 롤백

일반 에이전트:
  편집 → 저장 → 실행 → (수십 줄 뒤) SyntaxError 발견
  → 에이전트가 에러 위치를 다시 찾아야 함

SWE-Agent:
  편집 → 즉시 구문 검사 → SyntaxError!
  → 자동으로 원본 복원 → 에이전트에게 즉각 피드백
  "편집이 구문 오류를 포함합니다. 원본이 복원되었습니다.
   오류: line 17, unexpected indent"
  → 에이전트가 즉시 수정

3. 실험 결과

3.1 SWE-bench Lite (300개 이슈)

에이전트	모델	해결률
RAG baseline	GPT-4	1.31%
Shell-only agent	GPT-4	1.96%
SWE-Agent	GPT-4	12.47%
SWE-Agent	Claude 3 Opus	18.13%

3.2 ACI 어블레이션 (GPT-4 기준)

변형	해결률	변화
SWE-Agent (full ACI)	12.47%	기준
− 편집 구문검사 제거	10.15%	−2.32%p
− 파일 뷰어 단순화	9.87%	−2.60%p
− 검색 도구 제거	8.44%	−4.03%p
모든 ACI 제거 (raw shell)	1.96%	−10.51%p

→ 같은 GPT-4인데 ACI만으로 1.96% → 12.47%, 6배 이상 차이

3.3 에이전트 행동 분석

평균 이슈 해결 시 ~25회 도구 호출 (탐색 ~12회, 편집 ~8회, 실행 ~5회)
실패 원인 분석:
- 잘못된 파일 편집: 28%
- 관련 코드를 찾지 못함: 24%
- 논리적 오류: 22%
- 테스트 미통과: 18%
- 기타: 8%

4. 한계점

Python 프로젝트에 한정: SWE-bench가 Python 전용 → 다른 언어/프레임워크 미검증
절대 해결률 낮음: 12-18%는 실전 배포에 부족 (2024년 말 기준 SOTA는 ~50%+)
ACI 설계가 수작업: 최적 ACI를 자동으로 탐색/학습하는 방법은 미탐구
비용: GPT-4 기준 이슈당 평균 $1-4 — 대규모 적용 시 비용 문제
에이전트 전략이 단순: ReAct (linear reasoning) — 트리 기반 탐색 미적용
코드베이스 이해의 한계: 전체 아키텍처를 파악하기보다 키워드 검색에 의존

5. 의의와 영향

"인터페이스 설계가 모델 선택만큼 중요하다" — 에이전트 시스템 설계의 패러다임 전환
SWE-bench를 코딩 에이전트의 사실상 표준 벤치마크로 확립한 Princeton 그룹의 연구
HCI → ACI라는 새로운 연구 분야 개척
OpenHands, Aider, Devon, Claude Code 등 후속 코딩 에이전트 모두 ACI 설계를 핵심 고려사항으로 채택

6. 💬 리뷰어 코멘트

이 논문의 어블레이션 결과가 핵심이다. 편집 구문검사 하나 제거했을 때 2.3%p 하락, 검색 도구 제거 시 4%p 하락 — 사소해 보이는 UX 결정이 에이전트 성능에 직접 영향을 미친다는 강력한 증거다.

현실적으로 이 논문의 가장 큰 교훈은, AI 에이전트를 만들 때 "더 좋은 모델"을 찾기 전에 "에이전트가 환경과 상호작용하는 방식"을 먼저 최적화하라는 것이다. Claude Code, Cursor 같은 상용 도구들이 성공한 이유도 모델 선택보다 편집 포맷, 파일 탐색 방식, 피드백 루프 설계에 투자했기 때문이다.

2024년 말 기준 SWE-bench 해결률이 50%를 넘기 시작했는데, 이는 모델 능력 향상 + ACI 설계 개선이 결합된 결과다.

관련 논문: SWE-bench, OpenHands, Aider, CodeAct

smj

이전 포스트

[논문 리뷰] Reflexion: Language Agents with Verbal Reinforcement Learning

다음 포스트