Paper Review | Agent Laboratory : Using LLM Agents as Research Assistants

Ruah·2025년 5월 26일

과학 연구의 시간과 비용을 줄이고 품질을 향상시키기 위해 연구개발된 LLM 기반의 자율 연구 프레임워크 Agent Laboratory

1. Introduction

문제 인식

연구자들은 시간·자원 제약 때문에 아이디어중 일부만 실험가능했고, 그결과 질좋은 아이디어조차 실행되지 못하고 사장되는 경우가 많다. 연구 프로세스를 자동화한다면 다양한 아이디어를 동시에 실험할 수 있어, 과학적 발견 가능성을 높일수 있다.

기존 연구들에서는 LLM이 연구 아이디어 생성부터 논문 작성까지 자동화 가능함을 보여준다.

ResearchAgent: 아이디어 생성 + 동료 검토 시뮬레이션
AI Scientist: 코드작성, 실험, 논문작성, 자동 리뷰 수행

하지만 여전히 타당성이 부족하며, 세부 구현의 문제가 있고, 전문가 대체보다는 보완에 가깝다.

Agent Laboratory는 인간이 제안한 연구 아이디어를 입력하면,
LLM 에이전트들이 문헌조사 -> 실험 -> 보고서 작성까지 자동으로 수행하게 되고 결과물로 코드저장소(repo)와 연구보고서(paper)를 반환한다.

Agent Laboratory는 두가지의 모드로 작동되며 LLM이 스스로 판단하여 자율적으로 처음부터 끝까지 작동되는 Autonomous모드와 사람이 중간 체크 포인트마다 개입할 수 있는 Co-Pilot 모드가 있어, 사용자 피드백도 각 단계마다 선택적으로 반영가능하다.

이는 누구나 사용가능하도록 오픈소스[Agent Laboratory Source]로 제공되어있고, 컴퓨팅 자원에 따라 유연하게 조정가능하도록 설계되어있다.

2-1. LLM

LLM은 토큰 시퀀스 예측을 통해 학습되고, Transformer 아키텍쳐를 기반으로 긴 문맥 이해가 가능
Claude, LLama, ChatGPT 등 다양한 LLM들이 번역, 요약, 추론 등 언어작업 수행이 가능하다.

2-2. LLM Agents

LLM의 한계를 보완하기 위해 에이전트 구조로 확장.
Chain-of-Thought, Iterative refinement, Self-Improvement, Tool 사용 등을 통해 복잡한 작업 실행이 가능
소프트웨어개발, 보안, 의료 진단, 로보틱스, 웹 테스크, 게임 등에서 성공 사례 존재

2-3. automated Machine Learning(AutoML)

Kaggle 챌린지를 기반으로 ML 에이전트 성능을 평가
대표 벤치마크 : MLE-Bench, DS-Bench, MLAgentBench
대표적인 ML 에이전트 : AIDE, OpenHands, MLAB, Agent K
- 자동 피처 엔지니어링, 버그 수정, 코드 리팩토링 등을 수행

2-4. AI in Scientific Discovery

수학 재료과학, 화학, 생물학 등 다양한 분야에서 AI 가 도구(tool)로 활용
대부분 연구 보조수단일 뿐, 자율 연구 수행 주체는 아님

다양한 연구 지원 작업에서 강력한 성능:
- 코드생성, 논문 작성, 문헌 검색, 아이디어 생성, 실험결과 예측 등
하지만 아이디어 생성(ideation)에서는 의견이 엇갈림
- 참신성 높은 경우도 있지만 창의성 저하나 확일화 경향도 보고된 바 있음

인간의 창의성 + LLM 자동화 조합이 가장 강력하다는 시사점을 보인다.

2-6. LLMs for Autonomous Research

LLM 에이전트를 활용한 완전 자율 연구 시스템 등장

AI Scientist: 아이디어 생성, 실험, 코드, 논문 작성, 자동 리뷰까지 수행
ChemCrow, Coscientist, ResearchAgent 등 분야별 자율 연구 에이전트 존재
Swanson et al.: 인간과 LLM이 협업해 실제 과학 성과 도출

하지만 여전히 구현력, 실현 가능성에 제약이 있음 → 인간의 보완 역할 필요

3. Agent Laboratory

3-0. Workflow

Agent Laboratory는 전체 연구과정을 자동화하는 LLM 에이전트 기반 프레임워크로서 세단계로 구성된다.

Literature Review(문헌조사)
Experimentation(실험 수행)
Report Writing(보고서 작성)

각 단계는 전문 역할을 가진 에이전트들이 협업하며 수행된다.

3-1. Literature Review

주어진 연구 아이디어에 맞는 관련 논문을 수집하고 정리하여 후속 실험과 보고서 작성에 필요한 배경지식을 제공하는 단계이다.

수행 에이전트 : PhD Agent

arXiv API를 사용하여 관련 논문 검색 및 분석한다.
1. summary : 관련 논문 상위 20편의 Abstract 불러오기
2. full text : 특정 논문의 전체 내용 가져오기
3. add paper : 선택한 논문을 리뷰 목록에 추가

Iterative Process(반복적 프로세스)

단발성 검색이 아니라 여러번 쿼리하며 논문을 평가 및 추가
논문의 내용 적합도(relevance) 를 기준으로 리뷰 구성을 점점 개선
최종적으로 정해진 수 만큼(N=max)의 논문이 수집되면 리뷰 완료

3-2. Experimentation

두번째 핵심단계인 Experimentation은 다음과 같은 4단계로 구성된다.

1. Plan Formulation(연구계획수립)

담당 에이전트 : PhD + Postdoc

문헌 리뷰와 연구 목표를 바탕으로 실험 계획 수립
어떤 모델을 쓸지, 어떤 데이터 셋을 쓸지, 주요 실험 단계는 무엇인지 결정
합의가 완료되면 Postdoc이 plan 명령어로 계획 확정

2. Data Preparation(데이터 준비)

담당 에이전트 : SW Engineer + ML Engineer

계획에 따라 데이터 전처리 코드 작성
search HF 명렁으로 Huggingface 데이터 셋 검색
코드는 Python command로 실행 후 출력 확인
최종 코드는 submit code 명령으로 제출하며, 컴파일 검사를 통과해야함
컴파일 오류가 있으면 반복 수정 (iterative repair)

3. Running Experiments(실험실행)

담당 에이전트 : ML Engineer
도구 : mle-solver (머신러닝코드를 자동 생성 및 평가하는 핵심 모듈)

다음은 실험 실행 단계인 mle-solver의 작동 방식이다

A. Command Execution

가장 성능이 좋다고 판단한 코드버전(top프로그램) 선택하여 EDIT 또는 REPLACE연산으로 코드 수정

B. Code Execution

컴파일 성공 여부 확인
실패시 최대 3회까지 자동 수정 시도 후 포기

C. Program Scoring

LLM 보상모델로 0~1 점수 부여
계획, 코드, 출력과의 정합성 기준으로 채점

D. Self Reflection

fail : 어던 점이 문재였는지 반성
success : 점수를 높이기 위한 개선 방향 반성

-> 다음반복에서 품질 개선에 활용

E. Performence Stabilization

top-k program 유지 & 무작위 샘플링으로 탐색성과 안정성 균형유지

4. Results Interpretation(결과 해석)

담당 에이전트 : PhD + Postdoc

실험 결과를 두 에이전트가 함께 검토
논문 작성에 활용할 해석 내용을 interpretation 명령으로 제출

3-3. Report Writing

마지막 파트는 실험 결과를 바탕으로 LLM 에이전트들이 논문 형식의 리서치 보고서를 작성하는 단계이다. 사람도 이해할 수 있는 형식으로 연구 전체를 요약하고 표현하게 된다.

담당 에이전트 : PhD + Professor
도구 : paper-solver

A. Initial Report Scaffold (초안구조생성)

논문 기본 구조 (8개 섹션) 생성
- Abstract, Introduction, Background, Related Work, Methods, Experimental Setup, Results, Discussion
LaTeX 형식의 템플릿 포함
이후 내용 생성을 위한 기틀 마련

B. ArXiv Research (추가 문헌 검색 가능)

필요 시 arXiv API에 접근해 논문 작성에 필요한 관련 문헌을 추가 검색 가능 (Literature Review 단계의 논문도 재활용 가능)

C. Report Editing (본문 작성 및 수정)

EDIT 명령으로 라인단위 LaTeX 수정
수정 후에는 LaTeX 컴파일 검사를 통해 오류 방지
반복 편집을 통해 논문의 명확성, 논리성, 형식 정합성 확보

D. Paper Review ( 자동 리뷰시스템

Lu et al.(2024b)- The AI Scientist의 LLM 기반 자동 리뷰 시스템 활용

3명의 reviewer agent가 논문 평가
PhD agent가 논문을 그대로 제출할지 or 이전 단계(계획, 실험, 해석 등)를 다시 수행할지 결정

→ 실제 논문 투고처럼 수정 루프를 반영

99. Autonomous VS Co-Pilot MODE

Autonomous Mode

인간은 연구 아이디어만 제공
각 단계는 자동으로 연속 실행

Co-Pilot Mode

각 단계마다 인간이 체크포인트에서 결과 검토 가능
수정 요청 + 피드백 전달 가능
예: 특정 논문 미포함, 실험 미비 → 다시 수행 지시

4. Results

Human & Automated Reviewer Scoring By LLM

가장 높은 전반 점수: o1-preview (4.0 / 10)
가장 낮은 전반 점수: gpt-4o (3.5 / 10)
평균 점수: 3.8 / 10 → NeurIPS 합격선 5.85에 한참 미달

항목별 특징:

Quality: o1-mini 우세 (2.3)
Soundness와 Presentation은 o1-preview가 가장 높음
Clarity는 오히려 gpt-4o가 가장 좋게 평가됨

인간 평가자 기준으로 Agent Laboratory가 생성한 논문은 실제 학회 수준에는 미치지 못하며, 모델에 따라 품질 편차가 크고, 자동 리뷰어가 과대평가하는 경향이 있다.

Evaluation of Co-Pilot Generated Papers

연구자들이 Co-pilot 모드에서 사용했을때와 NeurlPS 기준으로 평가한 기준, 그리고 외부 연구자들이 NeurlPS 기준으로 평가했을때의 점수를 비교 한 것이다.

Quality Evaluation of Agent Laboratory (최상단 테이블)
- 연구자들이 Co-pilot 모드에서 Agent Laboratory를 사용한 체감 평가
- 항목: 유용성(Utility), 지속 사용 의향, 만족도, 사용 편의성, 실험/보고서 품질, 전반 유용성
- Custom Topic이 Preselected보다 전반적으로 더 높은 점수를 받음
Self-Evaluation NeurIPS Scores (가운데 테이블)
- Co-pilot으로 작성된 논문을 직접 쓴 연구자들이 스스로 NeurIPS 기준으로 평가
- 평균 점수: 4.13 / 10
External Evaluation NeurIPS Scores (하단 테이블)
- 같은 논문을 외부 연구자들이 NeurIPS 기준으로 평가
- 평균 점수: 4.38 / 10

자율 모드 대비 점수 향상 정도(△ Autonomous)(가장 하단)
- Co-pilot 모드가 Autonomous 모드보다 전반적으로 품질이 개선됨을 보여줌

이처럼 Co-pilot 모드에서는 사람이 개입하자 논문 품질 전반이 향상된다. 특히 Soundness, Presentation, Clarity 항목에서 개선이 두드러지지만, 기여도(Contribution)와 의의(Significance)는 여전히 낮아, 창의성·기술적 기여 측면의 개선 여지가 크다.

mle-solver의 MLE-Bench 평가

mle-solver는 10개의 실제 ML 과제 중 4개의 메달(금2, 은1, 동1)을 획득하였고 6개의 과제에서 사람 평균 점수 이상을 달성하였다. 다른 경쟁 solvers(OpenHands, AIDE, MLAB 등) 대비 가장 폭넓고 안정적인 성능을 보였지만 일부 과제에서는 성능이 떨어졌다.

5. Limitation

5. Workflow의 구조적 한계

LLM 기반 자기 평가(Self-evaluation)**의 신뢰도가 부족하다.
자동 리뷰 점수는 실제 인간 평가와 괴리(6.1 vs. 3.8)가 있으며, paper-solver는 진짜 논문을 대체하기보다는 참고용 요약 리포트에 가깝다는 판단.

논문 구조가 고정(8개 섹션)되어 있어 유연한 구성이 어렵고, 코드 저장소는 각 단계별 파일만 다루며 전체 repo 관리가 불가능하다.

gpt-4o 등에서 실험 결과 역시나 여러 "환각(hallucination)"이 발생했으며, 존재하지 않는 학습 조건이나 결과를 허위로 기술하는 경우 확인되었다.

6. Discussion

Agent Laboratory는 기존 자동화 프레임워크와 달리 사람 중심(co-pilot) 구조를 지향한다. 또한, 지속 가능한 인간-AI 협업 구조의 실현 가능성을 보았다고 얘기한다.

실험 결과고서 o1-mini는 전반적으로 실험 품질이 우수했고,
o1-preview는 보고서 품질과 유용성이 좋았다. gpt-4o는 속도와 비용은 최적화되어있지만 품질은 상대적으로 낮았다.

자동리뷰는 인간 리뷰보다 훨씬 낙관적으로 보는 경향이 있어, 인간 평가가 필수라고 시사점을 보였고, Co-pilot 모드가 전반적으로 품질 향상에 기여한다고 얘기한다. \

이후 이들은 좀더 누적화된 연구를 위해 AgentRxiv(에이전트아카이브)라는 플랫폼을 연구 개발하게 되는데, 사람 연구자가 아닌 LLM기반의 에이전트가 누적적으로 연구 개발을 한다는 것이 실질적으로는 불가능하지만, LLM의 최적화된 연구 확대를 위하여 논문들을 보관하고 배포하여 누적적인 연구 개발을 구축할 수 있는 AgentRxiv Platform도 나오게 되었다.

에이전트를 만드는 입장의 엔지니어로서 꽤나 도움이 많이되는 논문이었다.
본인들이 SOTA라고 강조하는 타 논문들과는 달리, Human-in-the-loop 형식으로 접근하여, Agent가 가진 단점을 잘 파악했다고 생각한다.

Ruah

집요한 주니어 개발자의 호되게 당했던 기록

이전 포스트

How to Build a Knowledge Graph in 7 Steps

다음 포스트