과학 연구의 시간과 비용을 줄이고 품질을 향상시키기 위해 연구개발된 LLM 기반의 자율 연구 프레임워크 Agent Laboratory
연구자들은 시간·자원 제약 때문에 아이디어중 일부만 실험가능했고, 그결과 질좋은 아이디어조차 실행되지 못하고 사장되는 경우가 많다. 연구 프로세스를 자동화한다면 다양한 아이디어를 동시에 실험할 수 있어, 과학적 발견 가능성을 높일수 있다.
기존 연구들에서는 LLM이 연구 아이디어 생성부터 논문 작성까지 자동화 가능함을 보여준다.
하지만 여전히 타당성이 부족하며, 세부 구현의 문제가 있고, 전문가 대체보다는 보완에 가깝다.
Agent Laboratory는 인간이 제안한 연구 아이디어를 입력하면,
LLM 에이전트들이 문헌조사 -> 실험 -> 보고서 작성까지 자동으로 수행하게 되고 결과물로 코드저장소(repo)와 연구보고서(paper)를 반환한다.
Agent Laboratory는 두가지의 모드로 작동되며 LLM이 스스로 판단하여 자율적으로 처음부터 끝까지 작동되는 Autonomous모드와 사람이 중간 체크 포인트마다 개입할 수 있는 Co-Pilot 모드가 있어, 사용자 피드백도 각 단계마다 선택적으로 반영가능하다.
이는 누구나 사용가능하도록 오픈소스[Agent Laboratory Source]로 제공되어있고, 컴퓨팅 자원에 따라 유연하게 조정가능하도록 설계되어있다.
인간의 창의성 + LLM 자동화 조합이 가장 강력하다는 시사점을 보인다.
LLM 에이전트를 활용한 완전 자율 연구 시스템 등장
하지만 여전히 구현력, 실현 가능성에 제약이 있음 → 인간의 보완 역할 필요
Agent Laboratory는 전체 연구과정을 자동화하는 LLM 에이전트 기반 프레임워크로서 세단계로 구성된다.
각 단계는 전문 역할을 가진 에이전트들이 협업하며 수행된다.

주어진 연구 아이디어에 맞는 관련 논문을 수집하고 정리하여 후속 실험과 보고서 작성에 필요한 배경지식을 제공하는 단계이다.
수행 에이전트 : PhD Agent
arXiv API를 사용하여 관련 논문 검색 및 분석한다.
1. summary : 관련 논문 상위 20편의 Abstract 불러오기
2. full text : 특정 논문의 전체 내용 가져오기
3. add paper : 선택한 논문을 리뷰 목록에 추가
Iterative Process(반복적 프로세스)

두번째 핵심단계인 Experimentation은 다음과 같은 4단계로 구성된다.
담당 에이전트 : PhD + Postdoc
plan 명령어로 계획 확정담당 에이전트 : SW Engineer + ML Engineer
search HF 명렁으로 Huggingface 데이터 셋 검색 submit code 명령으로 제출하며, 컴파일 검사를 통과해야함
담당 에이전트 : ML Engineer
도구 : mle-solver (머신러닝코드를 자동 생성 및 평가하는 핵심 모듈)

다음은 실험 실행 단계인 mle-solver의 작동 방식이다
EDIT 또는 REPLACE연산으로 코드 수정-> 다음반복에서 품질 개선에 활용
top-k program 유지 & 무작위 샘플링으로 탐색성과 안정성 균형유지담당 에이전트 : PhD + Postdoc
interpretation 명령으로 제출마지막 파트는 실험 결과를 바탕으로 LLM 에이전트들이 논문 형식의 리서치 보고서를 작성하는 단계이다. 사람도 이해할 수 있는 형식으로 연구 전체를 요약하고 표현하게 된다.
담당 에이전트 : PhD + Professor
도구 : paper-solver

EDIT 명령으로 라인단위 LaTeX 수정→ 실제 논문 투고처럼 수정 루프를 반영

항목별 특징:
인간 평가자 기준으로 Agent Laboratory가 생성한 논문은 실제 학회 수준에는 미치지 못하며, 모델에 따라 품질 편차가 크고, 자동 리뷰어가 과대평가하는 경향이 있다.

연구자들이 Co-pilot 모드에서 사용했을때와 NeurlPS 기준으로 평가한 기준, 그리고 외부 연구자들이 NeurlPS 기준으로 평가했을때의 점수를 비교 한 것이다.
Quality Evaluation of Agent Laboratory (최상단 테이블)
- 연구자들이 Co-pilot 모드에서 Agent Laboratory를 사용한 체감 평가
- 항목: 유용성(Utility), 지속 사용 의향, 만족도, 사용 편의성, 실험/보고서 품질, 전반 유용성
- Custom Topic이 Preselected보다 전반적으로 더 높은 점수를 받음
Self-Evaluation NeurIPS Scores (가운데 테이블)
- Co-pilot으로 작성된 논문을 직접 쓴 연구자들이 스스로 NeurIPS 기준으로 평가
- 평균 점수: 4.13 / 10
External Evaluation NeurIPS Scores (하단 테이블)
- 같은 논문을 외부 연구자들이 NeurIPS 기준으로 평가
- 평균 점수: 4.38 / 10
이처럼 Co-pilot 모드에서는 사람이 개입하자 논문 품질 전반이 향상된다. 특히 Soundness, Presentation, Clarity 항목에서 개선이 두드러지지만, 기여도(Contribution)와 의의(Significance)는 여전히 낮아, 창의성·기술적 기여 측면의 개선 여지가 크다.

mle-solver는 10개의 실제 ML 과제 중 4개의 메달(금2, 은1, 동1)을 획득하였고 6개의 과제에서 사람 평균 점수 이상을 달성하였다. 다른 경쟁 solvers(OpenHands, AIDE, MLAB 등) 대비 가장 폭넓고 안정적인 성능을 보였지만 일부 과제에서는 성능이 떨어졌다.
LLM 기반 자기 평가(Self-evaluation)**의 신뢰도가 부족하다.
자동 리뷰 점수는 실제 인간 평가와 괴리(6.1 vs. 3.8)가 있으며, paper-solver는 진짜 논문을 대체하기보다는 참고용 요약 리포트에 가깝다는 판단.
논문 구조가 고정(8개 섹션)되어 있어 유연한 구성이 어렵고, 코드 저장소는 각 단계별 파일만 다루며 전체 repo 관리가 불가능하다.
gpt-4o 등에서 실험 결과 역시나 여러 "환각(hallucination)"이 발생했으며, 존재하지 않는 학습 조건이나 결과를 허위로 기술하는 경우 확인되었다.
Agent Laboratory는 기존 자동화 프레임워크와 달리 사람 중심(co-pilot) 구조를 지향한다. 또한, 지속 가능한 인간-AI 협업 구조의 실현 가능성을 보았다고 얘기한다.
실험 결과고서 o1-mini는 전반적으로 실험 품질이 우수했고,
o1-preview는 보고서 품질과 유용성이 좋았다. gpt-4o는 속도와 비용은 최적화되어있지만 품질은 상대적으로 낮았다.
자동리뷰는 인간 리뷰보다 훨씬 낙관적으로 보는 경향이 있어, 인간 평가가 필수라고 시사점을 보였고, Co-pilot 모드가 전반적으로 품질 향상에 기여한다고 얘기한다. \
이후 이들은 좀더 누적화된 연구를 위해 AgentRxiv(에이전트아카이브)라는 플랫폼을 연구 개발하게 되는데, 사람 연구자가 아닌 LLM기반의 에이전트가 누적적으로 연구 개발을 한다는 것이 실질적으로는 불가능하지만, LLM의 최적화된 연구 확대를 위하여 논문들을 보관하고 배포하여 누적적인 연구 개발을 구축할 수 있는 AgentRxiv Platform도 나오게 되었다.
에이전트를 만드는 입장의 엔지니어로서 꽤나 도움이 많이되는 논문이었다.
본인들이 SOTA라고 강조하는 타 논문들과는 달리, Human-in-the-loop 형식으로 접근하여, Agent가 가진 단점을 잘 파악했다고 생각한다.