THE AI SCIENTIST : Towards Fully Automated Open-Ended Scientific Discovery

Ruah·2025년 3월 25일

이 논문은 인공지능이 독자적으로 과학 연구를 수행하고 새로운 지식을 발견하는 것을 목표로 하는 프레임워크인 ‘AI Scientist’ 를 제시한다. 기존의 대형 언어 모델(LLM)이 인간 과학자를 보조하는 역할을 넘어, AI Scientist는 연구 아이디어 생성, 코드 작성, 실험 실행, 결과 시각화, 논문 집필, 그리고 자체적으로 논문 심사까지 수행할 수 있는 종합적인 자동 연구 시스템이다.

논문의 핵심 성과는 다음과 같다:

AI Scientist가 기계 학습 분야 내 3가지 서로 다른 하위 분야(확산 모델링, 트랜스포머 기반 언어 모델링, 학습 역학)에 성공적으로 적용되어, 각 분야에서 실제로 연구 아이디어를 구현하고 논문까지 작성하였다.
논문 하나를 작성하는 비용이 $15 미만으로, 연구를 민주화하고 과학 발전을 가속화할 잠재력을 입증하였다.
자동화된 논문 평가자를 개발하여 AI Scientist가 작성한 논문의 품질을 평가하였고, 자동 평가자의 성능이 인간 심사자 수준에 가깝다는 것을 확인하였다. AI Scientist가 작성한 논문은 주요 기계학습 학회 논문 채택 기준을 만족할 정도로 우수했다.

본 연구는 기계학습 분야 내 과학적 발견 과정 전체를 AI가 독립적으로 수행할 수 있음을 최초로 보였으며, 향후 창의적이고 저렴한 비용으로 무한히 확장 가능한 혁신을 가능케 하는 새로운 시대의 시작임을 강조한다.

코드는 오픈소스로 공개되어 있다:
https://github.com/SakanaAI/AI-Scientist

Introduction

현대의 과학적 방법은 배경지식 습득, 가설 수립, 실험 설계, 결과 분석 및 논문 작성, 동료 평가 및 수정 과정을 포함하며, 이를 통해 인류는 수많은 과학적 돌파구를 마련해왔다. 그러나 이 과정은 인간 연구자의 창의성, 배경지식, 시간 등 여러 제한 요소로 인해 속도와 범위가 제한된다.
과학 연구의 자동화는 오랫동안 AI 연구 커뮤니티의 중요한 목표였지만, 지금까지의 자동화 연구는 대개 특정 분야 내에서 미리 정의된 제한된 탐색 공간 내에서만 이뤄졌다. 예를 들어, 신소재 개발이나 합성생물학 같은 분야에서 제한적이고 특수화된 탐색이 성공적으로 수행되었지만, 여전히 광범위하고 개방적인 발견이나 전체 연구 프로세스(논문 작성 포함)까지 자동화하는 수준에 도달하지 못했다.
최근의 기초 모델(Foundation Model, 특히 LLM)의 발전은 연구 아이디어 생성, 논문 초안 작성, 코드 작성 등 연구 과정 일부를 가속화하는데 성공했으나, 여전히 연구 전체를 인간 개입 없이 완전히 자동으로 수행하는 것은 시도되지 않았다.
본 논문에서는 최초로 전체적인 과학적 연구 프로세스를 전면 자동화한 프레임워크인 “AI Scientist” 를 소개한다. 이 시스템은 기초 모델을 활용하여 아이디어 발상, 문헌 조사, 실험 설계 및 수행, 결과 시각화, 논문 작성, 논문 심사까지 모든 과정을 독립적으로 처리한다.
AI Scientist는 이전 연구 결과를 기반으로 계속해서 반복 수행될 수 있으며, 이 과정은 연구 논문 하나를 약 $15 미만의 매우 낮은 비용으로 빠르게 생성할 수 있어 과학 발전을 크게 가속화할 수 있다. 본 논문에서는 머신러닝 분야에 적용 사례를 집중적으로 제시했으나, 원칙적으로 물리학, 생물학 등 다양한 분야로 확장될 수 있다.
AI Scientist는 chain-of-thought와 self-reflection 같은 최신 LLM 기법을 활용하여 의사결정을 개선하며, 최첨단 코드 어시스턴트(Aider)를 통해 실험을 수행하고, 논문 작성과 자동 심사를 수행한다.

본 연구의 주요 기여점은 다음과 같다.

최초의 종합적, 전자동 과학 연구 자동화 프레임워크(AI Scientist)를 개발했다.
AI 기반 논문 심사 시스템을 구축하여, 자동 심사가 인간 심사에 가까운 성능을 보였다.
AI Scientist는 짧은 기간(일주일)에 수백 개의 의미 있는 논문을 생산할 수 있었으며, 본 논문에서는 확산 모델링, 언어 모델링, Grokking 등 사례를 다뤘다.
논문의 끝부분에서는 본 접근법의 한계점, 윤리적 고려사항, 미래 전망 등을 상세히 논의했다.

BACKGROUND

1. 대형 언어 모델(Large Language Models, LLMs)

본 연구의 기반이 되는 기술로, 과거 토큰(단어와 비슷한 개념)을 기반으로 다음 토큰을 생성할 확률을 모델링하여 문장을 자동 완성하는 모델이다.

대규모 데이터 학습과 모델 스케일링을 통해, LLM은 단순히 문장을 생성할 뿐 아니라 상식적인 지식, 논리적 추론 능력, 코드 작성 능력과 같은 인간과 유사한 능력까지 보유하게 된다.

2. LLM 에이전트 프레임워크(LLM Agent Frameworks)

LLM을 다양한 작업에 효과적으로 활용하기 위한 방법으로, 모델을 “에이전트(agent)” 형태로 구성하는 프레임워크를 의미한다.

주요 기법은 다음과 같다:

Few-shot Prompting: 구조화된 프롬프트를 통해 원하는 응답을 생성하도록 유도한다.
Chain-of-thought: 모델이 단계적으로 추론 과정을 거쳐 결론에 이르게 만든다.
Self-reflection: 모델이 자체적으로 출력을 반복적으로 평가하고 개선하게 한다.

이러한 기법들은 LLM의 컨텍스트 내 학습 능력을 활용해 성능과 신뢰성을 크게 향상시킨다.

3. Aider: LLM 기반 코딩 도구(Aider: An LLM-Based Coding Assistant)

본 연구에서 코드 구현을 담당하는 도구로, LLM을 이용한 최첨단 오픈 소스 코딩 에이전트다.

source : https://aider.chat/

Aider는 주어진 코드베이스 내에서 요청된 기능을 구현하거나 버그를 수정하고 리팩토링하는 작업을 수행하도록 설계되었다.

특히 최신 모델을 활용하여 실제 GitHub 이슈를 해결하는 벤치마크(SWE Bench)에서 18.9%의 높은 성공률을 기록하고 있으며, 이 연구에서는 추가적인 혁신을 통해 최초로 머신러닝 연구 과정을 완전 자동화하는 데 중요한 역할을 수행한다.

THE AI SCIENTIST

『The AI Scientist』는 다음과 같은 세 단계로 구성된 완전 자동화된 연구 프로세스를 제안한다.

1. 아이디어 생성(Idea Generation)

LLM(대형 언어 모델)을 이용해 창의적인 연구 아이디어와 실험 계획을 만든다.

Semantic Scholar API를 활용하여 기존 연구와 중복되지 않는지 독창성을 확인한다.

생성된 아이디어는 흥미성, 실현 가능성, 독창성을 평가받아 아카이브에 저장되며, 후속 연구에 활용된다.

2. 실험 반복(Experiment Iteration)

선택된 아이디어를 바탕으로 제공된 코드 템플릿에서 시작해, LLM과 코드 자동 작성 도구(Aider)를 사용해 실험용 코드를 자동으로 수정하고 실행 스크립트를 준비한다.

코드를 실행하여 실험을 수행하고 결과 데이터를 수집하며, 결과를 분석해 추가적인 실험 계획을 수립하고 반복적으로 수행한다.
이러한 반복 과정은 최대 5회까지 진행되며, 수집한 실험 데이터를 시각화해 논문 작성에 활용한다.

3. 논문 작성(Paper Write-Up)

실험 결과와 시각화 자료를 바탕으로 머신러닝 학술 논문 형식의 LaTeX 초안을 작성한다.
Semantic Scholar API를 통해 관련 참고 문헌을 검색하고, 논문에 인용한다.
초안을 반복적으로 수정 및 정리하여 최종 원고를 완성하고, LaTeX 컴파일을 통해 최종 논문을 생성한다.

최종적으로 생성된 논문은 LLM 기반 자동 리뷰 시스템을 통해 자체적으로 품질을 평가받는다.

Automated Paper Reviewing

LLM Reviewer Agent: 자동 리뷰어 설계

Reviewer 역할을 하는 LLM agent(gpt-4o기반)을 만들어 NeurlPS학회 리뷰 가이드라인을 따르게 설계.

PDF 논문 PyMuPDF로 파싱하여 텍스트 추출.
- 점수 5가지 : soundness, presentation, contribution, overall, confidence
- 장점 & 단점 리스트
- 최종 결론(accept/reject) 등을 생성
점수 기준으로 최종 수락 여부를 자동으로 보정(thresholding)가능
이 시스템을 통해 AI가 쓴 논문을 1차적으로 평가.
사용된 프롬프트 템플릿도 Appendix A.4에 제공.

Evaluationg the Reviewer : 리뷰 시스템 성능 평가

500개의 논문리뷰를 인간과 각 모델로 비교 평가한 결과 Human은 오히려 좋은 논문을 종종 거절할 때가 더 많았고, GPT-4o가 거의 인간과 비슷한 리뷰를 내고, 좋은 논문을 놓치는 비율이 더 낮았다고 평가되었다.

gpt-4o를 기준으로 basic model, + reflection, + ensemble, +1-shot 을 각각 추가했을때의 Accuracy를 평가 했을 때,
가장 마지막에 1-shot prompt를 추가했을때 나쁜 논문 수락 수가 많이 줄어들었고, 정확도도 가장 높았다.

인간 리뷰어 들의 논문 평가 일관성은