이 논문은 인공지능이 독자적으로 과학 연구를 수행하고 새로운 지식을 발견하는 것을 목표로 하는 프레임워크인 ‘AI Scientist’ 를 제시한다. 기존의 대형 언어 모델(LLM)이 인간 과학자를 보조하는 역할을 넘어, AI Scientist는 연구 아이디어 생성, 코드 작성, 실험 실행, 결과 시각화, 논문 집필, 그리고 자체적으로 논문 심사까지 수행할 수 있는 종합적인 자동 연구 시스템이다.
논문의 핵심 성과는 다음과 같다:
본 연구는 기계학습 분야 내 과학적 발견 과정 전체를 AI가 독립적으로 수행할 수 있음을 최초로 보였으며, 향후 창의적이고 저렴한 비용으로 무한히 확장 가능한 혁신을 가능케 하는 새로운 시대의 시작임을 강조한다.
코드는 오픈소스로 공개되어 있다:
https://github.com/SakanaAI/AI-Scientist
현대의 과학적 방법은 배경지식 습득, 가설 수립, 실험 설계, 결과 분석 및 논문 작성, 동료 평가 및 수정 과정을 포함하며, 이를 통해 인류는 수많은 과학적 돌파구를 마련해왔다. 그러나 이 과정은 인간 연구자의 창의성, 배경지식, 시간 등 여러 제한 요소로 인해 속도와 범위가 제한된다.
과학 연구의 자동화는 오랫동안 AI 연구 커뮤니티의 중요한 목표였지만, 지금까지의 자동화 연구는 대개 특정 분야 내에서 미리 정의된 제한된 탐색 공간 내에서만 이뤄졌다. 예를 들어, 신소재 개발이나 합성생물학 같은 분야에서 제한적이고 특수화된 탐색이 성공적으로 수행되었지만, 여전히 광범위하고 개방적인 발견이나 전체 연구 프로세스(논문 작성 포함)까지 자동화하는 수준에 도달하지 못했다.
최근의 기초 모델(Foundation Model, 특히 LLM)의 발전은 연구 아이디어 생성, 논문 초안 작성, 코드 작성 등 연구 과정 일부를 가속화하는데 성공했으나, 여전히 연구 전체를 인간 개입 없이 완전히 자동으로 수행하는 것은 시도되지 않았다.
본 논문에서는 최초로 전체적인 과학적 연구 프로세스를 전면 자동화한 프레임워크인 “AI Scientist” 를 소개한다. 이 시스템은 기초 모델을 활용하여 아이디어 발상, 문헌 조사, 실험 설계 및 수행, 결과 시각화, 논문 작성, 논문 심사까지 모든 과정을 독립적으로 처리한다.
AI Scientist는 이전 연구 결과를 기반으로 계속해서 반복 수행될 수 있으며, 이 과정은 연구 논문 하나를 약 $15 미만의 매우 낮은 비용으로 빠르게 생성할 수 있어 과학 발전을 크게 가속화할 수 있다. 본 논문에서는 머신러닝 분야에 적용 사례를 집중적으로 제시했으나, 원칙적으로 물리학, 생물학 등 다양한 분야로 확장될 수 있다.
AI Scientist는 chain-of-thought와 self-reflection 같은 최신 LLM 기법을 활용하여 의사결정을 개선하며, 최첨단 코드 어시스턴트(Aider)를 통해 실험을 수행하고, 논문 작성과 자동 심사를 수행한다.
본 연구의 주요 기여점은 다음과 같다.
본 연구의 기반이 되는 기술로, 과거 토큰(단어와 비슷한 개념)을 기반으로 다음 토큰을 생성할 확률을 모델링하여 문장을 자동 완성하는 모델이다.
대규모 데이터 학습과 모델 스케일링을 통해, LLM은 단순히 문장을 생성할 뿐 아니라 상식적인 지식, 논리적 추론 능력, 코드 작성 능력과 같은 인간과 유사한 능력까지 보유하게 된다.
LLM을 다양한 작업에 효과적으로 활용하기 위한 방법으로, 모델을 “에이전트(agent)” 형태로 구성하는 프레임워크를 의미한다.
주요 기법은 다음과 같다:
이러한 기법들은 LLM의 컨텍스트 내 학습 능력을 활용해 성능과 신뢰성을 크게 향상시킨다.
본 연구에서 코드 구현을 담당하는 도구로, LLM을 이용한 최첨단 오픈 소스 코딩 에이전트다.
source : https://aider.chat/
Aider는 주어진 코드베이스 내에서 요청된 기능을 구현하거나 버그를 수정하고 리팩토링하는 작업을 수행하도록 설계되었다.
『The AI Scientist』는 다음과 같은 세 단계로 구성된 완전 자동화된 연구 프로세스를 제안한다.
코드를 실행하여 실험을 수행하고 결과 데이터를 수집하며, 결과를 분석해 추가적인 실험 계획을 수립하고 반복적으로 수행한다.
이러한 반복 과정은 최대 5회까지 진행되며, 수집한 실험 데이터를 시각화해 논문 작성에 활용한다.
실험 결과와 시각화 자료를 바탕으로 머신러닝 학술 논문 형식의 LaTeX 초안을 작성한다.
Semantic Scholar API를 통해 관련 참고 문헌을 검색하고, 논문에 인용한다.
초안을 반복적으로 수정 및 정리하여 최종 원고를 완성하고, LaTeX 컴파일을 통해 최종 논문을 생성한다.
최종적으로 생성된 논문은 LLM 기반 자동 리뷰 시스템을 통해 자체적으로 품질을 평가받는다.
Reviewer 역할을 하는 LLM agent(gpt-4o기반)을 만들어 NeurlPS학회 리뷰 가이드라인을 따르게 설계.
500개의 논문리뷰를 인간과 각 모델로 비교 평가한 결과 Human은 오히려 좋은 논문을 종종 거절할 때가 더 많았고, GPT-4o가 거의 인간과 비슷한 리뷰를 내고, 좋은 논문을 놓치는 비율이 더 낮았다고 평가되었다.
gpt-4o를 기준으로 basic model, + reflection, + ensemble, +1-shot 을 각각 추가했을때의 Accuracy를 평가 했을 때,
가장 마지막에 1-shot prompt를 추가했을때 나쁜 논문 수락 수가 많이 줄어들었고, 정확도도 가장 높았다.
인간 리뷰어 들의 논문 평가 일관성은
위사진은 실제 The AI Scientist가 만들어낸 논문으로,시각화와 수식까지 잘 만들어지는 것을 확인할 수있다.
실제 위와 같은 환경에서 실험해본 결과로
The AI Scientist는 수학적 기술이 정확하고 실험 기록과 논문 결과가 일치하면 시각화 또한 우수 했다. 이를 고차원적으로 확장한다거나, 적응 메커니즘 고도화 등의 설득력 있는 미래 연구 방향도 제시 했다.
하지만, 단점또한 명확했다. 업스케일 네트워크 에러나 pytorch 버전오류, 또한 부정적인 결과도 긍정처럼 표현하는 경향이 있었고, 필요치 않은 과정을 지나치게 노출한다는 점 또한 문제였다.
이렇게 사람이 수동으로 작업하면 몇개월이 걸릴지 모르는 실험과 논문작성들 AI가 단숨에 만들어버릴 수 있다는게 정말 대단하다고 생각하지만, 아무래도 논문은 윤리적인 부분도 고민을 해야한다.
이런식으로 논문이 대량으로 자동생산된다면, 학술 생태계 전체가 혼란스러워질 수도 있고, 논문의 품질 관리나 리뷰 시스템에도 부담이 생길 수 있기 때문이다.
하지만 이런 한계를 고려하더라도, 지금 AI Scientist의 수준은 "이제 갓 박사과정을 시작한 초기 단계 연구자"정도라서 상당한 잠재력을 가지고 있다고 이 논문은 말한다.