The AI Scientist: Towards Fully Automated
완전 자동화되고 확장 가능한 최초의 논문 생성 프레임워크 (연구수행)
광범위한 연구 방향과 간단한 초기 코드베이스를 제공하면,
generates novel research ideas, writes code, executes experiments, visualizes results, describes its findings by writing a full scientific paper, and then runs a simulated review process for evaluation
실제로 diffusion modeling, transformer-based language modeling, learning dynamics에 적용해보았을 때 각 논문이 $15 이하의 비용으로(..?) 완성됨
평가를 위해 자동 리뷰어를 설계하고 검증하였으며, 자동 리뷰어의 평가에 따르면 AI Scientist가 생성한 논문은 주요 머신러닝 학회에서의 논문 심사 기준을 충족하였다.
벤치마크에서 간단한 기초 훈련 과정을 재현하는 경량 코드 템플릿이 주어지면, 아이디어/실험/논문 작성까지 자동화하는 framework

AI Scientist의 LLM 기반 end-to-end process
1. 아이디어 생성 및 평가
2. 가설 검증 방법 설계
3. 자동 실험 실행 및 데이터 수집
4. 연구 결과 정리 및 논문 작성

기초 템플릿 제공

예시 1) https://github.com/SakanaAI/AI-Scientist/blob/main/example_papers/adaptive_dual_scale_denoising.pdf
1. Per-Section Text Generation
2. Web Search for References
3. Refinement
4. Compilation
생각보다 논문의 형태는 갖춰져 있다.

Each Review is generated for $0.25 ~ $0.50

LLM기반 리뷰가 가장 성능이 좋았고,
GPT-4o-mini와 Claude Sonnet 3.5 는 비용 효율적이었으나 성능이 매우 떨어짐

70%의 정확도 달성
자동화된 LLM 리뷰어가 사람 리뷰어보다 높은 정확도를 보이기도 했다.
잘못된 아이디어 생성 및 비합리적인 추론