연구의 처음부터 끝까지 모두 수행하는 자동화된 The AI Scientist

jihyelee·2024년 9월 18일
1

up-to-date-ai

목록 보기
9/9

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery (link)

배경지식

  • Aider (link)
    • 터미널에서 AI와 함께 프로그래밍할 수 있도록 도와주는 코딩 어시스턴트
    • LLM을 사용해 코드를 짜고 프로그래밍할 수 있도록 도와줌

문제점

  • 연구는 연구자가 얼마나 독창적인지, 어떤 배경지식을 가졌는지, 얼마나 많은 시간이 주어졌는지에 따라 제약됨
    • 더욱 다양한, 많은 연구를 인간이 할 수 없다는 근원적 한계
  • AI의 숙원사업 중 하나는 과학적 연구와 새로운 지식 탐구를 가능하게 하는 에이전트를 만드는 일이었음
    • 기존에는 잠재적으로 새로운 발견이 가능할 법한 탐색 공간을 제한하여 수행, 이 또한 인간의 전문성과 디자인에 의존

해결책

AI Scientist

  • 완전히 자동화된 과학적 탐구가 가능한 통합적 프레임워크
    • 새로운 연구 주제를 만들고, 코드를 작성하고, 실험을 수행하고, 결과를 시각화하고, 온전한 과학적 논문을 작성함으로써 발견사항을 설명
    • 논문의 점수를 평가함에 있어 거의 사람 수준의 성능을 보여주는 자동화된 리뷰어 또한 고안하고 검증

아이디어 생성

  • 베이스라인 제공 및 브레인스토밍
    • 초기 template을 제공함으로써 유명한 모델 혹은 벤치마크로부터 가벼운 베이스라인 학습 재현을 하도록 함
    • 이후 가능한 연구 방향을 자유롭게 탐구하도록 하는 방향으로 진행
  • 아이디어 생성
    • 아이디어는 설명, 실험 실행 계획, 스스로 판단한 흥미/참신성/실현 가능성 점수로 이루어짐
    • 각 회차(iteration)에서, 언어모델로 하여금 이전에 생성한 아이디어들을 기반으로 흥미로운 새 연구 방향을 탐색하도록 프롬프팅
    • chain-of-thought (언어모델에게 차근차근 응답할 것을 요청), self-reflection (언어모델에게 자신의 응답을 스스로 평가해볼 것을 요청)을 사용해 아이디어를 정제하고 개선
  • 아이디어 필터링
    • Semantic Scholar API, 웹 접근 등을 도구(tool)로 사용해 기존 연구와 유사한 아이디어는 제외

실험 반복

  • 실험 수행 및 시각화
    • 아이디어와 템플릿이 주어지면, 제안된 실험을 수행하고 결과를 시각화
    • Aider를 활용해 수행할 실험을 계획하고 이를 순서대로 실행
  • 실험 결과 작성 및 재실험
    • Aider를 활용해 실험 저널의 형식으로 노트 작성
    • 실험 결과를 기반으로 다음 실험을 계획 및 실행
  • 시각 자료 생성
    • Aider를 활용해 논문을 위한 시각적 그림을 만들기 위한 스크립트를 수정

논문 작성

  • LaTex을 활용해 일반적인 컨퍼런스 양식으로 논문 작성
  • 섹션 별 텍스트 생성
    • Aider에게 컨퍼런스 템플릿을 섹션별로 채우라고 프롬프팅
    • 기록된 노트와 플롯(데이터의 시각적 표현)을 활용
      • 노트와 그림에서 확인할 수 있는 실제 실험 결과 및 실제 인용결과만 사용하도록 프롬프팅 (hallucination을 줄이기 위함)
    • 섹션마다 무엇이 포함되어야 하는지 간단한 팁과 가이드라인을 제공
  • 레퍼런스를 위한 웹 서치
    • Semantic Scholar API를 활용해 관련된 연구들을 검색
  • 정제 (refinement)
    • 섹션마다 self-reflection을 진행
    • 중복된 정보를 제거하고 주장을 간결하게 만들기 위함
  • 논문 컴파일
    • LaTex으로 문서가 작성되고 나면, 컴파일의 과정을 거쳐야 논문이 완성됨
    • 만약 컴파일 과정에서 오류가 난다면 이를 자동으로 해결할 수 있도록 함

자동 논문 리뷰

  • GPT-4o 기반 에이전트를 활용해 NeurIPS 컨퍼런스 리뷰 가이드라인을 활용해 논문 리뷰 실행

평가

  • 모델
    • Claude Sonnet 3.5
    • GPT-4o
    • DeepSeek Coder
    • Llama-3.1 405b
  • 연구 분야
    • diffusion modeling (2D Diffusion)
    • transformer-based language modeling (NanoGPT)
    • learnig dynamics (Grokking)
  • AI Scientist가 작성한 특정 논문에 대한 정성적 평가 (장점)
    • 알고리즘의 수학적 설명이 정확
    • 실험에 대한 통합적인 서술
    • 새로운 시각화 방법
    • 베이스라인 대비 우수한 성능
    • 흥미로운 미래 실험 방향
  • AI Scientist가 작성한 특정 논문에 대한 정성적 평가 (단점)
    • 네트워크를 확장함에 있어서 미묘한 오류
    • 실험 세부사항에 대한 환각 현상
    • 실험 결과의 긍정적 해석 (not 중립적)
    • 실험 중간 결과를 모두 작성
    • 레퍼런스의 부족
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글