💡The AI Scientist

oceann·2024년 8월 30일

AGI AI Scientist Sakana AI ultraintelligence

💡관심사

목록 보기

3/3

이미지 출처: Sakana AI

Let an ultraintelligent machine be defined as a machine that can far surpass all the intellectual activities of any man, however clever. Since the design of machines is one of these intellectual activities, an ultraintelligent machine could design even better machines; there would then unquestionably be an ‘intelligence explosion,’ and the intelligence of man would be left far behind. Thus the first ultraintelligent machine is the last invention that man need ever make, provided that the machine is docile enough to tell us how to keep it under control.
- I. J. Good, 1965

발명과 발견, AGI

발명과 발견

표준국어대사전을 기준으로 발명이란, 아직까지 없던 기술이나 물건을 새로 생각하여 만들어 내는 것을 말하고, 발견이란, 미처 찾아내지 못하였거나 아직 알려지지 아니한 사물이나 현상, 사실 따위를 찾아내는 것을 말한다.
위대한 발명과 발견의 예시로 각각 에디슨의 전구와 아인슈타인의 상대성이론이 있다. 인간이 호기심을 갖고, 공부해서 습득한 지식을 바탕으로 이와 같은 발명과 발명을 수행한다.
결과적으로 오늘날 유행하는 AI가 개발되었다. AI는 과연 발명과 발견을 할 수 있을까?

AGI, Artificial General Intelligence

AGI, Artificial General Intelligence는 직역하면 인공 일반 지능으로, 인공지능이 인간과 유사한 지적 능력을 가져 스스로 학습할 수 있는 수준까지 발전시키고자 하는 연구 분야이다. 이 AGI에 대해서 OpenAI에서 일했던 Leopold Aschenbrenner가 쓴 Situational Awareness라는 시리즈(책인가?)가 있는데, 아래 그림은 해당 글에 있는 지식 수준의 폭발에 대한 그림이다.

출처: situational-awareness.ai

그림을 통해 GPT-4의 등장을 기점으로 2027년 경에는 Automated AI Research로 인해 지식이 성장할 것으로 예측할 수 있다.
그런데 GPT-4 등장 이전을 $10^0$ 이하로 보는 건 좀 큰 상처인데..?ㅋㅋ큐ㅠㅠㅠ

The AI Scientist

Sakana AI라는 일본의 한 랩에서 이상적인 AGI의 형태와 가장 유사한 작업을 수행하는 프로그램을 개발했다.
전체 논문을 확인하면 내용이 더 많겠지만, 아직 논문을 읽어보지 못했기 때문에 공식 홈페이지의 내용을 바탕으로 리뷰한다.

Introduction

기존 모델들은 사람의 작업을 돕기 위해 개발되고 발전해왔지만, 이를 동작하게 하기 위해서는 여전히 인력이 필요하고, 특정 task에 특화되기 위해서는 전문 지식 또한 필요하다는 단점이 있다. The AI Scientist는 그러한 단점이 사라지고, 아래와 같은 일들을 수행할 수 있다.

1. 전문가의 도움 없이 스스로 연구 주제를 확립해서 실험 설계, 가설 검증, 리뷰, 논문 작성까지 연구 라이프사이클 전체를 자동화한다.
2. 자동화된 peer review 과정을 통해 작성한 논문을 검증하고 피드백을 주고받으며 개선한다. 이렇게 완성된 논문을 인간과 유사한 수준의 정확도를 보인다.
3. 연구 과정과 결과에서 습득한 지식을 다시 활용해서 다음 연구를 이어간다. 이는 인간의 커뮤니티 활동과 유사하다.

그 결과로 여러 논문을 예시로 올렸지만, 그 중 하나인 Dualscale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models의 Figure 1을 살펴보자.

이 그림과 같이 해당 논문에서 개발한 방식으로 실험을 수행한 결과가 첨부되어 있다. The AI Scientist가 생성한 논문은 LaTeX 형식으로, 위 논문을 보면 수식 또한 형식에 맞춰 잘 작성되어 있는 것을 확인할 수 있다.
또한 한 편의 논문을 작성하기 위해 앞서 설명한 모든 과정이 고작 15$이다.

Overview of The AI Scientist

The AI Scientist가 연구하는 과정은 아래와 같다.

Idea Generation
원하는 연구 주제와 관련된 내용이 담긴 starting template이 주어지면 브레인스토밍을 시작한다. template에는 문서 작성을 위한 LaTeX 폴더가 포함되어 있다. 연구 주제 확립을 위해 여러 연구들을 찾아보는데, 이때 본 연구에서는 아이디어의 전문성을 위해 Semantic Scholar를 검색의 대상으로 지정했다.

Experimental Iteration
Idea Generation 단계에서 받아온 아이디어와 template을 사용해서 실험을 설계하고 수행한다. 결과를 바탕으로 시각화를 하는데, 해당 plot에 대한 설명을 적을 뿐만 아니라 필요한 이미지들을 저장하기도 한다.

Paper Write-up
LaTeX 문법을 사용해서 진행한 연구에 대한 논문을 작성하며, Semantic Scholar를 사용해서 관련 있는 논문들을 cite한다.

Automated Paper Reviewing
생성한 논문에 대해 인간과 비슷한 수준에서 평가할 수 있다. 해당 논문을 개선하기 위한 리뷰를 생성할 수도 있고, 이후 연구에 활용할 수 있는 리뷰를 생서알 수도 있다. 이후에 활용할 수 있는 리뷰를 통해 위 과정이 반복적으로 수행되며, 끝없는 연구를 수행할 수 있게 된다.

Example Papers Generated by The AI Scientist

아래는 Diffusion Modeling, Language Modeling, Grokking을 각각 토픽으로 해서 template으로 제공한 정보를 바탕으로 The AI Scientist가 수행한 연구 결과이다.
code는 The AI Scientist의 GitHub 레포지토리에 저장되어 있다. 연구를 수행하기 위해 입력한 template이 무엇인지, The AI Scientist가 실험을 위해 작성한 코드와 실험 결과, 논문 등을 확인할 수 있다.

Diffusion Modeling
Dualscale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models pdf, code

Language Modeling
Stylefusion: Adaptive Multi-Style Generation in Character-Level Language Models pdf, code

Adaptive Learning Rates for Transformers via Q-Learning pdf, code

Grokking
Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models pdf, code

논문을 보면 알 수 있듯이 형식이 잘 갖춰져 있을 뿐만 아니라 LaTeX 문법을 준수하며, citation까지 명확히 써놓은 것을 알 수 있다.

Limitations and Challenges

vision task를 수행하지 못한다. 따라서 template에 vision task와 관련된 내용이 제공된다면 읽을 수 없다. multi-modal을 활용해서 이 문제를 해결할 수 있을 것이다.
The AI Scientist는 완벽하지 않기 때문에 baseline에 대해서 잘못된 아이디어를 생성하고, 비합리적인 추론을 할 수도 있다.
결과를 생성하거나 평가함에 있어서 심한 오류가 발생할 수 있다. 예를 들면 LLM의 고질적인 문제와 같이 두 숫자를 비교함에 있어서 어려움을 겪기도 한다.

본 연구에서는 이와 같은 문제들은 AI가 발전함에 있어, multi-modal을 사용하거나, The AI Scientist를 업그레이드하며 해결될 수 있다고 말한다.

The AI Scientist Bloopers

연구를 진행함에 있어서 스스로 실행되도록 코드를 짜라고 했더니 무한 루프에 걸리거나, 배포 후 실행이 너무 오래 걸려 timeout이 발생하기도 했다. 실행 속도를 높이기보다 코드 자체를 수정하라고 했더니, timeout 시간을 늘리는 수준밖에 되지 못했다고 한다. 추후 논의하고 수정해야 할 사항이라고 언급된다.

Future Implications of The AI Scientist

여느 새로운 기술이 개발될 때와 같이 새로운 이슈들에 대응해야 한다.

Ethical Considerations
The AI Scientist가 논문을 무분별하게 생성하여 학회나 저널에 투고할 경우 다양한 문제가 발생할 수 있다. 리뷰어의 부담이 증가할 수 있으며, 그 양이 방대해짐에 따라 선별이 어려워져 과학적 지식의 품질이 좋지 않을 수 있다. 또한 Image Generation과 같이 저작권 문제나, 가치 저하와 같은 이슈가 발생할 수 있다.
Automated Reviewer가 등장하여 온라인 상에 배포되면, 리뷰의 품질 저하는 물론, 논문에 대한 의도되지 않은 편향이 추가될 수도 있다. 따라서 AI의 리뷰에는 특정 표기를 하는 것이 제안된다.
또한 다른 여느 기술들과 마찬가지로 비윤리적으로 사용될 여지가 있다. 인간이 눈치채지 못하는 동안 스스로 연구를 진행하며 인간에게 해로운 바이러스 또는 컴퓨터 바이러스 등을 개발할 수도 있는 것이다.

Open Models
본 프로젝트를 수행하기 위해 GPT-4o, Sonnet과 같은 최첨단 LLM을 사용했다. 이 외에도 DeepSeek, Llama-3와 같은 오픈 모델을 사용해봤지만, 논문 생성에 있어서 Sonnet이 가장 좋은 결과를 도출했다. 따라서 궁극적으로 특정 모델 제공자에게 국한되지 않는 The AI Scientist를 개발하는 것이 목적이라고 한다.

The Role of a Scientist
궁극적으로 The AI Scientist가 연구의 라이프사이클을 전부 대체할지라도, 실제 과학자들의 역할은 다른 영역으로 이전될 뿐 사라지지 않을 것이다.

리뷰 소감

현재까지 등장한 최첨단 LLM들 중 가장 성능이 좋은 모델들을 사용해서 연구 라이프사이클이라는 task를 수행할 수 있도록 만들었기 때문에 모델 자체를 개발했다기보다 AI 분야의 새로운 지향점을 개척하는 틀을 제공했다고 보는 것이 더 적합할 것 같다. 하지만 LLM의 등장 이후 다양한 task에 사용되며 LLM의 목적이 애매하다는 얘기가 많은데, 이를 분명히 할 수 있는 발걸음임은 확실하다.
팀원들과 얘기한 결과 아래와 같은 문제점이 보였고, 어떻게 해결될지 궁금해졌다.

1. 현재 LLM에서 가장 큰 문제라고 지적받는 hallucination 문제에 대해서는 어떻게 해결할 것인지?
2. 기존의 연구를 바탕으로 research를 진행할 때 부정확한 데이터의 우위를 가릴 수 있는지?
3. 필요한 지식이 무엇인지 판단할 때 여러 지식들 간의 우위를 가릴 수 있는지? 예를 들어, 아인슈타인의 상대성 이론 vs. 뉴턴의 고전 역학

출처, 자료
AGI Situational Awareness
The AI Scientist 공식 문서, 논문
The AI Scientist Code GitHub

oceann

🌈🌼🌸☀️

이전 포스트