Richard Sutton 대담 정리: "LLM은 막다른 길인가?" (260419)

WonTerry·2026년 4월 19일

LLM

목록 보기
49/69

Richard Sutton – Father of RL thinks LLMs are a dead end


Richard Sutton 대담 정리: "LLM은 막다른 길인가?"


1. LLM과 RL의 근본적 차이 — 목표와 세계 모델

Sutton은 LLM과 강화학습(RL)은 근본적으로 다른 패러다임이라고 주장한다. LLM은 사람을 흉내내는(mimicking) 시스템이고, RL은 세계를 이해하는 시스템이다. LLM이 세계 모델을 갖고 있다는 주장에 그는 동의하지 않는다. "사람이 무슨 말을 할지 예측하는 것"과 "세계에서 무슨 일이 일어날지 예측하는 것"은 전혀 다르다는 것이다.

Alan Turing의 말을 인용하며, 진정한 지능은 "경험으로부터 배우는 것"이며 경험이란 실제 삶에서 벌어지는 일들이라고 강조한다. LLM은 그 대신 "사람이 이 상황에서 이렇게 했다"는 데이터로부터 배우며, 이는 암묵적으로 사람을 따르라는 신호에 불과하다.

목표(goal)의 부재도 핵심 문제로 꼽힌다. Sutton은 지능의 본질을 "목표를 달성하는 능력"으로 정의하며, LLM에는 진정한 목표가 없다고 본다. 다음 토큰을 예측하는 것은 세계에 영향을 미치는 실질적인 목표가 아니기 때문이다. RL에는 보상(reward)이라는 기준이 있어 "옳은 행동"을 정의할 수 있지만, LLM에는 그런 ground truth가 없어 무엇이 옳은지 판단할 방법이 없다.


2. LLM은 'Bitter Lesson'의 사례인가?

Sutton 본인이 2019년 발표한 에세이 "The Bitter Lesson"은 AI 역사상 가장 영향력 있는 글 중 하나로, 범용 계산 방법이 인간 지식을 주입한 방법을 결국 능가해왔다는 관찰이다. 진행자는 많은 사람들이 이를 LLM 스케일링의 근거로 활용한다고 지적한다.

이에 Sutton은 LLM이 Bitter Lesson의 사례처럼 보이기도 하지만, 결국은 또 다른 Bitter Lesson의 피해자가 될 것이라고 예측한다. 인간의 지식에 의존하는 방법은 항상 경험으로부터 직접 학습하는 진정으로 확장 가능한 방법에 의해 대체되어 왔고, LLM도 결국 같은 운명을 맞이할 것이라는 전망이다. 역사적으로 사람들은 인간 지식 기반 방법에 심리적으로 고착되었고, 이로 인해 더 확장 가능한 방법에 자리를 내주었다고 그는 주장한다.


3. 인간은 모방 학습을 하는가? — 동물 학습의 본질

진행자가 아이들이 모방을 통해 배운다고 주장하자, Sutton은 강하게 반론한다. 그는 심리학의 기본 동물 학습 이론에는 모방이 없으며, 있는 것은 예측 학습시행착오(trial-and-error) 학습뿐이라고 말한다. 감독 학습(supervised learning)은 자연에서 일어나지 않는다는 것이다. "다람쥐는 학교에 다니지 않지만 세계에 대해 모든 것을 배울 수 있다."

Joseph Henrich의 문화 진화 이론(인간은 모방을 통해 조상의 지식을 전수받는다)을 진행자가 소개하자, Sutton은 그것이 사실이라 하더라도 기본적인 시행착오 학습과 예측 학습 위에 있는 작은 덧씌우개에 불과하다고 답한다. 우리는 인간을 동물로서 먼저 이해해야 하며, 언어와 문화는 그 위에 쌓인 표층이라는 것이다.


4. 경험의 시대(Era of Experience) — RL 패러다임의 구조

Sutton이 구상하는 경험 기반 AI 패러다임의 핵심은 감각(sensation) → 행동(action) → 보상(reward) 의 연속 흐름이다. 이 흐름으로부터 학습하고, 지식 또한 이 흐름에 관한 것이어야 한다. "어떤 행동을 하면 무슨 일이 생기는가"에 대한 지식은 흐름과 비교하여 검증할 수 있고, 지속적으로 학습할 수 있다.

그는 RL 에이전트의 네 가지 구성 요소를 제시한다.

  • 정책(Policy): 현재 상황에서 무엇을 해야 하는가
  • 가치 함수(Value Function): TD 학습으로 학습되며, 현재 상황이 얼마나 잘 되어가고 있는지를 나타내는 수치
  • 지각(Perception): 상태 표현의 구성, 현재 어디에 있는지에 대한 감각
  • 세계 전이 모델(Transition Model): 어떤 행동을 하면 무슨 일이 벌어지는가에 대한 믿음 — 세계의 물리 법칙

보상은 이 모델의 작지만 결정적인 일부이며, 풍부한 감각 정보 전체로부터 학습이 이루어진다고 설명한다. 또한 인간처럼 수십 년의 장기 목표(예: 스타트업 성공)를 다루는 방법으로 TD 학습의 가치 함수를 활용한 장기 보상의 단계적 분해를 제안한다.


5. 현재 아키텍처의 일반화 문제 — 전이 학습의 한계

진행자는 DeepMind의 MuZero가 게임 간 일반화에 실패한 사례를 언급한다. Sutton은 이에 대해 일반화 자체가 근본적인 미해결 과제라고 답한다. 현재 딥러닝에서 좋은 일반화가 이루어지는 경우는 연구자들이 수동으로 만들어낸 것이며, 경사 하강법(gradient descent) 자체는 좋은 일반화를 만들어주지 않는다는 것이다.

또한 LLM이 올림피아드 수학 문제를 풀 수 있다는 것에 대해, 이는 문제를 푸는 유일한 방법을 찾아낸 것일 수 있으며, 여러 해결책이 존재하는 상황에서 "더 나은 일반화"를 선택하는 메커니즘이 없다고 지적한다. LLM은 너무 많은 데이터를 학습했기 때문에 무엇을 알고 모르는지 통제하기 어렵고, 이는 과학적 방법론으로서도 부적합하다고 본다.


6. AI 분야의 역사와 놀라운 발견들

수십 년간 AI 분야를 지켜본 Sutton이 꼽은 가장 큰 놀라움은 다음과 같다. 첫째, LLM이 언어 과제에서 이토록 효과적이라는 것 — 언어는 다를 것이라 생각했기 때문이다. 둘째, AI의 오랜 논쟁인 범용 방법(탐색·학습)인간 지식 주입 방법 싸움에서 전자가 완승을 거뒀다는 것이다. AlphaGo와 AlphaZero는 그 상징적 사례로, 인간 지식 없이 경험만으로 세계 최강을 달성했다.

그는 자신이 오랫동안 주류 분야와 다른 길을 걸어왔지만, 과거에도 옳았던 경험이 있어 지금도 흔들리지 않는다고 말한다. 자신을 '반골'이 아닌 고전주의자(classicist)로 규정하며, 심리학·철학·인지과학 등 마음에 대해 오래 생각해온 더 넓은 사상 전통과 자신의 관점이 일치한다고 본다.


7. AGI 이후에도 Bitter Lesson은 유효한가?

진행자는 AGI 이후에는 수백만 명의 AI 연구자가 존재할 것이고, 이들이 다시 정교한 맞춤형 방법을 사용하는 것이 합리적이지 않겠냐고 묻는다. Sutton은 이 질문 자체가 이미 AGI가 달성되었음을 전제한다고 지적하며 "그러면 이미 다 된 것"이라고 답한다.

이어서 AGI 이후의 AI 연구 진화 방향으로, 하나의 AI가 자신의 복사본을 생성해 각기 다른 분야를 탐구하고 그 결과를 통합하는 분산 학습과 지식 통합 시나리오를 흥미로운 미래 과제로 제시한다. 단, 외부에서 습득한 지식을 내부 사고 체계에 통합할 때 발생할 수 있는 디지털 오염과 사이버보안 문제도 함께 심각하게 고려해야 할 과제로 꼽는다.


8. AI에게로의 계승 — 우주적 전환점으로서의 AGI

대담의 후반부는 AI 계승(succession)의 불가피성과 인류의 역할에 대한 철학적 논의로 이어진다. Sutton은 4단계 논증을 통해 AI로의 계승이 필연적이라고 주장한다. ①인류에게는 통합된 관점을 강제할 단일 권력이 없다. ②연구자들은 결국 지능의 원리를 해명할 것이다. ③인간 수준에서 멈추지 않고 초지능까지 나아갈 것이다. ④가장 지능적인 존재가 결국 자원과 권력을 획득하게 된다.

그는 이 전환을 우주의 네 가지 위대한 단계 중 하나로 본다. 먼지 → 별 → 행성 → 생명에 이어, 이제 우리는 설계된 존재(designed entities) 의 시대로 진입하고 있다는 것이다. 복제자(replicator)의 시대에서 설계(design)의 시대로의 이행이며, 인간은 이해하지 못한 채 지능을 복제해왔지만, 이제는 지능이 어떻게 작동하는지 알면서 설계할 수 있게 된다.

진행자가 AI에게 "튼튼하고 조향 가능한(steerable) 가치관"을 심어주는 것이 중요하지 않겠냐고 제안하자, Sutton은 이에 공감하면서도 인류가 통제력에 대한 지나친 권리 의식(entitlement)을 갖는 것을 경계해야 한다고 말한다. 미래가 어떻게 진화해야 하는지에 대해 사람마다 생각이 다르기 때문에, 전 지구적 미래를 통제하려는 시도보다는 자신의 삶과 가족 등 더 통제 가능한 영역에 집중하는 것이 현명하다고 조언한다.


The Bitter Lesson (2019) — Richard Sutton

The Bitter Lesson (2019) — Richard Sutton

핵심 주장: AI 연구의 70년 역사를 돌아보면, 인간의 전문 지식을 시스템에 직접 주입하는 방법은 결국 범용 계산 방법(computation + search + learning) 에 패배해왔다. 이것이 "쓴 교훈(Bitter Lesson)"이다.


역사적 패턴

Sutton은 체스, 바둑, 음성 인식, 컴퓨터 비전 등 주요 AI 분야에서 동일한 패턴이 반복됐다고 지적한다.

  1. 연구자들이 인간의 전문 지식을 AI에 주입하는 방법을 개발한다
  2. 단기적으로는 성과가 좋아 보인다
  3. 시간이 지나 컴퓨팅 파워가 증가하면, 인간 지식 없이 순수하게 계산과 데이터로 학습하는 방법이 이를 압도한다
  4. 연구자들은 뒤늦게 뼈아픈 교훈을 얻는다

대표 사례로는 체스(Deep Blue의 인간 설계 전략 → TD-Gammon과 결국 AlphaZero의 자기대국 학습), 바둑(기보 기반 접근 → AlphaGo/AlphaZero), 음성 인식(언어학 기반 모델 → 딥러닝 음향 모델) 등이 있다.


왜 "쓴" 교훈인가?

인간 지식을 넣는 방법이 단기적으로 잘 작동하기 때문에, 연구자들은 계속 그 방향에 투자한다. 그러다 컴퓨팅이 충분히 커지면 범용 방법이 따라잡고 결국 추월하는데, 그때서야 자신들의 노력이 헛수고였음을 깨닫게 된다는 점에서 "쓰다(bitter)".


핵심 메시지

"우리는 단기적인 성과에 속아 인간 지식을 주입하는 방향으로 계속 투자하지만, 장기적으로는 탐색(search)과 학습(learning)이라는 범용 방법, 그리고 그것을 가속하는 컴퓨팅 파워의 증가가 항상 이긴다."

따라서 Sutton의 결론은, AI 연구자들이 인간 지식 주입을 통한 단기 성과에 집착하는 대신 확장 가능한 범용 방법에 집중해야 한다는 것이다.


오늘날의 아이러니

대담에서도 드러나듯, 이 에세이는 역설적으로 LLM 스케일링의 정당화에 가장 많이 인용된다. 하지만 Sutton 본인은 LLM이야말로 Bitter Lesson이 경고한 "인간 지식 주입 방식"의 최신 형태이며, 결국 경험으로부터 직접 학습하는 방법에 의해 대체될 것이라고 본다는 점이 흥미롭다.

profile
Hello, I'm Terry! 👋 Enjoy every moment of your life! 🌱 My current interests are Signal processing, Machine learning, Python, Database, LLM & RAG, MCP & ADK, Multi-Agents, Physical AI, ROS2...

0개의 댓글