AI가 세상을 배우는 법 : '월드 모델(World Model)'의 모든 것

한승수·2026년 1월 24일

목록 보기

5/6

안녕하세요 그루비한입니다. 인공지능을 공부하다보면 인공지능의 다음 스텝은 어디일까? 하는 상상을 하게 됩니다. 오늘은 세계적인 인공지능 석학들이 이끄는 각 빅테크 기업에서 시도하는 AI의 다음 스텝인 월드 모델에 대해 알아보겠습니다.

인공지능이 텍스트를 생성하고 이미지를 그리는 단계는 Trasnformer와 Diffusion이라는 기술이 등장하면서 이제는 거의 완벽에 가까운 수준에 도달 했습니다. 페이페이 리와 얀 르쿤과 같은 AI 석학들은 이제 AI가 생성하는 텍스트와 이미지를 제대로 활용하려면 인공지능이 사람과 같이 내제적인 지식, 추상적인 지식을 갖춰 상상하고 예측하는 것이 필요하다고 주장합니다.

이러한 주장과 함께 빅테크들은 AI가 우리가 사는 '세상의 물리 법칙'을 직접 학습할 수 있도록 연구하기 시작했습니다. 최근 AI 업계에서 가장 뜨거운 화두 중 하나인 '월드 모델(World Model)'은 과연 무엇인지, 그리고 우리 미래를 어떻게 바꿀지 그 개념부터 최신 동향까지 차근차근 짚어보겠습니다.

1. 월드 모델: AI가 갖게 된 '멘탈 모델'

월드 모델이란 쉽게 말해 현실 세계의 물리적 법칙과 공간, 시간, 그리고 사물 간의 상호작용을 이해하고 이를 가상으로 시뮬레이션할 수 있도록 구축된 모델을 의미합니다.

우리가 일상의 모든 물리 현상을 수학적으로 계산하며 살지는 않지만, "한 번 놓인 컵은 누가 만지지 않으면 그 자리에 그대로 있다"거나 "공을 발로 차면 앞으로 나간다"는 사실을 본능적으로 알고 행동하는 것과 같습니다. 월드 모델은 바로 이러한 인간의 '멘탈 모델'을 AI에게 구현해 줍니다. 덕분에 AI는 자신이 상호작용하는 환경의 구조를 학습하여, 실제로 행동하기 전에 그 결과를 머릿속으로 미리 상상해 볼 수 있게 됩니다.

2. 강화학습에서 시작된 '시뮬레이션'의 지혜

이러한 월드 모델의 뿌리는 사실 강화학습(Reinforcement Learning) 분야에 있습니다. 본래 강화학습은 특정 상태에서 어떤 행동을 해야 가장 큰 보상을 얻을 수 있는지 학습하는 방식으로 행동을 결정해 왔습니다.

하지만 여기에 월드 모델의 개념이 더해지면서, 모델은 행동을 결정하기 전에 물리적인 상호작용을 고려하여 미리 시뮬레이션을 돌려보고 가장 최적의 행동을 선택하는 정책을 수립하게 되었습니다. 이는 실제 동물이나 사람이 어떤 행동을 하기 전, 머릿속으로 '어떤 일이 벌어질까?'를 미리 그려본 뒤 움직이는 방식과 매우 흡사한 지능적 진화라고 볼 수 있습니다.

2018년 David Ha의 논문에 처음 등장한 World Model

3. 월드모델의 가치: 행동 전에 결과를 예상하는 로봇

월드 모델이 로보틱스 분야에 본격적으로 적용된다면 그 파급력은 상상 이상일 것입니다. 로봇이 직접 행동을 해보지 않고도 자신의 움직임이 가져올 결과를 미리 알 수 있기 때문입니다.

2020년 구글 딥마인드 Dreamer가 "상상"을 기반으로 행동을 결정해 게임을 수행한 영상

예를 들어 물이 든 컵을 들어 올릴 때, 물을 쏟지 않으려면 컵을 지면과 평행하게 유지해야 한다는 사실을 월드 모델을 통해 내제적으로 이해하게 됩니다. 만약 컵을 기울이면 물이 쏟아진다는 물리적 인과관계를 미리 알고 있다면, 로봇은 수많은 시행착오를 겪지 않고도 컵을 평평하게 드는 움직임을 스스로 생성해낼 수 있습니다. 이처럼 물리적 지식을 바탕으로 움직이는 로봇이야말로 우리 실생활에 진정한 도움을 주는 '도구'로서의 가치를 증명하게 될 것입니다.

4. 각기 다른 모습으로 등장한 최신 월드 모델들

현재 '월드 모델'이라는 용어에 대해 업계의 완벽한 합의가 이루어진 것은 아니지만, 주요 AI 기업들은 저마다의 방식으로 이를 구현해내고 있습니다.

Sora (OpenAI)

사실 Sora는 동영상 생성 모델이지 월드 모델은 아닙니다. 다만, Sora는 방대한 데이터를 통해 물리를 통계적 패턴으로 학습한 덕분에 영상을 생성할 때 물리적 요소를 고려하여 놀라울 정도로 현실감 있는 장면을 만들어냅니다. Sora 논문

Sora로 생성한 영상의 한 프레임. 빗길에 빛이 비치는 물리 현상이 현실적으로 잘 복원되어 있다.

Ginie 시리즈 (Google Deepmind)

구글 딥마인드의 Genie(지니) 시리즈도 주목할 만합니다. Genie 2는 텍스트와 이미지 프롬프트만으로 게임 속 물리 엔진을 실시간으로 생성해내어 물리엔진 속에서 사용자가 캐릭터를 움직이고, 중력, 속도감, 그리고 실제 이미지를 게임 속 장면으로 바꾸는 것까지 할 수 있는 놀라운 능력을 보여줍니다. Genie2 페이지

예를 들어 아래와 같이 A cute humanoid robot in the woods 라는 프롬프트를 주고 실행하면 아래와 같은 게임이 만들어지고, 이 캐릭터를 w,a,s,d 키를 눌러 움직이면 이 게임이 물리 엔진을 반영해서 움직이게 됩니다.

Genie 3에 이르러서는 실제 세계와의 상호작용은 물론 '월드 메모리' 기능까지 갖추게 되었습니다. 화면 밖으로 사라졌던 물체가 다시 돌아와도 그 자리에 그대로 있는 영속성을 유지하는 등, 단순히 비디오 생성을 넘어 안정적인 가상 세계를 구축할 가능성을 보여주었습니다. Genie3 페이지

Dreamer 시리즈 (Google Deepmind)

또한 구글의 Dreamer는 Genie와 다르게 생성을 하기 위한 World Model이 아니라 강화학습의 개념과 유사하게 어떤 에이전트가 행동하기 전 최적의 행동을 시뮬레이션하여 복잡한 태스크를 수행할 수 있는데 World Model 개념을 적용했습니다. DreamerV4 논문

DreamerV4는 최초로 다이아몬드 캐기에 성공했다.

위의 예시는 한 게임에서 인간의 개입 없이 게임의 메카닉을 이해한 에이전트가 원하는 Task를 수행하기 위한 최적의 행동을 예측하는 과정을 보여줍니다. 이 과정에서 에이전트 속에 잠재되어 있는 내적 World Model이 어떤 행동을 했을 때 어떤 일이 생길지 "상상"하고 로봇이 상상한 미래 시퀀스 중 최적의 행동을 선택해 행동하게 됩니다.

COSMOS: World Foundation Model (NVIDIA)

엔비디아의 COSMOS는 '월드 파운데이션 모델 플랫폼'으로서 적은 데이터로도 특정 목적에 맞는 월드 모델을 개발할 수 있는 환경을 제공하고 있습니다.
엔비디아가 내놓은 World Foundation Model은 기본적으로는 Large scale Video Data로 학습되어 있어 비디오 생성에 파이프라인이 맞춰져 있지만, 이 모델을 파인튜닝하면 Autonomous Driving, 로봇 제어 등 다양한 Physical AI 분야에 맞게 활용할 수 있는 플랫폼을 구성했다는 것이 가장 큰 장점입니다.
COSMOS 논문

Pre-trained World Foundation Model과 Finetuning을 통한 확장 가능성

5. 월드 모델의 미래: 생성을 넘어 '예측'으로 가는 JEPA

앞으로의 월드 모델이 나아갈 방향으로 가장 주목받는 것은 얀 르쿤이 이끄는 메타의 JEPA(Joint-Embedding Predictive Architecture)입니다. 기존 모델들이 비디오를 '생성'하는 데 초점을 맞췄다면, JEPA는 다음 장면에 등장할 상황의 '의미(임베딩)'를 예측하는 데 집중합니다.

Meta의 V-JEPA 2 프로젝트 페이지

Contrastive Learning을 활용한 I-JEPA의 학습과정

이미지 기반의 I-JEPA부터 시공간 블록을 예측하는 V-JEPA, 그리고 비디오와 텍스트를 결합한 VL-JEPA까지 그 영역을 확장하고 있습니다. 특히 JEPA는 물리적으로 불가능한 상황에는 높은 에너지를, 가능한 상황에는 낮은 에너지를 부여하여 현실적인 시나리오만을 골라내는 '필터' 역할을 수행합니다. 단순히 정답을 맞히는 것을 넘어 물리적 타당성을 검증한다는 점에서 기존의 비디오 생성 모델과는 본질적으로 궤를 달리합니다.

결론: AI 패러다임의 전환, '도구'가 되는 로봇

누군가는 이미 월드 모델의 파운데이션 모델이 구축되었다고 말하고, 누군가는 아직 그 정의조차 모호하다고 이야기합니다. 하지만 분명한 것은 현실 세계와 동일한 물리 법칙 위에서 움직이는 가상의 월드 모델이 AI의 배경이 된다면, AI의 작업 능력은 지금보다 수백 배 향상될 것이라는 점입니다.

마치 영화 속 닥터 스트레인지가 수만 가지 미래를 시뮬레이션하고 최적의 행동을 선택하듯, AI가 미래를 예측하여 최선의 움직임을 수행하는 새로운 패러다임이 다가오고 있습니다. 이러한 기술적 도약이 완성될 때, 우리는 드디어 로봇을 단순한 기계가 아닌 진정한 가치를 지닌 '도구'로 여기는 시대를 맞이하게 될 것입니다.