[논문 읽기] Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

벵갈·2024년 11월 7일

논문 읽기

목록 보기

5/12

0. 개요

이 논문은 2020년에 나온 논문으로, AlphaGo와 AlphaZero의 후속 연구로 진행한 내용이다. 지피티의 추천을 받았다.

보는 논문마다 실버 교수님이 계신 것 같은 느낌이다. 역시 강화학습 분야에서 유명하신 것 같다.

1. 논문 요약

1.1. 논문 개요

논문 제목: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
논문 저자: Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy Lillicrap, David Silver.

1.2. 배경

Model-based RL
기존의 model-based RL은 환경의 모델을 먼저 구축하고 이를 사용해 최적의 정책을 학습하는 방식이다. 그러나 Atari 2600과 같은 복잡하고 시각적 상태가 다양한 환경에서는 model-based 접근이 어려워 model-free 방식이 주로 사용된다.
Model-free RL
model-free RL은 상태를 함수로 근사하여 좋은 결과를 내는 알고리즘이다. 그러나 체스나 바둑과 같이 정확한 계획과 긴 시계열 예측이 필요한 게임에서는 model-based 접근이 더 나은 성능을 보였다.

그래서 이 논문에서는 model-based를 이용하지만 Atari, 체스, 바둑에서 모두 좋은 성적을 내는 알고리즘을 제안한다.

1.3. 연구 방법

3가지 함수를 이용해 학습한다. 3가지 함수는 각각 representation function, dynamics function, predict function이다. 이 3가지 함수를 통해 MCTS를 진행하여 Atari 2600, 바둑, 체스의 시뮬레이션을 진행하며 학습한다.

Representation Function
Representation Function에서 관찰값을 입력으로 받아 여러 히든 레이어를 거쳐 추상적인 잠재 상태로 변환한다. 이 히든 레이어는 MuZero가 정책과 가치를 예측하는 데 필요한 핵심 정보만을 압축하여 표현한다.
Dynamics Function
Dynamics function에서는 representation function에서 나온 핵심 정보를 받아서 다음 행동을 예측한다. 예측되는 다음 state와 reward를 출력 값으로 제공한다. dynamics function은 본인이 예측한 정보와 실제로 나온 정보를 비교하여 점점 학습한다.
Predict Function
Predict Function은 dynamics function에서 나온 값을 받아서 policy와 value를 예측한다. dynamics function과 마찬가지로 예측한 정보와 실제로 나온 정보를 비교하여 점점 학습한다.

이 3가지 함수를 이용하여 구조를 만들고 MCTS를 이용하여 바둑, 체스, 쇼기, Atari 2600의 게임을 학습한다.

1.4. 주요 결과

바둑, 체스, 쇼기: MuZero는 이전의 AlphaZero와 유사한 성능을 달성했고 환경의 구체적인 모델(게임의 규칙)을 사전에 알 필요가 없는 방식으로 학습했기 때문에 강화학습의 범용성을 높였다고 평가된다.
Atari 2600 게임: 기존의 model-free 방식보다 더 높은 성능을 보였고 여러 Atari 게임에서 이전 강화학습 알고리즘인 RAINBOW, IMPALA, UNREAL, LASER 등을 능가했다.