[논문 읽기] Deep Reinforcement Learning for General Video Game AI

벵갈·2024년 10월 29일

강화학습 게임 AI 논문

논문 읽기

목록 보기

2/12

0. 개요

이 논문은 2018년에 나온 논문으로, 내가 관심있는 강화학습과 게임 AI에 대해 접하기 쉬운 느낌이 있어서 처음 논문으로 이것을 골랐다.

1. 논문 요약

1.1. 논문 개요

논문 제목: Deep Reinforcement Learning for General Video Game AI
논문 저자: Ruben Rodriguez Torrado, Philip Bontrager, Julian Togelius, Jialin Liu, Diego Perez-Liebana

1.2. 배경 지식

General Video Game AI(GVGAI)
GVGAI는 일반 비디오 게임 연구를 위한 Java 기반의 2D 아케이드 스타일 게임 벤치마크이다. 160개 이상의 게임을 제공하며 이 게임들은 Video Game Description Language(VGDL)을 사용해서 정의된다. VGDL은 2가지 파일로 구성되어 있으며 각각 게임과 레벨을 정의한다.
Reinforcement Learning(강화학습)
강화학습은 동적 환경에서 trial-and-error를 통해 학습하고 장기계획과 단기 보상의 균형을 맞춘다. 여러 분야에서 사용되며 특히 게임에서 많이 사용된다.
딥러닝과 강화학습을 연동하여 Deep Reinforcement Learning으로 많은 성과가 이루어졌고 대표적으로 Deep Q-Networks(DQN)은 Atari게임에서 좋은 성과를 이루었다.
Open AI Gym
강화학습을 테스트하기 위해서는 플랫폼이 필요한데 그걸 Open AI Gym이 해결해준다. OpenAI Gym은 다양한 환경을 제공하여 RL 연구자들이 다양한 조건에서 알고리즘을 테스트하고 비교할 수 있도록 해준다.

1.3. 연구 방법

GVGAI의 프레임워크와 Open AI Gym을 연결하여 진행한다. Aliens, Seaquest, Missile Command, Boulder Dash, Frogs, Zelda, Wait For Breakfast, and Superman의 게임에서 테스트를 진행하였으며 학습할 때는 관찰값으로 스크린샷 정보를 받고 이를 통해 학습한다.

DQN과 modified DQN, A2C의 강화학습 기법을 사용하여 성능평가를 진행하며 계획 기반 탐색 알고리즘으로 MTCS(Monte Carlo Tree Search), Genetic Algorithm(GA), Random Search(RS)를 사용하여 비교하였다.

1.4. 주요 결과

Aliens과 같은 게임은 3가지 알고리즘 모두 잘 작동하였지만 frog같이 승/패만 존재하는 게임은 모두 효과가 좋지 않았다. Boulder Dash의 경우 A2C가 높은 효과를 보였고 Superman과 같은 어려운 게임에서는 모두 좋은 효과를 내지 못했다.

계획 기반 탐색 알고리즘이 대부분 강화학습 알고리즘보다 좋은 효과를 보였고 단순한 구조를 가진 게임에서는 강화학습이 효과가 좋았지만 조금 복잡한 구조를 가진 게임에서는 계획 기반 탐색 알고리즘의 효과가 더 좋았다.