이 논문은 2018년에 나온 논문으로, 내가 관심있는 강화학습과 게임 AI에 대해 접하기 쉬운 느낌이 있어서 처음 논문으로 이것을 골랐다.
GVGAI의 프레임워크와 Open AI Gym을 연결하여 진행한다. Aliens, Seaquest, Missile Command, Boulder Dash, Frogs, Zelda, Wait For Breakfast, and Superman의 게임에서 테스트를 진행하였으며 학습할 때는 관찰값으로 스크린샷 정보를 받고 이를 통해 학습한다.
DQN과 modified DQN, A2C의 강화학습 기법을 사용하여 성능평가를 진행하며 계획 기반 탐색 알고리즘으로 MTCS(Monte Carlo Tree Search), Genetic Algorithm(GA), Random Search(RS)를 사용하여 비교하였다.
Aliens과 같은 게임은 3가지 알고리즘 모두 잘 작동하였지만 frog같이 승/패만 존재하는 게임은 모두 효과가 좋지 않았다. Boulder Dash의 경우 A2C가 높은 효과를 보였고 Superman과 같은 어려운 게임에서는 모두 좋은 효과를 내지 못했다.
계획 기반 탐색 알고리즘이 대부분 강화학습 알고리즘보다 좋은 효과를 보였고 단순한 구조를 가진 게임에서는 강화학습이 효과가 좋았지만 조금 복잡한 구조를 가진 게임에서는 계획 기반 탐색 알고리즘의 효과가 더 좋았다.
GVGAI는 AI의 게임 플레이 성능 향상에 기여하고, 다양한 알고리즘이 변화하는 환경에 어떻게 학습하고 적응하는지를 체계적으로 평가하는 데 중요한 역할을 할 수 있다.
그러나 아직은 학습률이 그렇게 높지 않아서 그것에 대한 연구가 더욱 필요하다.
6년전 논문이라 그런지 조금 옛날 티가 나는 것 같다. 최근에는 강화학습이 더 발전했기 때문에 지금 다시 진행하면 더 좋은 결과가 있지 않을까? 라는 생각이 든다.