[RL] Mastering the game of Go with deep neural networks and tree search

Sejin Jeong·2022년 12월 22일

Paper go reinforcement learning review

Reinforcement Learning

목록 보기

1/6

** 위 사진은, 제가 고2때, 생명과학 시간에 선생님께서 보여주신 알파고와 이세돌 선수의 대결을 보고 영감을 받아 선택한 사진입니다. [출처]

Paper Name: Mastering the game of Go with deep neural networks and tree search (Google DeepMind(2016.10.)) (Read to Go)

Contents :

Go

Abstract

Introduction

Methods

Result

Conclusion

Future Research

Go (바둑)

두 사람이 흑과 백의 돌을 사각의 판 위에 번갈아 놓으며 집을 차지하는 것을 겨루는 놀이

가로와 세로 각각 19줄이 그어진 바둑판 위의 361개 교차점에 돌을 둘 수 있음(⇒ 경우의 수 굉장히 많음, 250^120)

게임 목표: 상대 보다 더 많은 공간을 자신의 돌로 둘러 싸는 것

Abstract

AlphaGo

바둑에서, 세계 챔피언을 물리친 최초의 프로그램

심층신경망(DNN)을 이용해, 몬테카를로 트리 탐색(MCTS) 기술 적용 후, 위치 평가 및 동작 선택 진행

DNN = 지도학습(SL, Expert moves) + 강화학습(RL, Self-Play)

MCTS: 확률 게임에서 트리 형태로 모든 경우를 만들고, 랜덤으로 트리의 가지를 선택하여 탐색하는 것 (Policy Network & Value Network)

Introduction

MC(Monte-Carlo)

MCTS(Monte-Carlo Tree Search)

확률 게임에서 트리 형태로 모든 경우를 만들고 랜덤으로 트리의 가지를 선택하여 탐색해 보는 것

단계 설명 (1)

단계 설명 (2)

Methods

MCTS(Monte-Carlo Tree Search)

Policy Network (= Policy Function)

Value Network (= Value Function)

Policy Network & Value Network

1. SL Policy Network (Human Expert Positions)

2. Rollout Policy (Human Expert Positions)

3. RL Policy Network (Self-Play Positions)

4. Value Network (Self-Play Positions)

MCTS의 깊이를 줄이기 위한 승률예측 정확도

Value Network를 이용하면, RL Policy를 이용한 거 보다 약 1만 5000배 빠르고, 비슷한 정확도를 보임

AlphaGo’s MCTS

Searching with policy and value networks

RL Policy Network

Policy Gradient Reinforcement Learning을 통해 알파고 기보도 고려함

이긴 판 reward: +1, 진 판 reward: -1

Value Network

사람의 기보만 있을 경우, Overfitting이 일어날 수 있기 때문에 알파고의 기보(RL Policy Network)가 추가됨

Distributed AlphaGo의 성능이 더 좋음

AlphaGo’s Training PipeLine

Result

제한 시간내에서 다른 인공지능과 비교했을 때, 네 점 핸디캡을 두고 시작하여도 모두 이김

Distributed AlphaGo: 런타임할 때 사용

Game Result Prediction: 100번 롤아웃해서 얻어지는 결과로 평가함

Conclusion

AlphaGo 연구의 의의

딥러닝 기술의 성능 향상

실용적인 연구

MCTS를 이용해서도 바둑을 풀 수 있음

인공지능의 대중화

Future Research

AlphaGo Zero

게임 규칙을 넘어선(인적데이터, 지침 또는 도메인지식 없이), 오직 강화학습만 기반한 알고리즘 사용

신경망 = AlphaGo 움직임 선택 + AlphaGo 게임의 승자 예측

트리 검색 강도 향상을 통해 정확한 이동 선택을 하게 함

기존의 AlphaGo와의 경기에서 100 대 0으로 이김

Existing AI (vs. RL)

Supervised Learning System(지도학습 시스템)

Expert data sets

expensive(비쌈), unreliable(무신뢰성) or simply unavailable(복잡한 사용)

if, Reliable data sets

훈련된 시스템의 성능에 제한점을 줄 수 있음

(Existing AI vs.) Reinforcement Learning (RL)

사람의 능력을 뛰어넘음

사람의 전문 지식이 부족한 영역에서 작동 할 수 있도록 자신의 경험을 통해 훈련

Atari 및 3D 가상 환경과 같은 컴퓨터 게임에서 사람보다 성능이 뛰어남

Sejin Jeong

Soli Deo Gloria. / Sapere Aude.

다음 포스트

[RL] Mastering the game of Go with deep neural networks and tree search

Reinforcement Learning

Contents :

Go (바둑)

Abstract

AlphaGo

Introduction

MC(Monte-Carlo)

MCTS(Monte-Carlo Tree Search)

Methods

MCTS(Monte-Carlo Tree Search)

Policy Network (= Policy Function)

Value Network (= Value Function)

Policy Network & Value Network

1. SL Policy Network (Human Expert Positions)

2. Rollout Policy (Human Expert Positions)

3. RL Policy Network (Self-Play Positions)

4. Value Network (Self-Play Positions)

MCTS의 깊이를 줄이기 위한 승률예측 정확도

AlphaGo’s MCTS

Searching with policy and value networks

AlphaGo’s Training PipeLine

Result

Conclusion

AlphaGo 연구의 의의

Future Research

AlphaGo Zero

Existing AI (vs. RL)

(Existing AI vs.) Reinforcement Learning (RL)

[RL] 파이썬과 케라스로 배우는 강화학습

0개의 댓글