AlphaGo

AI Opt Lab·2022년 2월 24일
0

양승지

목록 보기
1/1


몬테칼로 트리써치 : 상대방과 내가 번갈아가면서 게임을 하는데, 게임을 현재상황에서 끝까지 다 둬보는 것
경우의 수 너무 많아! >> 똑똑하게 게임 해보자!!

  1. policy network : 19*19의 수 다 둬보는 게 아니라 좋은 수 위주로 내가 어디다가 두면 좋을지
  2. value network : 아웃풋 = 숫자 하나




rollout policy : 빠른, 아주 작은 네트워크를 따로 학습


*MCTS에 self play로 value function 학습(value function학습시에만 쓰임)

  1. SL ver1 VS RL >> 미니배치 업데이트 >> ver2
  2. opponent pool [ver1, ver2, ver3, ...] 에서 랜덤하게 뽑아서 게임 진행
    ->과적합 문제 해결






profile
인천대학교 산업경영공학과 AI Optimization Lab

1개의 댓글

comment-user-thumbnail
2022년 3월 4일

알파고 논문에대한 자세한 리뷰 감사합니다 :)

답글 달기