[NC FellowShip] MCTS

정다소·2021년 8월 9일

보드게임 AI 알고리즘.

기본개념

환경 = 게임
에이전트 = 게임 AI

a_t = 𝝅(s_t)
-> 상태를 받아 다음 행동을 결정하는 함수.

반응형 에이전트

시뮬레이션 X
행동 평가
응답시간 적고, 성능 떨어질 수 있음.
실시간 시뮬레이션에서 활용하기 적절

숙고형 에이전트

시뮬레이션 기반 의사 결정
상태 평가

MiniMax + 알파-베타 가지치기

개선

평가함수 + 탐색 깊이 제한

평가함수 : 가까운 미래 예측. 전문가 지식 필요.

탐색 깊이 제한 : 근사해로 판단. 수평선 효과 발생 가능성 높아짐.

수평선 효과 = 깊이 제한 때문에 미래 예측 결과의 정확도가 떨어짐.

MCTS

무작위 행동을 통한 의사 결정

선택
확장
시뮬레이션
백업

Tree policy -> Default policy -> Back up
𝝅(s_t) 정교화 - > 평가함수 V(s) 의 정교화

탐색과 활용 -> UCB

-> UCB가 입실론-greedy 보다 상수의존도가 낮음.

이외의 개선 방안

부분트리 재활용
보상신호 강화
평가점수(R) 범위 변경

슬기로운 코딩 생활

이전 포스트

[유니티] 바로 아래에 있는 자식 접근

다음 포스트

[유니티] 특정 버튼만 클릭 가능하게 만드는 법. (투명한 부분 제거)

0개의 댓글