환경 = 게임
에이전트 = 게임 AI
a_t = 𝝅(s_t)
-> 상태를 받아 다음 행동을 결정하는 함수.
반응형 에이전트
숙고형 에이전트
개선
평가함수 + 탐색 깊이 제한
평가함수 : 가까운 미래 예측. 전문가 지식 필요.
탐색 깊이 제한 : 근사해로 판단. 수평선 효과 발생 가능성 높아짐.
무작위 행동을 통한 의사 결정
탐색과 활용 -> UCB
-> UCB가 입실론-greedy 보다 상수의존도가 낮음.
이외의 개선 방안