강화학습

1.[강화학습] 마코프 체인, MRP, 벨만 방정식

post-thumbnail

2.[강화학습] 마코프 결정과정(MDP)의 상태 가치 함수, MDP 행동 가치 함수(Q함수), 최적 가치 함수

post-thumbnail