시리즈

강화학습

1.Reinforcement Learning #1 MDP : Markov Decision Process

1. Markov Property 미래를 오직 현재상태로만 파악하는 것 (미래는 현재상태에 의해서만 결정=과거의 상태와는 무관) $St$ : (현재상태) $S{t+1}$ : (미래상태) 라고 표기하며, ($S0, S1, S2$~$S{t-1}$)은 과거상태(histo

2024년 3월 28일