비지도 : input 만 주어짐, hidden 패턴 학습강화 학습 : 피드백을 받음, 보상(reward)을 극대화 하며 모델을 학습함강화학습의 요소Agent환경과 상호작용하며 행동을 취하고 보상을 얻음Policy환경에서 agent 행동을 정의agent는 policy에
Markov 성질미래는 오직 현재에만 기반하고 과거는 영향을 주지 않음회귀 성질을 띈다, T는 T-1 기준, T-1은 T-2 기준 기반Markov chain오직 현재 state에만 기반하여 next step을 예측하는 확률 모델Transition다음 state로 넘어가