Model: dynamics과 reward의 수학적 모델Policy: 주어진 state에서 action을 결정하는 함수Value function: 특정 policy를 따를 때 state 및 / 또는 action으로 인한 향후 보상Markov ProcessesMarkov