강화학습의 개념과 강화학습에서 주로 사용되는 7가지의 용어를 알아본다.
강화학습에서 사용되는 MDP의 정의를 알아본다. Markov property가 무엇이며 왜 사용해야하는지 State transition and reward functions과 함께 정리했다.
State를 정의하는데 마르코브 성질이 어떻게 사용되는지에 관한 내용을 담고 있습니다.
reward, excumulated reward에 대해 학습하고 왜 discounting factor가 필요한지에 대해 배웁니다. optimal policy를 설정하기 위한 value function, action function에 대한 내용을 담고 있습니다.
강화학습에서 사용되는 Dynamic Programming에 대해 알아보고 더 좋은 policy를 찾기 위한 policy iteration에 대한 내용을 담고 있습니다.