보상을 최대화 하기위한 행동을 시도하면서 보상을 최대로하는 행동을 찾는 과정이라고 생각할 수 있습니다. 책에서는 아래와 같이 소개하네요
순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정
간단하게 어떤 행동을 하기위한 과정이라고 볼 수 있습니다.
예시로는 주식 투자에서 포트폴리오 관리, 운전, 게임 등이 있습니다.
순차적 의사결정 문제는 MDP개념을 통해 정확하게 표현할 수 있습니다.
MDP를 얘기하기전 MP, MRP를 보고 넘어가야합니다.
마르코프 성질은 아래의 식과 같습니다.
글로 다시 말하자면 미래의 상태는 오로지 현재의 상태에 의해서 결정된다는 의미입니다.
좀 더 나아가서 RNN을 공부할 당시에도 등장했던 것 같은데 n차 마르코프 체인은 n번째 이전 데이터까지 보고 다음 데이터를 판단하는 것을 의미합니다.
마르코프 프로세스는 정해진 확률 분포를 따라 상태와 상태사이를 이동하는 과정입니다.
마르코프 프로세스는 상태의 집합과 전이확률행렬로 나타낼 수 있습니다.
마르코프 프로세스에 보상이 추가되면 마르코프 리워드 프로세스라고 합니다.
MRP정의를 위해서는 discount factor 와 보상 함수 2가지 요소가 추가적으로 필요합니다.
보상함수는 아래의 수식으로 표현할 수 있습니다.
Return
MRP에서는 MP와 다르게 상태가 바뀔 때마다 보상을 얻습니다. 리턴은 현재 시점 이후에 발생하는 모든 보상을 더한 값입니다.
감쇠인자 가 필요한 이유