

만약 토끼가 당근을 찾게되는 상황이라고 가정해보자.

Different situation은 different action을 취하도록 만든다.







토끼가 취할 수 있는 action과 받는 reward를 트리 구조로 표현한 결과가 다음과 같다.


Action을 취했을 때의 Reward는 다.



The dynamics of an MDP는 기호로 표기한다.




Recycling robot은 재활용을 잘 하도록 만들어진 로봇이다.




배터리가 high인 상태에서 출발하면 점점 배터리를 잃어 low의 상태로 흘러갈 것이다.

Waiting for cans는 배터리를 많이 소모하지 않는다.

만일 배터리가 low인 상태에서 의 확률로 배터리가 바닥나서 rescue 즉, 구조를 당한다면 -20의 reward를 받는다.







Pich-and-place 작업을 수행하는 robot을 만드는 상황이라 가정해보자.
State는 관절 각도와 속도의 측정값일 수 있다.
Action은 각 동작에 적용되는 전압값일 수 있다.
Reward는 성공적으로 옮겼을 때 +100을, 에너지 소모가 있었다면 -1을 주게 할 수도 있다.




Agent는 logn-term goals를 달성해야 한다.
Short-term에서는 최선이었던 선택지가 Long-term에서는 최선이 아닐 수 있다.

전진하는 motion을 취하는 robot을 훈련시켜야 하는 상황이라면, 앞으로 전진할 때 reward를 건네주면 된다.

Robot이 받는 reward의 합을 로 return한다고 해보자.

만약 recycling robot이 적절한 곳을 search하여 재활용품을 찾아 얻었다고 하면 +3의 reward를 받을 수 있다.



이처럼 상황은 다양하게 주어질 수 있고, agent가 action을 취하여 받은 모든 reward의 기댓값은 로 표기한다.


끝이 정해져 있는 task라면 일련의 과정이 episodic하다고 말할 수 있다.


이를 테면 체스 게임과 같은 끝이 정해져 있는 environment라면 각 선택은 episodic task일 수 있다.




Episodic task는 유한하고 끝이 존재하는(terminal) 상황에서 Reward가 단순 합으로 표현되는 상황을 말한다.

만약 온도를 조절해야 하는 상황이라면 State는 시간이나 사람의 수와 같은 것들을 말한다.

Continuing task는 terminal이 존재하지 않는 infinite한 상황이다.

라는 discounting factor를 곱함으로써 를 finite하게 만들 수 있다.

Time step이 infinite하다면 0부터 까지 더해지는 들의 합은 로 표기할 수 있다.

의 scale에 따라 agent의 행동에 영향을 미칠 수도 있다.






아래와 같은 게임에서 까만 block이 하얀 block을 먹을 때 reward +1을 받는 상황은 episodic task다.
까만 block의 위치는 수시로 바뀌며 매 순간 순간이 state라고 할 수 있다.

컴퓨터 scheduler 예제는 continuing task다.



