강화학습에서 강화는 동물이 "시행착오(Trial and Error)"를 통해 학습하는 방법 중 하나이다. 이 개념을 처음으로 제시한 것은 스키너(Skinner)라는 행동심리학자이다.스키너는 쥐 실험을 통해 동물이 행동과 그 결과 사이의 관계를 학습하는 것을 관찰했다.굶
사람들이 어떤 문제를 처음 접했을 때 어떤 문제인지 파악부터하는 습성이 있다. 하지만 강화학습에서의 에이전트는 그렇게 지능적이지 않으므로, 사용자가 문제를 정의해야 한다. 문제를 잘못 정의하면 에이전트가 학습을 못할 수도 있다. MDP 강화학습은 순차적으로 행동을 계