강화학습(Reinforcement Learning)이란? 머신러닝은 보통 label이 존재하는 지도학습, label이 존재하지 않고 클러스터링과 패턴인식을 위한 비지도 학습 그리고 마지막으로 강화학습으로 구분된다. 여기서 label이란 쉽게 표현하면 정답을 의미하는데
강화학습은 마코브 의사결정 과정(MDP)라는 수학모델로 설명가능하다. MDP는 (S,A,{Psa},γ,R)의 변수를 가진 모델로 각각 다음을 의미한다.S - state들의 set A - action들의 setPsa:(st,at)→sat - State의 transitio