CHAPTER 1. 강화학습이란? 1.1 지도학습과 강화학습 지도학습 : 지도자의 도움을 받아서 학습 비지도학습 : 주어진 데이터를 비슷한것 끼리 묶는 것 강화학습 : 시행착오를 통해서 학습 강화학습 쉽지만 추상적인 버전 "시행착오를 통해 발전해 나가는 과정" 어
순차적 의사결정 문제는 결국 MDP(Markov Decision Process)라는 개념을 통해 더 정확하게 표현 가능누워 있는 상태 S0일어나서 노는 상태 S1눈을 감은 상태 S2서서히 잠이 오는 상태 S3잠든 상태 S4하나의 상태에서 다른 상태로 상태 전이가 일어