환경으로부터 보상을 받는! 그 보상을 가지고, 학습을 가는 것!
결국, 상황에 적합한 행동을 찾기까지는 수많은 행동이 필요하다.
가정하고 있는 상황은,
1. 학습 주체는 환경에 대해 모름
2. 시행착오가 필요
3. 현재의 행동이 미래의 순차적인 보상에 영향을 준다.
지도학습
label이 주어짐 = 즉각적인 피드백이 가능
비지도학습
label이 주어지지 않음.
강화학습
label이 존재하지 않음.
agent가 interaction을 통해 보상을 가지고 학습
환경과의 상호작용을 통해서 데이터를 취득하고 학습하는 방법