샤워하는 남자
주식 투자에서의 포트폴리오 관리
운전
게임(LOL)
각 상황에 따라 하는 행동이 다음 상황에 영향을 주며, 결국 연이은 행동을 잘 선택해야하는 문제
보상 : 의사결정을 얼마나 잘하고 있는지 알려주는 신호
특징 1. "어떻게"에 대한 정보를 담고 있지 않음
--> 얼마나 잘하고 있는지 평가만 존재, 어떻게 해야하는지 안알려줌
--> 수많은 시행착오를 통해서 학습
특징 2. 스칼라
--> 크기를 나타내는 값 하나로 이루어짐
특징 3. 희소하고 지연된 보상
-->선택했던 행동의 빈도에 비해 가끔 혹은 한참 뒤에 보상도 발생