신경망을 이용해 액션 밸류 네트워크를 학습하면 그게 곧 하나의 애이전트가 될 수 있습니다. 아타리 게임을 플레이 하던 DQN이 바로 이 방식입니다. 이번 챕터에서는 가치 함수만을 가지고 움직이는 에이전트, 즉 가치 기반 에이전트에 대해 알아보겠습니다.


- 의 파라미터 를 초기화
- 에이전트의 상태 s를 초기화
- 에피소드가 끝날 때까지 다음(A~E)를 반복
A. 에 대한 -greedy를 이용하여 액션 a를 선택
B. a를 실행하여 r과 s'을 관측
C. s'에서 에 대한 greedy를 이용하여 액션 a'을 선택
D. 업데이트:
E.- 에피소드가 끝나면 다시 2번으로 돌아가서 가 수렴할 때까지 반복



