




- 아래쪽 식에서는 목표가 R + 감마 곱해진 max로 바뀜. 이는 시간 단계가 지나면서 목표값이 계속 갱신 되는 것을 보여줌.

당근을 보고 따라가는 당나귀의 모습으로, 당근은 끊임없이 앞에 있고 당나귀는 도달할 수 없는 목표를 향해 움직이는 상황임. 이는 Non-stationary target의 개념을 비유적으로 표현한 것임. 당나귀가 목표를 향해 계속 나아가지만, 목표가 고정되지 않고 계속 변화하는 상황은 학습 목표가 끊임없이 바뀌는 딥러닝의 상황과 유사함.




목적
- 진동 방지 : 목표와 예측이 동시에 변할 경우 학습이 불안정해지면서 진동이 발생할 수 있음. fixed target은 이를 방지하기 위해 고안됨
Q 타깃 네트워크 :
손실함수 최적화
- 손실 함수는 예측 네트워크 Q 값과 타겟 네트워크 Q 값 간 MSE를 최소화하는 방향으로 최적화됨.
타깃 네트워크 업데이트 : 타깃 네트워크의 파라미터 는 주기적으로 예측 네트워크 파라미터 w로 업데이트됨. 이는 학습이 어느정도 진행된 후에 목표값을 변경하여 더 안정적으로 학습을 진행하도록 함
그림에서 왼쪽은 타깃 네트워크 , 오른쪽은 예측 네트워크 w를 나타냄. 예측 네트워크가 지속적으로 학습되는 동안 타깃 네트워크는 일정 기간 동안 고정되어있다가 주기적으로 업데이트됨
