Q-learning에 Function Approximator로 Deep Learning을 이용한 방법. Neural network를 이용한 function approxiamtor로 기존의 딥러닝 방식의 강화학습이 가진 문제를 Experience Replay Buffer
와 Fixed Q Targets
을 이용해 해결하였다.
모든 상태와 행동에 대한 기록을 Q-table에 담는다. 하지만 많은 상태와 행동이 존재하는 환경에서는 학습에 어려움이 있다.
Q는 현재 상태에서 취한 행동의 보상에 대한 Quailty를 뜻한다.
상태 s에서 행동 a를 했을때 그 행동의 가치는 로 나타낸다. 이때 Q-value는시간 t에서 정책를 따라 행동a를 할 때 미래 보상들의 총합의 기대값.
Q-learning에 Function Approximator로 Deep Learning을 이용한 방법. 기존 딥러닝 기반의 Q러닝이 가진 단점들을 Experience Replay
와 Fixed Q Targets
을 통해 극복하였다
uniform random sampling을 통해 관측값을 추출하므로 데이터간 상관 관계가 사라진다.
Replay Buffer에 관측값을 담아 두어 진행한 데이터들이 사라지지 않고, 재사용 된다.
기존에 타겟으로 추정치 Q값을 예측할때, 추정치Q 로 Nueral Network를 업데이트하면, 타겟에서 Q 값의 웨이트도 같이 업데이트 되므로, 타겟도 변하게 된다.
이때 추정치 Q를 타겟에 가깝게 오차를 줄여하는데, 타겟의 웨이트도 같이 변경 되게 되면 학습이 효율적으로 되지 않는다.
target network의 업데이트 주기를 local network보다 더 느리가 만든다. 예를 들어 DQN 논문에서는 local network가 4번 업데이트 될때,
target network를 한번 local network의 파라미터로 업데이트한다.