DDPG

이지민·2025년 2월 10일

Reinforcement-Learning

목록 보기
21/28

DDPG는 actor-critic 방법 중 deterministic policy를 사용하는 방법이다.

확률론적인 정책을 사용하는 방법은(ex. PPO) 이득이 +인 행동의 확률을 올리고, -인 행동의 확률을 내리며 actor를 학습한다.

DDPG

critic이 Q-value를 학습한다.

DQN의 경우에는 마주친 상태에서 Q-value가 가장 높은 행동을 선택한다.
하지만 매번 행동을 최적화 하는것보다 actor가 한번에 반환하는것이 아무래도 좋을것이다.

actor가 반환하는 행동을 critic에 넣었을 때 Q-value가 높아지도록 network를 미리 학습(최적화)해 둔다고 이해하면 된다.

탐험

deterministic 행동에 noise를 적용하여 탐험한다.

이는 애초에 정책 자체가 확률론적임을 이용한 탐험보다 유용해보인다.

Ornstein-Uhlenbeck process를 사용한다.
Mountain car continuous문제에 random noise를 적용할 시 거의 못풀지만 이를 적용하면 잘 푸는 모습을 보여준다.

랜덤한 행동을 통해 탐험을 할 시에는 같은 행동을 여러번해야 하는 경우에 찾기 어렵지만,
위는 이를 고려할 수 있는 방법으로 추정된다.

나중에 수식 분석 후 추가해보겠다.

0개의 댓글