Deep Reinforcement Learning with Double Q-learning

송재곤/AI·소프트웨어학부(인공지능전공)·2024년 10월 14일

목차
Introduce

DQN의 파생 논문임을 소개
1. Q 러닝이란: 보상의 대한 기댓값인 Q-value를 학습하는 알고리즘
1. Q 러닝은 그 value를 oversertimate하는 경향이 있음
1. overestimate 하는것이 영향을 미치는가

본론

1. 영향을 미침
1. 논문에선 DQN에 Double Q Learning을 도입한 새 알고리즘은 제안
1. Double Q Learning이란

결론

결과
위 논문이 기여한점

1p
안녕하세요 오늘 소개할 논문은 Deep Reinforcement Learning with double Q-learning입니다. 이 논문은 저번에 발표했던 DQN 논문의 연장선상에 있으며, DQN이 직면한 overestimate 문제를 해결하기 위해 고안된 알고리즘입니다.

2p
저번 발표에서 학습한 Q-learning은 보상에 대한 기대값인 Q-Value를 학습하는 알고리즘이었는데요. 이 논문에서는 Q-learning에서 발생하는 overestimate에 대해 3가지 질문을 던지고 있습니다.
1. 과대추정이 일반적으로 발생하는 현상인가?
2. 과대추정이 Q-Learning 알고리즘의 성능을 해치는가?
3. 과대추정을 예방 및 방지할 수 있는가? 입니다.

3p
위 그래프에 대해선 뒤에서 자세히 설명하겠지만 왼쪽 그래프는 먼저 첫번째 질문, 과대추정이 일반적으로 발생하는 현상인가?에 대한 답을 보여주는 그래프입니다. 보시다시피 DQN의 실제 값 대비 추정값이 과대평가 되는것을 보실 수 있습니다. 논문에서 보여준 예시 그래프들은 일부이지만, 49개의 테스트된 atari 게임에서 모두 DQN의 과대 추정이 관찰되었다고 이 논문에서는 말하고 있습니다.

4p
이런 과대평가를 예방하기 위해 논문에서는 Double Q-learing이라는 새로운 알고리즘을 소개하고 있습니다. 먼저 보시는 식은 DQN 알고리즘의 target y의 식인데요. 논문에서는 이 식이 행동을 선택하고 평가하는데 같은 $\theta$ 값을 사용하여 과대 추정을 발생시킨다고 설명하고 있습니다.

5p
행동의 평가와 선택을 같은 파라미터 $\theta$ 로 했을때 과대 추정이 나타나는 이유는 Q-learning에서는 항상 최대 Q-value를 선택하기 때문에, 이 과정에서 자연스럽게 과대추정이 발생합니다. 또한 greedy policy는 항상 현재 Q-value에 기반하여 행동을 선택하기 때문에, 잘못된 정보가 반복적으로 사용되면서 Q-value가 과대추정되는 경향이 있습니다.
그래서 첫번째 식에서 보시는 것과 같이 행동을 선택하는데 필요한 파라미터 $\theta$ 와 평가하는데 필요한 $\theta$ 를 분리시켰습니다. 첫번째 식에서는 $\theta$ 를 분리시키긴 했지만 여전히 같은값을 쓰기 때문에 다른 값을 쓰도록 만든것이 바로 두번째식, Double Q-learing의 식입니다. Double Q-learning에서는 두개의 $\theta$ 가 서로 역할을 바꾸어 대칭적으로 업데이트됩니다.

6p
앞에서 보여드린 그래프의 전체 모습인데요. 위쪽 그래프에선 보시는바와 같이 DQN에 비해 Double DQN, 즉 DDQN의 추정치가 실제 값에 훨씬 가까운 모습을 보실 수 있습니다. 아래쪽 그래프를 보시면 DDQN이 DQN에 비해 측정값의 오차가 적고 score도 훨씬 높은걸 보실 수 있습니다. 이것을 통해 과대 추정이 줄어들면서 학습의 안정성이 향상된다는 것을 알 수 있습니다 또한 과대추정이 발생하는 시점에서 DQN의 점수가 하락하는 모습을 통해 과대추정이 알고리즘의 성능도 해친다는 것을 알수 있습니다.

7p
그래서 마지막 3번째 이런 성능을 낮추는 과대추정을 예방할 수 있는가에 대해 알아보기 위해 논문에서 제안한 DDQN 과 DQN의 게임 성능을 비교해보았습니다.
먼저 위의 식으로 점수를 정규화하였습니다. 위 식은 에이전트가 게임에서 무작위 행동과 비교하여 얼마나 잘했는지를 평가하는 동시에, 인간 플레이어의 성능과도 비교하는 방식입니다. 학습 시간은 5분(18,000 frame)으로 제한하였고 0.05%의 확률로 랜덤한 선택을 하도록 greedy policy를 적용하였습니다. 마지막으로 score는 100 episodes 동안의 reward의 평균값입니다. 이러한 과정을 통해 만들어진 결과를 종합하면 DQN보다 DDQN이 더 좋은 성능을 보이는 것을 확인하실 수 있습니다.

8p(타겟 네트워크 업데이트 주기 증가, 탐색 파라미터 앱실론값( $\epsilon$ ) 감소, 네트워크의 마지막 계층에서 모든 행동값에 대해 하나의 공유된 바이어스 사용)

표를 보시기 조금 힘드시겠지만 실험한 게임들에서의 결과값입니다.
이번 평가에서는 튜닝된 버전의 DDQN도 추가했는데 그 이유는 원래의 하이퍼파라미터가 DQN용으로 맞춰져있었기 때문입니다. 표에는 대부분의 경우에서 튜닝된 DDQN, DDQN, DQN순으로 좋은 성능을 보이는 것을 확인하실 수 있습니다.

9p
결론적으로 이 논문은 Q-learning에서 과대 추정이 발생하는 이유에 대해 설명하였고, Double Q - learning이 과대 추정을 줄이는데 효과적으로 사용됨을 증명하였습니다. 또한 기존 DQN에서 추가적인 파라미터 없이, 새로운 아키텍쳐를 구현하였으며 더 뛰어난 성능을 보였습니다.

송재곤/AI·소프트웨어학부(인공지능전공)

이전 포스트