목차
Introduce
본론
결론
1p
안녕하세요 오늘 소개할 논문은 Deep Reinforcement Learning with double Q-learning입니다. 이 논문은 저번에 발표했던 DQN 논문의 연장선상에 있으며, DQN이 직면한 overestimate 문제를 해결하기 위해 고안된 알고리즘입니다.
2p
저번 발표에서 학습한 Q-learning은 보상에 대한 기대값인 Q-Value를 학습하는 알고리즘이었는데요. 이 논문에서는 Q-learning에서 발생하는 overestimate에 대해 3가지 질문을 던지고 있습니다.
1. 과대추정이 일반적으로 발생하는 현상인가?
2. 과대추정이 Q-Learning 알고리즘의 성능을 해치는가?
3. 과대추정을 예방 및 방지할 수 있는가? 입니다.
3p
위 그래프에 대해선 뒤에서 자세히 설명하겠지만 왼쪽 그래프는 먼저 첫번째 질문, 과대추정이 일반적으로 발생하는 현상인가?에 대한 답을 보여주는 그래프입니다. 보시다시피 DQN의 실제 값 대비 추정값이 과대평가 되는것을 보실 수 있습니다. 논문에서 보여준 예시 그래프들은 일부이지만, 49개의 테스트된 atari 게임에서 모두 DQN의 과대 추정이 관찰되었다고 이 논문에서는 말하고 있습니다.
4p
이런 과대평가를 예방하기 위해 논문에서는 Double Q-learing이라는 새로운 알고리즘을 소개하고 있습니다. 먼저 보시는 식은 DQN 알고리즘의 target y의 식인데요. 논문에서는 이 식이 행동을 선택하고 평가하는데 같은 값을 사용하여 과대 추정을 발생시킨다고 설명하고 있습니다.
5p
행동의 평가와 선택을 같은 파라미터 로 했을때 과대 추정이 나타나는 이유는 Q-learning에서는 항상 최대 Q-value를 선택하기 때문에, 이 과정에서 자연스럽게 과대추정이 발생합니다. 또한 greedy policy는 항상 현재 Q-value에 기반하여 행동을 선택하기 때문에, 잘못된 정보가 반복적으로 사용되면서 Q-value가 과대추정되는 경향이 있습니다.
그래서 첫번째 식에서 보시는 것과 같이 행동을 선택하는데 필요한 파라미터 와 평가하는데 필요한 를 분리시켰습니다. 첫번째 식에서는 를 분리시키긴 했지만 여전히 같은값을 쓰기 때문에 다른 값을 쓰도록 만든것이 바로 두번째식, Double Q-learing의 식입니다. Double Q-learning에서는 두개의 가 서로 역할을 바꾸어 대칭적으로 업데이트됩니다.
6p
앞에서 보여드린 그래프의 전체 모습인데요. 위쪽 그래프에선 보시는바와 같이 DQN에 비해 Double DQN, 즉 DDQN의 추정치가 실제 값에 훨씬 가까운 모습을 보실 수 있습니다. 아래쪽 그래프를 보시면 DDQN이 DQN에 비해 측정값의 오차가 적고 score도 훨씬 높은걸 보실 수 있습니다. 이것을 통해 과대 추정이 줄어들면서 학습의 안정성이 향상된다는 것을 알 수 있습니다 또한 과대추정이 발생하는 시점에서 DQN의 점수가 하락하는 모습을 통해 과대추정이 알고리즘의 성능도 해친다는 것을 알수 있습니다.
7p
그래서 마지막 3번째 이런 성능을 낮추는 과대추정을 예방할 수 있는가에 대해 알아보기 위해 논문에서 제안한 DDQN 과 DQN의 게임 성능을 비교해보았습니다.
먼저 위의 식으로 점수를 정규화하였습니다. 위 식은 에이전트가 게임에서 무작위 행동과 비교하여 얼마나 잘했는지를 평가하는 동시에, 인간 플레이어의 성능과도 비교하는 방식입니다. 학습 시간은 5분(18,000 frame)으로 제한하였고 0.05%의 확률로 랜덤한 선택을 하도록 greedy policy를 적용하였습니다. 마지막으로 score는 100 episodes 동안의 reward의 평균값입니다. 이러한 과정을 통해 만들어진 결과를 종합하면 DQN보다 DDQN이 더 좋은 성능을 보이는 것을 확인하실 수 있습니다.
8p(타겟 네트워크 업데이트 주기 증가, 탐색 파라미터 앱실론값() 감소, 네트워크의 마지막 계층에서 모든 행동값에 대해 하나의 공유된 바이어스 사용)
표를 보시기 조금 힘드시겠지만 실험한 게임들에서의 결과값입니다.
이번 평가에서는 튜닝된 버전의 DDQN도 추가했는데 그 이유는 원래의 하이퍼파라미터가 DQN용으로 맞춰져있었기 때문입니다. 표에는 대부분의 경우에서 튜닝된 DDQN, DDQN, DQN순으로 좋은 성능을 보이는 것을 확인하실 수 있습니다.
9p
결론적으로 이 논문은 Q-learning에서 과대 추정이 발생하는 이유에 대해 설명하였고, Double Q - learning이 과대 추정을 줄이는데 효과적으로 사용됨을 증명하였습니다. 또한 기존 DQN에서 추가적인 파라미터 없이, 새로운 아키텍쳐를 구현하였으며 더 뛰어난 성능을 보였습니다.