본 글에서는 A2C의 correlation 문제를 해결한 A3C에 대해서 알아볼 것이다.
A3C 알고리즘은 A2C 알고리즘만 알고있다면, 이해하기 매우 쉽다. A2C의 배치 데이터들 사이에 시간스텝 간격이 매우 짧아 데이터들 사이의 correlation 문제를 해결하기 위하여 다음과 같은 방법을 채택하였다.
여러 agent를 동일한 가중치로 update한다.
즉 가중치를 update하는 글로벌 신경망이 존재하고, 여러 agent를 서로 다른 환경에서 실행하여 데이터를 수집하고, 그 데이터들을 바탕으로 평균을 내서 가중치를 update한다. 그리고 매 update 이후에는 모든 agent에 가중치를 복사해준다.
이러한 방법을 통해서 환경 자체가 다르기 때문에 학습 시 동시에 입력되는 데이터들 사이의 correlation 문제가 해결된다!
A3C에서는 편향 없이 분산을 줄이기 위하여 n-step 가치 추정 방법 또한 이용한다.
이 방법은 PPO에서도 연계되어 사용된다.
1-step 관계식은 다음과 같다.
n-step 관계식은 다음과 같다. n을 적절히 조절하여, 편향과 분산 사이의 균형을 맞출 수 있다.
다음 글에서는 기존의 on-policy 방법의 단점 중에 하나인 데이터 효율성이 매우 좋지 못하다는 단점을 개선한 PPO에 대해서 알아볼 것이다.