오늘은 Asynchronous Advantage Actor-Critic의 구조, 학습방법에 대해 배워볼 예정이다.

DQN에 대한 추가적인 내용은 아래 글에서 확인 가능하다.
📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-17강-DQN-1





- 각 Agent가 Global Network의 파라미터를 가져온다.
- 각 Agent는 주어진 환경에서 데이터를 수집한다.
- 수집한 데이터를 통해 value function와 policy의 loss를 구한다.
- step동안 반복하여 accumulated gradient를 구한다.
- Accumulated gradient를 통해 Global Network를 업데이트한다.
- Asychronous Advantage Actor-critic은 policy gradient 방식이기 때문에 continuous action space를 처리할 수 있다.
- Asychronous Advantage Actor-critic은 Global Network와 multiple worker agent로 이루어져 있다.
- 실제 모델 학습 시 target network로 n-step return 을 사용한다.
- n-step return 에 를 빼서 baseline 역할을 수행한다.
- 모델 업데이트 시 각 agent가 개별적으로 Global Network를 업데이트한다.
- 각 Agent는 step동안 gradient를 축적하여 Global Network에 전달한다.