오늘은 Asynchronous Advantage Actor-Critic에서 Advantage를 사용하는 이유, pseudo code, A2C에 대해 배워볼 예정이다.

Return 대신 Advantage fucntion 를 사용하면 어떨까?
의 의미 : 현재 state에서 해당 action을 취했을 때 앞으로 얻게 될 return의 기대값
의 의미 : 현재 state에서 모든 action에 대한 return의 기대값이다.
는 현재 state에서 주어진 action을 선택했을 때 얻는 기대 return이 평균적인 기대 return보다 얼마나 더 좋은지를 나타낸다.
만약 이면, 해당 action은 평균보다 더 좋은 action이다.
만약 이면, 해당 action은 평균보다 더 나쁜 action이다.


- Asychronous Advantage Actor-critic은 advantage function을 사용하지만, 실제 연산에서는 n-step retrun 을 통해 를 대체한다.
- A3C는 step 동안 업데이트를 진행하면서 여러 n-step return 를 사용한다.
- A2C는 A3C가 optimal한 학습을 할 수 없다는 한계를 극복하기 위해 등장하였다.
- A2C는 각 agent가 동일한 policy를 통해 학습을 진행한다.