decentralized actor + centralized critic
구조 제안(U**n -> U)
로 줄이기 위한, 독창적 centralized critic 구조 제안.decentralized actor + centralized critic
구조 제안decentralized actor + centralized critic
의 shared network & weightcounterfactual baseline
계산.counterfactual baseline
)을 계산Q(St,at)
대신 Q(St,at) - counterfactual baseline
로 대체됩니다.참고사항(중요)
counterfactual baseline
을 계산하는데, joint actions의 차원 복잡도에 계산량이 과도하게 증가하면 쓸 수 없습니다.독창적 centralized critic 구조
를 제안합니다.개별 agent의 centralized critic에, 개별 agent의 action은 input으로 넣지 않고, 나머지 agent들의 action들만 input으로 넣습니다.
내 시야 frame(s_t^a)
, 전체 시야 frame(s_t)
, 시간 t에서 나를 제외한 다른 선수들이 한 행동들
총 3가지를 가져옵니다.기존 SAC의 학습 방법
COMA가 SAC(SARL)와 다른점
참고사항(중요)
"전체 시야 frame(s_t)"
, "t에서 나를 포함한 동료들이 한 행동들"
, "그 때의 보상"
, "다음 전체 시야 frame(s_t+1)"
, "t+1에서 나를 제외한 동료들이 한 행동"
을 가져옵니다."(전체 시야 frame(s_t) + t에서 동료들의 움직임)에서 내가 한 행동의 가치"
를, (아래 목표)와 유사하도록 학습합니다.(그때 얻은 보상)
+ ( "다음 전체 시야 frame(s_t+1)" 와 "t+1에서 나를 제외한 동료들이 한 행동" 에서, 내가 현재 판단으로 할 행동의 내가 생각하는 가치)
내 agent의 encoding
다른 agent의 encoding
_combine_embeddings
로직을 바꿔가며 테스트해보자.