Multi-Agent Reinforcement Learning(MARL) > 다수의 에이전트(Agent)가 하나의 환경에서 상호작용하며 동시에 학습하는 강화학습 협력(Collaboration), 경쟁(Competition), 공존(Coexistence) 등의 다양한 상
현재 Policy를 가능한 빠르게 향상시키되, 성능이 발산 해버릴 정도로 너무 Policy가 급격하게 바뀌는 것을 억제상호작용: 현재 정책을 따르는 Actor (πθ)가 환경과 직접 상호작용하여 경험 데이터를 수집합니다.데이터 생성: 특정 상태(st)에서 행동(at)을