MARL

김현우·2025년 9월 5일
0

reinforcement_learning

목록 보기
1/2

Multi-Agent Reinforcement Learning(MARL)

다수의 에이전트(Agent)가 하나의 환경에서 상호작용하며 동시에 학습하는 강화학습
협력(Collaboration), 경쟁(Competition), 공존(Coexistence) 등의 다양한 상호작용을 기반으로 복잡한 문제 해결

싱글 에이전트 RL에서 MARL로의 전환

단일 에이전트 RL은 하나의 에이전트가 마르코프 결정 과정(Markov Decision Process, MDP)으로 모델링된 환경과 상호 작용하며 최적의 정책을 학습하는 것을 목표로 합니다. MDP는 환경의 역학이 에이전트의 행동과 현재 상태에만 의존한다고 가정하는 '마르코프 성질'을 기반으로 하며, 이 때문에 환경은 에이전트에게 정적(stationary)으로 간주됩니다.  

그러나 MARL에서는 여러 에이전트가 동시에 행동하고 학습하며 서로 영향을 미치기 때문에, 환경의 역학이 더 이상 단일 에이전트의 관점에서 정적이지 않습니다. 한 에이전트의 최적 정책은 다른 에이전트들의 변화하는 정책에 따라 끊임없이 바뀝니다. 이러한 근본적인 패러다임의 변화는 MARL이 단일 에이전트 RL의 단순한 확장이 아님을 의미하며, 고유한 이론적 및 실용적 난제를 야기합니다.

MARL의 근본적인 난제들: 싱글 에이전트와 다른 점

  • 환경의 비정상성
  • 신용 할당 문제
  • 부분적 관찰 가능성 및 분산 실행

MARL environment

  • Cooperative MARL: 전체 팀의 보상 극대화를 목표로 공동 학습
  • Competitive MARL: 에이전트 간 보상이 상충하거나 제로섬 환경

구성요소

  • Agent: 독립적으로 관찰하고 행동하는 학습자< 로봇, 드론, 차량 등 >
  • Shared Environment: 에이전트들이 상호작용하는 공간 <시뮬레이션, 실세계 공간>
  • Reward Function: 개별/공동 목표 기반 보상 함수 <공동 목표 vs 개인 목표>
  • Communication Protocol: 에이전트 간 정보 공유 방식 <메시지 패싱, 블랙보드 방식>

주요 알고리즘

  • MADDPG (Multi-Agent DDPG): 정책과 비정책 플레이어 분리 학습 <continuous action에 적합>
  • QMIX: 중앙집중형 학습 + 분산 실행 구조 <합성 가능한 Q-function>
  • COMA: 정책 기여도를 기반으로 한 Actor-Critic 구조 <협력 강화에 유리>
  • MAPPO: PPO를 다중 에이전트에 확장한 버전 <안정성 + 샘플 효율 높음>

참고 논문

Markov Games as a Framework for Multi-Agent Reinforcement Learning

마르코프 게임(Markov Games) 공식화

리트먼은 여러 에이전트가 동시에 행동하고 보상을 받는 시스템을 모델링하기 위해, MDP에 N개의 에이전트, 공동 행동 공간(A_1 ×... × A_N), 그리고 N개의 보상 함수(R_1,..., R_N)를 추가했습니다. 이 모델은 에이전트가 협력하거나 경쟁하는 다양한 시나리오를 포괄적으로 설명하는 데 사용될 수 있습니다.  

minimax-Q 학습 알고리즘

이 논문은 제로섬 마르코프 게임(Zero-sum Markov Games), 즉 한 에이전트의 이득이 다른 에이전트의 손실이 되는 환경에서 작동하는 minimax-Q 학습 알고리즘을 제안했습니다. 이 알고리즘은 에이전트들이 상대방의 최적 행동을 고려하여 자신의 최적 전략을 찾는 내쉬 균형(Nash equilibrium)에 수렴함을 이론적으로 증명했습니다.

이 논문은 다중 에이전트 시스템을 단일 에이전트의 MDP 확장으로 보는 것이 아니라, 상호작용하는 합리적 주체들의 집합으로 보는 관점을 확립했습니다.

Learning to communicate with deep multi-agent reinforcement learning

학습된 통신 프로토콜

이 연구는 에이전트들이 서로 명시적인 메시지를 주고받는 통신 채널을 도입했습니다. 각 에이전트는 자신의 관찰 내용을 기반으로 인코딩된 메시지를 생성하고, 이 메시지는 다른 에이전트들의 입력으로 활용됩니다. 중요한 것은 이 메시지의 내용이나 구조가 미리 정해져 있지 않고, 오직 공동 보상을 극대화하는 방향으로 학습 과정에서 자연스럽게 발현된다는 점입니다. 이처럼 자율적으로 형성되는 통신 프로토콜을 "학습된 통신 프로토콜"(Learned Communication Protocols)이라고 합니다.  

분산형 에이전트와 명시적 커뮤니케이션 채널

이 논문에서 제안된 아키텍처는 분산형 에이전트들이 상호작용하지만, 학습된 통신 모듈을 통해 서로 정보를 공유하여 협력을 이끌어내는 방법을 보여줍니다. 이는 순수하게 독립적으로 학습하는 방식의 한계를 극복하고, 정보 공유가 필요한 복잡한 협력 문제에서 뛰어난 성능을 보였습니다

MARL에서 통신이 가진 잠재력과 한계

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

MADDPG(Multi-Agent Deep Deterministic Policy Gradient)라는 알고리즘과 CTDE(Centralized Training with Decentralized Execution)라는 강력한 패러다임을 제안

CTDE 패러다임

이 패러다임은 학습 단계에서는 중앙 집중식 접근법을 사용하지만, 실제 실행 단계에서는 분산형 접근법을 사용합니다. 구체적으로, 학습 시에는 모든 에이전트의 행동과 전체 환경 상태를 관찰할 수 있는 중앙 집중식 비평가(critic)가 학습에 참여하여 안정적인 학습 신호를 제공합니다. 반면, 실행 시에는 각 에이전트의 행위자(actor)가 오직 자신의 국소적인 관찰만을 사용하여 행동을 결정합니다. 이 방식은 학습의 안정성을 보장하면서도 현실 세계의 분산형 시스템 요구 사항을 충족하는 독창적인 해결책입니다.  

MADDPG 알고리즘

이 논문은 단일 에이전트 DDPG(Deep Deterministic Policy Gradient)를 기반으로 MADDPG 알고리즘을 제안했습니다. 각 에이전트는 독립적인 행위자 네트워크를 가지며, 모든 에이전트의 행동과 상태 정보를 입력으로 받는 중앙 집중식 비평가 네트워크를 통해 학습합니다. 이 접근법은 협력과 경쟁이 혼합된 환경에서 여러 에이전트가 복잡한 조정 전략을 효과적으로 학습할 수 있도록 합니다. 이는 드론 군집 제어(swarm drones)나 모바일 애드혹 네트워크(MANETs)와 같은 실제 응용 분야에서 성공적으로 활용되었습니다.

CTDE 패러다임이 훨씬 효과적이고 안정적인 성능을 보임

profile
학생

0개의 댓글