
분신술의 분신-Agent들은 Policy 와 Reward 설계를 어떻게 했길래 어쩌구저쩌구
Multi Agent와 관련된 여러가지 내용들 . 그냥 저냥 정리 끄적끄적
StableBaseline 하는 이유는??
“멀티에이전트를 학습시키기 위해서”가 아니라
“환경이 강화학습 문제로서 성립하는지 검증하기 위해서”다.....
즉,
SB3 = 멀티에이전트 학습
가 아니라
SB3 = 환경/보상/종료 설계 검증용 도구
SB3로 하는 건 이거야:
“환경 + reward 설계만 가지고 아무 규칙 없는 신경망 정책이 goal 도달 + 충돌 회피를 스스로 학습할 수 있는가?”
-> 멀티에이전트 여부와 무관
“SB3는 멀티에이전트 지원 안 하잖아?”
맞다.
SB3는 멀티에이전트 학습 라이브러리가 아니다.
하지만 SB3로 할 건:
agent 4대를 하나의 정책으로 묶어서
parameter sharing 형태로 학습
수식으로 쓰면: πθ(a | o)
모든 UAV가 같은 θ를 씀, 관측만 다름
이건 논문에서 이렇게 부름:
“Decentralized execution with shared policy”