(메모) 그림자 분신 Agent의 Policy는 어떻게

보보·2026년 1월 30일

Reinforcement Learning

목록 보기

2/2

분신술의 분신-Agent들은 Policy 와 Reward 설계를 어떻게 했길래 어쩌구저쩌구

Multi Agent와 관련된 여러가지 내용들 . 그냥 저냥 정리 끄적끄적

StableBaseline 하는 이유는??

“멀티에이전트를 학습시키기 위해서”가 아니라
“환경이 강화학습 문제로서 성립하는지 검증하기 위해서”다.....

즉,
SB3 = 멀티에이전트 학습
가 아니라
SB3 = 환경/보상/종료 설계 검증용 도구

SB3로 하는 건 이거야:

“환경 + reward 설계만 가지고 아무 규칙 없는 신경망 정책이 goal 도달 + 충돌 회피를 스스로 학습할 수 있는가?”

-> 멀티에이전트 여부와 무관

“SB3는 멀티에이전트 지원 안 하잖아?”

맞다.

SB3는 멀티에이전트 학습 라이브러리가 아니다.

하지만 SB3로 할 건:
agent 4대를 하나의 정책으로 묶어서
parameter sharing 형태로 학습

수식으로 쓰면: πθ(a | o)

모든 UAV가 같은 θ를 씀, 관측만 다름

이건 논문에서 이렇게 부름:

“Decentralized execution with shared policy”

GIST 기계로봇공학부 석사과정 / 왕도는 없다.