bshc.log
로그인
bshc.log
로그인
CTDE(Centralized Training Decentralized Execution)
About_work
·
2023년 11월 3일
팔로우
0
0
Multi Agent RL
목록 보기
1/3
왜 하는가? (문제 정의)
agent간 통신 없이도 + agent가
partially observable
한 상황에서도, multi-agent 주행을 잘 하고 싶다.(충돌이 적고, 서로 협력적으로 도와가며 주행).
partially observable
: 한 agent는 내 주변 상황만 센서로 부분적 감지하고, 더불어 다른 agents들에 대한 정보도 부분적으로만 알 수 있는 상태.
이러한 문제 정의에서, agents 들은 공동의 reward를 극대화하는 전략을 학습하는 것이 목표
위 목적을 달성하기 위해 학습시에만, 시뮬레이터 혹은 실세계에서의 비싼 학습 환경에서, 풍부한 정보들을 전부 이용하여 학습하고, 구동 시에는 개별 agent의 정보만을 이용해서 주행하는 접근방법을 택해보자!
About_work
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.
팔로우
다음 포스트
COMA(Counterfactual Multi-Agent Policy Gradients)
0개의 댓글
댓글 작성