FSA.log
로그인
FSA.log
로그인
multi-task deep RL with popart
FSA
·
2023년 9월 12일
팔로우
0
RL
강화학습
목록 보기
1/3
3줄 요약
reward engineering을 적게 해도, 장애물 회피도 잘하면서 경로 추종 능력도 뛰어난 agent를 쉽게 만들기 위한 논문
장애물 회피 task와 경로 추종 task가 비슷한 기여 임펙트를 가지게 하고, 두 테스크에 모두 중요한 정보만 잘 추려낼 수 있게 함으로써
알고리즘 설명:
Abstract
하나의 모델로, 여러개의 연속적인 decision tasks를 잘 수행하는 문제를 연구
multi-task RL이 어려웠던 이유?
여러 task 중 특정 task 를 잘하는데에만 치중할 수 있다. (예: reward 빈도와 크기가 큰 task 위주로만 잘 되게 학습될 수 있음)
이렇게 되면, 그 task 능력만 키워지고, generality가 떨어질 수 있음.
예
장애물 회피 vs 경로 빠르게 잘 추종하기
경로 추종에 대한 reward가 더 자주 크게 되면, 충돌 회피 성능이 떨어질 수 있음.
논문 제안
각 task가 agent update에 기여하는 정도
를 자동으로 조절하는 방법론을 제안 (
scale-invariant actor-critic
)
병렬적으로 multi task를 수행하는 방법론임.
아래 원인으로 인해, 여러 task에서 다 잘 작동하게 할 수 있음.
학습 시, 모든 tasks가 비슷한 impact를 가지게 함.
장애물 회피 임팩트 = 경로 추종 임펙트
robust representation을 잘 학습할 수 있게 함.
장애물 회피에 필요한 정보: 장애물의 위치, 내 속도
경로 추종이 필요한 정보: 경로의 위치, 장애물의 위치, 내 속도
위 두가지 필요한 정보의 교집합을 잘 학습할 수 있게 함.
부가 기대 효과
방법론
q network loss 구할 때 쓰이는
target_esmimate
을 구할 때,
target_esmimate = normalize ( r + gamma * unnormalize( Q(st+1, at+1) ) )
loss(Q(st, at), target_esmimate)
q-network의 마지막 layer의 weight,bias 에 대한 크기 조절을 아래와 같이 수행함.
weight
target_esmimate 분산 값이 증가하면, weight 크기를 줄인다. (반대도 성립)
bias
target_esmimate 분산 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
target_esmimate 평균 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
그러면 새 평균과 분산은 어떻게 반영(업데이트)하는데?
step이 0이면 완전 새것만 반영(beta = 1)
step이 증가할수록, beta가 감소하여, 기존 값을 더 많이 반영하게 됩니다.
step이 5가 되면, beta는 0.2로 줄어듭니다. (20%만 새 평균/분산을 반영)
참고로 step은, 학습 횟수입니다. (b, u 만큼 데이터 처리를 1번하면 step 1 증가)
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
다음 포스트
Learning values across many orders of magnitude
0개의 댓글
댓글 작성