multi-task deep RL with popart

FSA·2023년 9월 12일

강화학습

목록 보기

1/3

3줄 요약

reward engineering을 적게 해도, 장애물 회피도 잘하면서 경로 추종 능력도 뛰어난 agent를 쉽게 만들기 위한 논문
장애물 회피 task와 경로 추종 task가 비슷한 기여 임펙트를 가지게 하고, 두 테스크에 모두 중요한 정보만 잘 추려낼 수 있게 함으로써
알고리즘 설명:

Abstract

하나의 모델로, 여러개의 연속적인 decision tasks를 잘 수행하는 문제를 연구
multi-task RL이 어려웠던 이유?
- 여러 task 중 특정 task 를 잘하는데에만 치중할 수 있다. (예: reward 빈도와 크기가 큰 task 위주로만 잘 되게 학습될 수 있음)
- 이렇게 되면, 그 task 능력만 키워지고, generality가 떨어질 수 있음.
- 예
  - 장애물 회피 vs 경로 빠르게 잘 추종하기
    - 경로 추종에 대한 reward가 더 자주 크게 되면, 충돌 회피 성능이 떨어질 수 있음.
논문 제안
- 각 task가 agent update에 기여하는 정도를 자동으로 조절하는 방법론을 제안 (scale-invariant actor-critic)
- 병렬적으로 multi task를 수행하는 방법론임.
  - 아래 원인으로 인해, 여러 task에서 다 잘 작동하게 할 수 있음.
    - 학습 시, 모든 tasks가 비슷한 impact를 가지게 함.
      - 장애물 회피 임팩트 = 경로 추종 임펙트
    - robust representation을 잘 학습할 수 있게 함.
      - 장애물 회피에 필요한 정보: 장애물의 위치, 내 속도
      - 경로 추종이 필요한 정보: 경로의 위치, 장애물의 위치, 내 속도
      - 위 두가지 필요한 정보의 교집합을 잘 학습할 수 있게 함.
  - 부가 기대 효과

방법론

q network loss 구할 때 쓰이는 target_esmimate 을 구할 때,
- target_esmimate = normalize ( r + gamma * unnormalize( Q(st+1, at+1) ) )
- loss(Q(st, at), target_esmimate)
q-network의 마지막 layer의 weight,bias 에 대한 크기 조절을 아래와 같이 수행함.
- weight
  - target_esmimate 분산 값이 증가하면, weight 크기를 줄인다. (반대도 성립)
- bias
  - target_esmimate 분산 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
  - target_esmimate 평균 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
- 그러면 새 평균과 분산은 어떻게 반영(업데이트)하는데?
  - step이 0이면 완전 새것만 반영(beta = 1)
  - step이 증가할수록, beta가 감소하여, 기존 값을 더 많이 반영하게 됩니다.
  - step이 5가 되면, beta는 0.2로 줄어듭니다. (20%만 새 평균/분산을 반영)
  - 참고로 step은, 학습 횟수입니다. (b, u 만큼 데이터 처리를 1번하면 step 1 증가)

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

다음 포스트

Learning values across many orders of magnitude

0개의 댓글