multi-task deep RL with popart

FSA·2023년 9월 12일

강화학습

목록 보기
1/3

3줄 요약

  • reward engineering을 적게 해도, 장애물 회피도 잘하면서 경로 추종 능력도 뛰어난 agent를 쉽게 만들기 위한 논문
  • 장애물 회피 task와 경로 추종 task가 비슷한 기여 임펙트를 가지게 하고, 두 테스크에 모두 중요한 정보만 잘 추려낼 수 있게 함으로써
  • 알고리즘 설명:

Abstract

  • 하나의 모델로, 여러개의 연속적인 decision tasks를 잘 수행하는 문제를 연구
  • multi-task RL이 어려웠던 이유?
    • 여러 task 중 특정 task 를 잘하는데에만 치중할 수 있다. (예: reward 빈도와 크기가 큰 task 위주로만 잘 되게 학습될 수 있음)
    • 이렇게 되면, 그 task 능력만 키워지고, generality가 떨어질 수 있음.
      • 장애물 회피 vs 경로 빠르게 잘 추종하기
        • 경로 추종에 대한 reward가 더 자주 크게 되면, 충돌 회피 성능이 떨어질 수 있음.
  • 논문 제안
    • 각 task가 agent update에 기여하는 정도를 자동으로 조절하는 방법론을 제안 (scale-invariant actor-critic)
    • 병렬적으로 multi task를 수행하는 방법론임.
      • 아래 원인으로 인해, 여러 task에서 다 잘 작동하게 할 수 있음.
        • 학습 시, 모든 tasks가 비슷한 impact를 가지게 함.
          • 장애물 회피 임팩트 = 경로 추종 임펙트
        • robust representation을 잘 학습할 수 있게 함.
          • 장애물 회피에 필요한 정보: 장애물의 위치, 내 속도
          • 경로 추종이 필요한 정보: 경로의 위치, 장애물의 위치, 내 속도
          • 위 두가지 필요한 정보의 교집합을 잘 학습할 수 있게 함.
      • 부가 기대 효과

방법론

  • q network loss 구할 때 쓰이는 target_esmimate 을 구할 때,
    • target_esmimate = normalize ( r + gamma * unnormalize( Q(st+1, at+1) ) )
    • loss(Q(st, at), target_esmimate)
  • q-network의 마지막 layer의 weight,bias 에 대한 크기 조절을 아래와 같이 수행함.
    • weight
      • target_esmimate 분산 값이 증가하면, weight 크기를 줄인다. (반대도 성립)
    • bias
      • target_esmimate 분산 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
      • target_esmimate 평균 값이 증가하면, bias 크기를 줄인다. (반대도 성립)
    • 그러면 새 평균과 분산은 어떻게 반영(업데이트)하는데?
      • step이 0이면 완전 새것만 반영(beta = 1)
      • step이 증가할수록, beta가 감소하여, 기존 값을 더 많이 반영하게 됩니다.
      • step이 5가 되면, beta는 0.2로 줄어듭니다. (20%만 새 평균/분산을 반영)
      • 참고로 step은, 학습 횟수입니다. (b, u 만큼 데이터 처리를 1번하면 step 1 증가)
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글