-
기존의 강화학습은 한 번에 하나의 작업에만 집중하여 에이전트를 훈련시키는 반면, 멀티태스크 강화학습은 여러 작업을 동시에 다루면서 에이전트를 훈련시킵니다.
-
멀티태스크 강화학습에서 주요한 목표는 다양한 작업들 간의 상호작용과 공유를 통해 학습 성능을 향상시키는 것입니다.
-
에이전트는 각 작업에 대한 정보와 보상을 받으며, 이를 토대로 최적의 정책을 학습합니다.
- 각 작업은 서로 다른 목표와 요구 사항을 가지고 있을 수 있으며, 에이전트의 리소스 (예: 메모리, 계산 능력)는 한정되어 있기 때문에 작업들 사이에서 적절한 균형을 유지해야 합니다.
-
멀티태스크 강화학습의 핵심은 다른 작업들 사이에서 지식 및 경험의 공유를 통해 효율적인 학습을 이루는 것
- 예를 들어, 에이전트가 한 작업에서 얻은 지식을 다른 작업에 적용하여 -> 학습 속도와 성능을 향상시킬 수 있음
- 또한, 작업 간의 상호작용을 통해 에이전트는 보다 일반화된 정책을 학습할 수 있음
- 즉, 한 작업에서 학습한 정책이 다른 작업에서도 유용하게 활용될 수 있는 것입니다.
-
이전에 문헌에서 탐구된 멀티태스크 강화학습에는 적어도 네 가지 주요 접근 방식
- 하나의 off-policy learning of many predictions about the same stream of experience(Schmidhuber 1990; Sutton et al. 2011; Jaderberg et al. 2016),
- continual learning in a sequence of tasks (Ring 1994; Thrun 1996; Thrun 2012; Rusu et al. 2016),
- distillation of task-specific experts into a single shared model (Parisotto, Ba, and Salakhutdinov 2015; Rusu et al. 2015; Schmitt et al. 2018; Teh et al. 2017)
- parallel learning of multiple tasks at once (Sharma and Ravindran 2017; Caruana 1998)
-
저희는 후자에 초점을 맞출 것입니다.
-
최근에 병렬 멀티태스크 학습은 하나의 시스템이 다양한 작업을 학습할 수 있도록 하는 데 많은 성공을 거두었습니다.
- 논문: 중요성 가중 액터-러너 아키텍처 (IMPALA, Espeholt et al. 2018)
-
하지만, 이러한 결과는 멀티태스크 강화학습에서 최첨단 기술이지만, 각 작업을 개별적으로 훈련할 때와 같은 도메인에서 -> 심층 강화학습 에이전트가 보여준 인간 수준의 성능과는 거리가 있습니다.
-
멀티태스크 학습이 단일 작업 학습보다 훨씬 어렵다는 이유 중 하나는
- 단일 학습 시스템의 제한된 자원 (예: 표현 능력이 제한된 경우)을 경쟁하는 여러 작업의 요구 사항 사이에서 균형을 잡아야 한다는 것
-
우리는 일반적인 강화학습 알고리즘을 멀티태스크 환경에 적용하는 것만으로는 이런 측면에서 성능이 좋지 않을 수 있다는 것을 관찰
-
구체적으로, 에이전트에게 작업의 중요성은, 해당 작업에서 관측되는 return의 규모와 함께 증가하며, 이는 작업 간에 임의로 다를 수 있음
- 이는 Q-러닝 (Watkins 1989)과 같은 가치 기반 알고리즘뿐만 아니라 REINFORCE (Williams 1992)와 같은 정책 기반 알고리즘에도 영향을 미칩니다.
-
개별 보상의 적절한 스케일링 문제는 새로운 문제가 아니며, 종종 보상 클리핑 (reward clipping)을 통해 해결되었습니다 (Mnih et al. 2015).
- 이러한 휴리스틱은 에이전트의 목표를 변경합니다.
- 예를 들어, 모든 보상이 음이 아닌 경우 -> 알고리즘은 누적 합계가 아닌 보상 빈도수를 최적화
- 두 목표가 충분히 일치하는 경우 클리핑은 효과적일 수 있습니다.
-
그러나 return의 규모는 보상의 희소성에도 의존
-
이는 보상 클리핑을 사용하더라도 멀티태스크 환경에서 업데이트의 크기가 여전히 작업 간에 상당히 다를 수 있음을 의미하며,
- 이로 인해 일부 작업은 다른 중요한 작업보다 학습 동적에 더 큰 영향을 미칠 수 있습니다.
- 환경에서 수집된 reward의 희소성과 크기는, 에이전트가 수집할 수 있는 보상의 총량을 최대화하기 위해 노력하는 과정에서 불변하지 않음
- 이러한 비불변적인 학습 동적은 학습 업데이트를 사전에 정규화하는 것이 불가능하게 만듦
-
심지어 알고리즘 설계에 상당한 도메인 지식을 투입할 의지가 있다 하더라도 마찬가지입니다.
-
요약하면, IMPALA에서 각 환경에서 수집된 경험으로 인해 업데이트의 크기는 다음과 같은 요소에 의존
-
이 논문에서는 PopArt 정규화를 사용하여
- 이러한 요소에 불변한 액터-크리틱 업데이트를 유도하여 병렬 멀티태스크 에이전트의 큰 성능 향상을 가능하게 했음