강화학습에서 DQN의 확장 버전인 Rainbow라고 불리는 논문에서 적용된 방법 중 하나로, 기존의 휴리스틱하고 스테이트 인디펜던트한 Exploration 방법을 대체합니다.
ICLR 2020, Tencent AI Lab에서 발표한 논문으로 MCTS 4가지 단계 중 병렬화를 위해 Selection에서 사용되는 수식을 조금 변경하여 아타리 게임들에 대해 실험해봤을 때 기존 병렬화 방법들보다 성능이 좋아졌다고 합니다.