구글 딥마인드사에서 Atari게임을 위한 DQN을 구현할때 성능 개선을 위해 사용한 기법으로, supervised learning에서의 Batch Training과 같은 맥락으로 볼 수 있다.하나의 episode는 여러개의 상태 전이(transition)으로 이루어져있