input에 conditioned되도록,
각 frame에 대해 on-the-fly로 optimal resolution을 select하는 AR-Net (Adaptive Resolution Network)를 제안.
a video frame이 주어졌을 때, policy network는 어떤 input resolution으로 processing해야 하는지 결정하는 데에 사용됨.
policy network는 accuracy and efficiency를 둘 다 향상시키기 위해 학습되었고,
standard back-propagation을 통해 recognition model과 jointly 학습됨.